Selección de una submuestra en Python con pandas

La generación de muestras aleatorias a partir de conjunto de datos es una tarea bastante habitual. Al realizar el entrenamiento de un modelo supervisado es habitual dejar un conjunto de datos para una validación posterior. También en algunos estudios estadísticos pueden realizarse únicamente con un conjunto de los datos originales. Por este motivo los objetos DataFrame de pandas incluyen el método sample() para realiza la selección de una submuestra en Python.

A modo de ejemplo se utilizará un conjunto de datos con las propinas que han recibido los empleados de un restaurante. Este conjunto de datos se puede encontrar en la librería seaborn y consta de 244 registros y 7 características. El código para realizar la importación de los datos se muestra a continuación.

from seaborn import load_dataset

df = load_dataset("tips")

Selección de una submuestra aleatoria

El método más fácil para obtener una submuestra aleatoria de un objeto DataFrame es mediante el método sample(). El número de registro se puede indicar mediante el parámetro n. Si no se indica nada el método devolverá un nuevo objeto con único registro, en caso contrario el resultado tendrá la cantidad indicada filas. Esto es lo que se muestra en el siguiente ejemplo.

df.sample().shape     # (1, 7)
df.sample(25).shape   # (25, 7)
df.sample(n=50).shape # (50, 7)

El dataframe original ha de contener por lo menos la cantidad de filas indicados. En el caso de que se intente generar una submuestra de un tamaño mayor al original se obtendrá un error. Esto es así porque el muestreo se realiza sin por defecto sin reemplazo. Para modificar este comportamiento se puede cambiar el parámetro replace a True. El funcionamiento de este parámetro se puede ver a continuación.

df.sample(n=50, replace=True).shape  # (50, 7)
df.sample(n=500, replace=True).shape # (500, 7)

Obtener un porcentaje de la muestra original

En lugar de indicar el número de registros de la submuestra se puede utilizar el porcentaje de registros. Para ello se ha de emplear la opción frac con un valor entre 0 y 1.

df.sample(frac=0).shape   # (0, 7)
df.sample(frac=0.5).shape # (122, 7)
df.sample(frac=1).shape   # (244, 7)

Al igual que en el caso anterior la opción por defecto es sin reemplazo. Si se desea generar una muestra de mayor tamaño solamente se han de configurar correctamente el parámetro replace.

df.sample(frac=1, replace=True).shape   # (244, 7)
df.sample(frac=1.5, replace=True).shape # (366, 7)
df.sample(frac=2, replace=True).shape   # (488, 7)

Nótese que con cuando se genera una submuestra de 244 registros con y sin reemplaza no se obtendrá el mismo objeto. En el primer caso, sin reemplazo, se obtendrán los mismos registros que el objeto original. En el segundo caso, con reemplazo, posiblemente más de un registro del original aparecerán duplicados mientras otros no.

Fijar la semilla del generador de número aleatorios

Para poder reproducir los resultados en diferentes sesiones se puede fijar la semilla utilizada por el generador de números aleatorios. Esto se puede conseguir asignando un número al parámetro random_state. Por ejemplo, el código siguiente código generará siempre el mismo conjunto de datos.

df.sample(n=3, random_state=1)

Selección de las filas con peso

Hasta ahora todas las filas se han seleccionado con la misma probabilidad. Pero el método permite indicar una columna con la que se asigna una probabilidad diferente a cada fila. Para lo que se utiliza el parámetro weights. A modo de ejemplo en el siguiente código se pondera el muestreo con el tamaño de la mesa.

df.sample(n=10, weights='size')

Utilización de filtros

El método sample() se puede combinar con filtro para utilizar únicamente los datos que cumplen un requisito. Por ejemplo, se puede seleccionar una muestra de 10 registros solamente entre los que tienen 4 o más comensales.

df[df['size'] > 3].sample(n=10)

Conclusiones

Se ha visto el funcionamiento del método sample() de los dataframes de pandas para obtener una submuestra en Python. El número de registros se puede indicar directamente o como un porcentaje del total. Por otro lado, la muestra también se puede realizar con o sin reemplazo. A un nivel más avanzado también se ha visto cómo es posible utilizar una variable para modificar la probabilidad para cada una de las filas.

Imágenes: Pixabay (Arek Socha)

Selección de una submuestra en Python con pandas

Selección de una submuestra aleatoria

Obtener un porcentaje de la muestra original

Fijar la semilla del generador de número aleatorios

Selección de las filas con peso

Utilización de filtros

Conclusiones

Analytics Lane

Secciones

Sobre de Analytics Lane

Selección de una submuestra aleatoria

Obtener un porcentaje de la muestra original

Fijar la semilla del generador de número aleatorios

Selección de las filas con peso

Utilización de filtros

Conclusiones

Publicaciones relacionadas

Interacciones con los lectores

Deja una respuesta Cancelar la respuesta

Footer

Analytics Lane

Secciones

Sobre de Analytics Lane