Selección de una submuestra en Python con pandas

La generación de muestras aleatorias a partir de conjunto de datos es una tarea bastante habitual. Al realizar el entrenamiento de un modelo supervisado es habitual dejar un conjunto de datos para una validación posterior. También en algunos estudios estadísticos pueden realizarse únicamente con un conjunto de los datos originales. Por este motivo los objetos DataFrame de pandas incluyen el método sample() para realiza la selección de una submuestra en Python.

A modo de ejemplo se utilizará un conjunto de datos con las propinas que han recibido los empleados de un restaurante. Este conjunto de datos se puede encontrar en la librería seaborn y consta de 244 registros y 7 características. El código para realizar la importación de los datos se muestra a continuación.

from seaborn import load_dataset

df = load_dataset("tips")

Selección de una submuestra aleatoria

El método más fácil para obtener una submuestra aleatoria de un objeto DataFrame es mediante el método sample(). El número de registro se puede indicar mediante el parámetro n. Si no se indica nada el método devolverá un nuevo objeto con único registro, en caso contrario el resultado tendrá la cantidad indicada filas. Esto es lo que se muestra en el siguiente ejemplo.

df.sample().shape     # (1, 7)
df.sample(25).shape   # (25, 7)
df.sample(n=50).shape # (50, 7)

El dataframe original ha de contener por lo menos la cantidad de filas indicados. En el caso de que se intente generar una submuestra de un tamaño mayor al original se obtendrá un error. Esto es así porque el muestreo se realiza sin por defecto sin reemplazo. Para modificar este comportamiento se puede cambiar el parámetro replace a True. El funcionamiento de este parámetro se puede ver a continuación.

df.sample(n=50, replace=True).shape  # (50, 7)
df.sample(n=500, replace=True).shape # (500, 7)

Obtener un porcentaje de la muestra original

En lugar de indicar el número de registros de la submuestra se puede utilizar el porcentaje de registros. Para ello se ha de emplear la opción frac con un valor entre 0 y 1.

df.sample(frac=0).shape   # (0, 7)
df.sample(frac=0.5).shape # (122, 7)
df.sample(frac=1).shape   # (244, 7)

Al igual que en el caso anterior la opción por defecto es sin reemplazo. Si se desea generar una muestra de mayor tamaño solamente se han de configurar correctamente el parámetro replace.

df.sample(frac=1, replace=True).shape   # (244, 7)
df.sample(frac=1.5, replace=True).shape # (366, 7)
df.sample(frac=2, replace=True).shape   # (488, 7)

Nótese que con cuando se genera una submuestra de 244 registros con y sin reemplaza no se obtendrá el mismo objeto. En el primer caso, sin reemplazo, se obtendrán los mismos registros que el objeto original. En el segundo caso, con reemplazo, posiblemente más de un registro del original aparecerán duplicados mientras otros no.

Fijar la semilla del generador de número aleatorios

Para poder reproducir los resultados en diferentes sesiones se puede fijar la semilla utilizada por el generador de números aleatorios. Esto se puede conseguir asignando un número al parámetro random_state. Por ejemplo, el código siguiente código generará siempre el mismo conjunto de datos.

df.sample(n=3, random_state=1)
Muestra aleatoria con semilla
Muestra aleatoria con semilla

Selección de las filas con peso

Hasta ahora todas las filas se han seleccionado con la misma probabilidad. Pero el método permite indicar una columna con la que se asigna una probabilidad diferente a cada fila. Para lo que se utiliza el parámetro weights. A modo de ejemplo en el siguiente código se pondera el muestreo con el tamaño de la mesa.

df.sample(n=10, weights='size')

Utilización de filtros

El método sample() se puede combinar con filtro para utilizar únicamente los datos que cumplen un requisito. Por ejemplo, se puede seleccionar una muestra de 10 registros solamente entre los que tienen 4 o más comensales.

df[df['size'] > 3].sample(n=10)

Conclusiones

Se ha visto el funcionamiento del método sample() de los dataframes de pandas para obtener una submuestra en Python. El número de registros se puede indicar directamente o como un porcentaje del total. Por otro lado, la muestra también se puede realizar con o sin reemplazo. A un nivel más avanzado también se ha visto cómo es posible utilizar una variable para modificar la probabilidad para cada una de las filas.

Imágenes: Pixabay (Arek Socha)

Sin votos
Por favor espera...

Suscríbete a nuestro boletín

Si te ha gustado el contenido puedes suscribirte al boletín semanal para recibir en su correo electrónico todas las novedades publicadas en Analytics Lane.
La dirección de correo suministradas se utilizará únicamente para enviar un correo semanal con las últimas publicaciones aparecidas en el blog. Los datos nunca serán utilizados para otros fines diferentes. Para más información puede consular nuestra Política de Privacidad.

Contenido relacionado

Etiquetas:

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *