Python

Barajar las filas de un DataFrame con Pandas

Los DataFrames de Pandas disponen del método sample() con el que se puede obtener una muestra aleatoria de los registros de un conjunto de datos. Método que se puede emplear para barajar las filas de un DataFrame. Veamos algunos de los usos que se le puede dar al método sample().

Conjunto de ejemplo

Antes de continuar es necesario disponer de un conjunto de datos de ejemplo. Para ello se puede crear uno aleatorio con la función randint() de NumPy y crear un DataFrame a partir de este.

import pandas as pd
import numpy as np

cols = 4
rows = 5

np.random.seed(0)

df = pd.DataFrame(np.random.randint(0,100, (rows, cols)))
df

    0   1   2   3
0  44  47  64  67
1  67   9  83  21
2  36  87  70  88
3  88  12  58  65
4  39  87  46  88

El método `sample()`

En Pandas todos los DataFrames cuentan con un método sample() que permite generar una muestra aleatoria de los elementos del objeto. Método cuyas principales propiedades son:

n: cantidad entera mediante la que se indica el número total de registros que se desea obtener, por defecto el valor es 1.
frac: fracción mediante la que se indica la fracción de las muestras que se desea obtener, cuando se usa este parámetro no se puede indicar al mismo tiempo un valor n.
replace: valor lógico con el que, si los valores extraídos pueden volver a salir posteriormente, esto es, si el muestreo se realiza mediante Bootstrap o Jackknife. El valor por defecto de esta propiedad es falso.
random_state: propiedad con la que se puede fijar la semilla del generador de números aleatorios usados.
axis: el eje en el que se desea realizar el muestreo. Por defecto se muestra por filas, pero también se puede indicar que la selección se realice por columnas.

Selección de unas filas aleatorias

El uso básico del método sample() es seleccionar una fila aleatoria del DataFrame, lo que se puede conseguir simplemente llamando al método

df.sample()

    0   1   2   3
2  36  87  70  88

Aunque puede ser más interesante seleccionar una cantidad de filas, por ejemplo, dos, y fijar la semilla, para que los resultados sean repetibles.

df.sample(2, random_state=0)

    0   1   2   3
2  36  87  70  88
0  44  47  64  67

También es posible indicar un porcentaje, por ejemplo, el 60% de los registros para obtener 3.

df.sample(frac=0.6, random_state=0)

    0   1   2   3
2  36  87  70  88
0  44  47  64  67
1  67   9  83  21

Recordando que en el caso de asignar un valor a la propiedad `frac` no se puede indicar un número de muestras, ya que en tal caso el método producirá un error.

Barajar las filas de un DataFrame

Así, si se desean barajar las filas del DataFrame lo único que hay que hacer es indicar que la fracción de datos sea el 100% del total. Como no hay repetición se obtendrán todas las filas originales, pero en distinto orden.

df.sample(frac=1, random_state=0)

    0   1   2   3
2  36  87  70  88
0  44  47  64  67
1  67   9  83  21
3  88  12  58  65
4  39  87  46  88

En este caso se puede recuperar la posición debido a que se conserva el índice, pero si se desea evitar este problema siempre se puede resetear el índice con el método reset_index().

df.sample(frac=1, random_state=0).reset_index(drop=True)

    0   1   2   3
0  36  87  70  88
1  44  47  64  67
2  67   9  83  21
3  88  12  58  65
4  39  87  46  88

Muestreo con repetición

Finalmente, también se puede realizar un muestreo con repetición, para lo que simplemente se deben asignar a la propiedad replace el valor de verdadero.

df.sample(frac=1, replace=True, random_state=0)

    0   1   2   3
4  39  87  46  88
0  44  47  64  67
3  88  12  58  65
3  88  12  58  65
3  88  12  58  65

En este caso se puede ver que la fila 3 aparece tres veces, al probar con otras semillas, o con valores de frac por encima de la unidad, las filas repetidas sean otras.

Conclusiones

En esta entrada se ha visto un método de los DataFrame Pandas con el que se puede realizar un muestreo de los registros. Algo que se puede emplear en simulaciones que requieren que barajar las filas de un DataFrame con Pandas.

Daniel Rodríguez

Next Incluir un certificado en Express para servir el API mediante HTTPS (9ª parte de creación de una API REST con Express y TypeScript) »

Previous « Comparativa de rendimiento M1 frente Ryzen 7 para Python

Published by

Daniel Rodríguez

Tags: Pandas

4 años ago

Cómo comparar datos con barras en Matplotlib: agrupadas, apiladas y porcentuales
Tienes los datos de ventas de tres productos en dos años distintos y quieres saber…
Subplots en Matplotlib: cómo organizar múltiples gráficos en una sola figura
Llevas un rato analizando datos y tienes cuatro gráficos abiertos en ventanas separadas: ventas, usuarios,…
Cómo comparar tendencias con gráficos de líneas en Matplotlib: guía práctica paso a paso
Tienes los datos de tráfico web de los últimos cinco meses desglosados por canal: orgánico,…

Analytics Lane lanza la versión 1.4 del laboratorio con nuevas herramientas de conversión y modelos avanzados de CLV

Seguimos ampliando el laboratorio de Analytics Lane con el lanzamiento de la versión 1.4, que…

4 días ago

Opinión

La liga internacional, o cuando Harvard y Johns Hopkins suman peras con manzanas – El bestiario de los indicadores económicos absurdos (parte 6)

Hemos llegado a la sexta entrega de la serie. Si las cuatro primeras fueron las…

5 días ago

Noticias

Lanzamos el video de ScoreFlow: crea scorecards de crédito de forma ágil y sin IT

En Analytics Lane seguimos apostando por desarrollar herramientas que simplifiquen el trabajo de analistas y…

6 días ago

Ciencia de datos

Data Leakage en Credit Scoring: El Error que Invalida tu Modelo

Imagina que construyes un scorecard con un Gini de 0,85. Un resultado extraordinario, muy por…

7 días ago

Opinión

Las fórmulas con DNI, o cómo dividir cualquier cosa entre cualquier otra cosa puede acabar publicado en un titular serio – El bestiario de los indicadores económicos absurdos (parte 5)

En las cuatro entregas anteriores recorrimos los disparates más folclóricos del género: faldas que predicen…

2 semanas ago

Noticias

Analytics Lane lanza ScoreFlow, un SaaS para construir y desplegar scorecards de crédito

En Analytics Lane seguimos evolucionando nuestras herramientas y damos un paso más con el lanzamiento…