• Saltar al contenido principal
  • Skip to secondary menu
  • Saltar a la barra lateral principal
  • Saltar al pie de página
  • Inicio
  • Secciones
    • Ciencia de datos
    • Criptografía
    • Herramientas
    • Machine Learning
    • Noticias
    • Opinión
    • Productividad
    • Programación
      • JavaScript
      • Julia
      • Matlab
      • Python
      • R
  • Programación
    • JavaScript
    • Julia
    • Matlab
    • Python
    • R
  • Noticias
  • Boletín
  • Contacto
  • Tienda
    • Libros
    • Equipamiento de oficina
    • Equipamiento en movilidad
    • Tiendas afiliadas
      • AliExpress
      • Amazon
      • Banggood
      • GeekBuying
      • Lenovo

Analytics Lane

Ciencia e ingeniería de datos aplicada

  • Ciencia de datos
  • Machine Learning
  • Python
  • Pandas
  • NumPy
  • Matlab
  • Julia
  • JavaScript
  • Excel

Selección de una submuestra en Python con pandas

diciembre 14, 2018 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 3 minutos

La generación de muestras aleatorias a partir de conjunto de datos es una tarea bastante habitual. Al realizar el entrenamiento de un modelo supervisado es habitual dejar un conjunto de datos para una validación posterior. También en algunos estudios estadísticos pueden realizarse únicamente con un conjunto de los datos originales. Por este motivo los objetos DataFrame de pandas incluyen el método sample() para realiza la selección de una submuestra en Python.

A modo de ejemplo se utilizará un conjunto de datos con las propinas que han recibido los empleados de un restaurante. Este conjunto de datos se puede encontrar en la librería seaborn y consta de 244 registros y 7 características. El código para realizar la importación de los datos se muestra a continuación.

from seaborn import load_dataset

df = load_dataset("tips")

Selección de una submuestra aleatoria

El método más fácil para obtener una submuestra aleatoria de un objeto DataFrame es mediante el método sample(). El número de registro se puede indicar mediante el parámetro n. Si no se indica nada el método devolverá un nuevo objeto con único registro, en caso contrario el resultado tendrá la cantidad indicada filas. Esto es lo que se muestra en el siguiente ejemplo.

df.sample().shape     # (1, 7)
df.sample(25).shape   # (25, 7)
df.sample(n=50).shape # (50, 7)

El dataframe original ha de contener por lo menos la cantidad de filas indicados. En el caso de que se intente generar una submuestra de un tamaño mayor al original se obtendrá un error. Esto es así porque el muestreo se realiza sin por defecto sin reemplazo. Para modificar este comportamiento se puede cambiar el parámetro replace a True. El funcionamiento de este parámetro se puede ver a continuación.

Publicidad


df.sample(n=50, replace=True).shape  # (50, 7)
df.sample(n=500, replace=True).shape # (500, 7)

Obtener un porcentaje de la muestra original

En lugar de indicar el número de registros de la submuestra se puede utilizar el porcentaje de registros. Para ello se ha de emplear la opción frac con un valor entre 0 y 1.

df.sample(frac=0).shape   # (0, 7)
df.sample(frac=0.5).shape # (122, 7)
df.sample(frac=1).shape   # (244, 7)

Al igual que en el caso anterior la opción por defecto es sin reemplazo. Si se desea generar una muestra de mayor tamaño solamente se han de configurar correctamente el parámetro replace.

df.sample(frac=1, replace=True).shape   # (244, 7)
df.sample(frac=1.5, replace=True).shape # (366, 7)
df.sample(frac=2, replace=True).shape   # (488, 7)

Nótese que con cuando se genera una submuestra de 244 registros con y sin reemplaza no se obtendrá el mismo objeto. En el primer caso, sin reemplazo, se obtendrán los mismos registros que el objeto original. En el segundo caso, con reemplazo, posiblemente más de un registro del original aparecerán duplicados mientras otros no.

Fijar la semilla del generador de número aleatorios

Para poder reproducir los resultados en diferentes sesiones se puede fijar la semilla utilizada por el generador de números aleatorios. Esto se puede conseguir asignando un número al parámetro random_state. Por ejemplo, el código siguiente código generará siempre el mismo conjunto de datos.

Publicidad


df.sample(n=3, random_state=1)
Muestra aleatoria con semilla
Muestra aleatoria con semilla

Selección de las filas con peso

Hasta ahora todas las filas se han seleccionado con la misma probabilidad. Pero el método permite indicar una columna con la que se asigna una probabilidad diferente a cada fila. Para lo que se utiliza el parámetro weights. A modo de ejemplo en el siguiente código se pondera el muestreo con el tamaño de la mesa.

df.sample(n=10, weights='size')

Utilización de filtros

El método sample() se puede combinar con filtro para utilizar únicamente los datos que cumplen un requisito. Por ejemplo, se puede seleccionar una muestra de 10 registros solamente entre los que tienen 4 o más comensales.

df[df['size'] > 3].sample(n=10)

Conclusiones

Se ha visto el funcionamiento del método sample() de los dataframes de pandas para obtener una submuestra en Python. El número de registros se puede indicar directamente o como un porcentaje del total. Por otro lado, la muestra también se puede realizar con o sin reemplazo. A un nivel más avanzado también se ha visto cómo es posible utilizar una variable para modificar la probabilidad para cada una de las filas.

Imágenes: Pixabay (Arek Socha)

¿Te ha parecido de utilidad el contenido?

¡Puntúalo entre una y cinco estrellas!

Puntuación promedio 4.5 / 5. Votos emitidos: 2

Publicidad


Ya que has encontrado útil este contenido...

¡Síguenos en redes sociales!

¡Siento que este contenido no te haya sido útil!

¡Déjame mejorar este contenido!

Dime, ¿cómo puedo mejorar este contenido?

Publicaciones relacionadas

  • coffee
    Uso de Pandas Query para filtrar datos de forma sencilla
  • logo-wide-lightbg
    Creación de gráficos de residuos en Seaborn para…
  • logo-wide-lightbg
    Introducción a Seaborn: Una visión general de la biblioteca
  • computer
    Análisis de sentimientos en español con spaCy en Python
  • DataFrame con estilos personalizados
    Formatos condicionales en Pandas
  • pandas
    Pandas: El método merge de Pandas

Publicado en: Python Etiquetado como: Pandas, Seaborn

Interacciones con los lectores

Deja una respuesta Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

I accept the Terms and Conditions and the Privacy Policy

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Publicidad





Barra lateral principal

Suscríbete a nuestro boletín

Suscríbete al boletín semanal para estar al día de todas las publicaciones.

Política de Privacidad

Analytics Lane en redes sociales

  • Amazon
  • Facebook
  • GitHub
  • Instagram
  • Pinterest
  • RSS
  • Twitter
  • Tumblr
  • YouTube

Publicidad

Entradas recientes

Tutorial básico de Traceroute

diciembre 8, 2023 Por Daniel Rodríguez

Usar el depurador de Visual Studio Code con Jest

diciembre 6, 2023 Por Daniel Rodríguez

Análisis de datos con GPT en Pandas

diciembre 4, 2023 Por Daniel Rodríguez

Publicidad

Es tendencia

  • Unir y combinar dataframes con pandas en Python publicado el septiembre 10, 2018 | en Python
  • ¿Cómo eliminar columnas y filas en un dataframe pandas? publicado el marzo 25, 2019 | en Python
  • Truco: reemplazar los valores NaN en los DataFrame Pandas publicado el mayo 30, 2022 | en Python
  • Agregar líneas a las figuras de Matplotlib publicado el septiembre 1, 2022 | en Python
  • Ordenadores portátiles para Machine learning publicado el septiembre 17, 2021 | en Reseñas

Publicidad

Lo mejor valorado

4.9 (22)

Seleccionar filas y columnas en Pandas con iloc y loc

4.7 (12)

Operaciones de filtrado de DataFrame con Pandas en base a los valores de las columnas

4.6 (15)

Archivos JSON con Python: lectura y escritura

4.5 (10)

Diferencias entre var y let en JavaScript

4.4 (13)

Ordenación de diccionarios en Python mediante clave o valor

Publicidad

Comentarios recientes

  • Anto en Rendimiento al iterar en JavaScript sobre un vector
  • Daniel Rodríguez en Creación de un certificado Let’s Encrypt en Windows con Win-Acme
  • Guillermo en Creación de un certificado Let’s Encrypt en Windows con Win-Acme
  • Daniel Rodríguez en ¿Cómo eliminar columnas y filas en un dataframe pandas?
  • Miguel en ¿Cómo eliminar columnas y filas en un dataframe pandas?

Publicidad

Footer

Analytics Lane

  • Acerca de Analytics Lane
  • Boletín de noticias
  • Contacto
  • Libros
  • Lo más popular
  • Noticias
  • Tienda
  • Tiendas afiliadas

Secciones

  • Ciencia de datos
  • Criptografía
  • Herramientas
  • Machine Learning
  • Opinión
  • Productividad
  • Programación
  • Reseñas

Sobre de Analytics Lane

En Analytics Lane tratamos de explicar los principales conceptos de la ciencia e ingeniería de datos con un enfoque práctico. Los principales temas tratados son ciencia de datos, ingeniería de datos, inteligencia artificial, machine learning, deep learning y criptografía. Además, también se habla de los principales lenguajes de programación y herramientas utilizadas por los científicos e ingenieros de datos.

Copyright © 2018-2023 Analytics Lane ·Términos y condiciones ·Política de Cookies ·Política de Privacidad ·Herramientas de privacidad ·Contacto