• Saltar al contenido principal
  • Skip to secondary menu
  • Saltar a la barra lateral principal
  • Saltar al pie de página
  • Inicio
  • Secciones
    • Ciencia de datos
    • Criptografía
    • Herramientas
    • Machine Learning
    • Noticias
    • Opinión
    • Productividad
    • Programación
      • JavaScript
      • Julia
      • Matlab
      • Python
      • R
  • Programación
    • JavaScript
    • Julia
    • Matlab
    • Python
    • R
  • Laboratorio
    • Estadística
      • Calculadora del Tamaño Muestral en Encuestas
      • Calculadora de estadísticos descriptivos
      • Test de normalidad
      • Calculadora de contrastes de hipotesis
      • Calculadora de tamano del efecto
      • Simulador de Regresión Lineal con Ruido
      • Visualizador de PCA
      • Visualizador de Series Temporales
      • Simulador de Regresión Logística
      • Simulador de K-Means
      • Simulador de DBSCAN
      • Detector de la Ley de Benford
    • Probabilidad
      • Calculadora de Probabilidad de Distribuciones
      • Calculadora de Probabilidades de Lotería
      • Simulador del Problema de Monty Hall
      • Simulador de la Estrategia Martingala
    • Finanzas
      • Calculadora de Préstamos e Hipotecas
      • Conversor TIN ↔ TAE
      • Calculadora DCA con ajuste por inflación
      • Calculadora XIRR con Flujos Irregulares
      • Simulador FIRE (Financial Independence, Retire Early)
    • Negocios
      • CLV
      • Scoring
    • Herramientas
      • Formateador / Minificador de JSON
      • Conversor CSV ↔ JSON
      • Comparador y Formateador de Texto y JSON
      • Formateador y Tester de Expresiones Regulares
      • Inspector de JWT
      • Generador y verificador de hashes
      • Codificador / Decodificador Base64 y URL
      • Conversor de bases numericas
      • Conversor de Timestamp Unix
      • Conversor de colores
      • Generador de UUIDs
    • Juegos
      • Tres en Raya
      • Nim con Q-Learning
    • Más
      • Método D’Hondt
      • Generador de Contraseñas Seguras
  • Noticias
  • Boletín
  • Contacto
  • Tienda
    • Libros
    • Equipamiento de oficina
    • Equipamiento en movilidad

Analytics Lane

Ciencia e ingeniería de datos aplicada

  • Ciencia de datos
  • Machine Learning
  • IA Generativa
  • Python
  • Pandas
  • NumPy
  • R
  • Excel

Selección de una submuestra en Python con pandas

diciembre 14, 2018 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 3 minutos

La generación de muestras aleatorias a partir de conjunto de datos es una tarea bastante habitual. Al realizar el entrenamiento de un modelo supervisado es habitual dejar un conjunto de datos para una validación posterior. También en algunos estudios estadísticos pueden realizarse únicamente con un conjunto de los datos originales. Por este motivo los objetos DataFrame de pandas incluyen el método sample() para realiza la selección de una submuestra en Python.

A modo de ejemplo se utilizará un conjunto de datos con las propinas que han recibido los empleados de un restaurante. Este conjunto de datos se puede encontrar en la librería seaborn y consta de 244 registros y 7 características. El código para realizar la importación de los datos se muestra a continuación.

from seaborn import load_dataset

df = load_dataset("tips")

Selección de una submuestra aleatoria

El método más fácil para obtener una submuestra aleatoria de un objeto DataFrame es mediante el método sample(). El número de registro se puede indicar mediante el parámetro n. Si no se indica nada el método devolverá un nuevo objeto con único registro, en caso contrario el resultado tendrá la cantidad indicada filas. Esto es lo que se muestra en el siguiente ejemplo.

df.sample().shape     # (1, 7)
df.sample(25).shape   # (25, 7)
df.sample(n=50).shape # (50, 7)

El dataframe original ha de contener por lo menos la cantidad de filas indicados. En el caso de que se intente generar una submuestra de un tamaño mayor al original se obtendrá un error. Esto es así porque el muestreo se realiza sin por defecto sin reemplazo. Para modificar este comportamiento se puede cambiar el parámetro replace a True. El funcionamiento de este parámetro se puede ver a continuación.

Nuevo test de normalidad interactivo en el laboratorio de Analytics Lane
En Analytics Lane
Nuevo test de normalidad interactivo en el laboratorio de Analytics Lane

df.sample(n=50, replace=True).shape  # (50, 7)
df.sample(n=500, replace=True).shape # (500, 7)

Obtener un porcentaje de la muestra original

En lugar de indicar el número de registros de la submuestra se puede utilizar el porcentaje de registros. Para ello se ha de emplear la opción frac con un valor entre 0 y 1.

df.sample(frac=0).shape   # (0, 7)
df.sample(frac=0.5).shape # (122, 7)
df.sample(frac=1).shape   # (244, 7)

Al igual que en el caso anterior la opción por defecto es sin reemplazo. Si se desea generar una muestra de mayor tamaño solamente se han de configurar correctamente el parámetro replace.

df.sample(frac=1, replace=True).shape   # (244, 7)
df.sample(frac=1.5, replace=True).shape # (366, 7)
df.sample(frac=2, replace=True).shape   # (488, 7)

Nótese que con cuando se genera una submuestra de 244 registros con y sin reemplaza no se obtendrá el mismo objeto. En el primer caso, sin reemplazo, se obtendrán los mismos registros que el objeto original. En el segundo caso, con reemplazo, posiblemente más de un registro del original aparecerán duplicados mientras otros no.

Publicidad


Fijar la semilla del generador de número aleatorios

Para poder reproducir los resultados en diferentes sesiones se puede fijar la semilla utilizada por el generador de números aleatorios. Esto se puede conseguir asignando un número al parámetro random_state. Por ejemplo, el código siguiente código generará siempre el mismo conjunto de datos.

df.sample(n=3, random_state=1)
Muestra aleatoria con semilla
Muestra aleatoria con semilla

Selección de las filas con peso

Hasta ahora todas las filas se han seleccionado con la misma probabilidad. Pero el método permite indicar una columna con la que se asigna una probabilidad diferente a cada fila. Para lo que se utiliza el parámetro weights. A modo de ejemplo en el siguiente código se pondera el muestreo con el tamaño de la mesa.

df.sample(n=10, weights='size')

Utilización de filtros

El método sample() se puede combinar con filtro para utilizar únicamente los datos que cumplen un requisito. Por ejemplo, se puede seleccionar una muestra de 10 registros solamente entre los que tienen 4 o más comensales.

df[df['size'] > 3].sample(n=10)

Publicidad


Conclusiones

Se ha visto el funcionamiento del método sample() de los dataframes de pandas para obtener una submuestra en Python. El número de registros se puede indicar directamente o como un porcentaje del total. Por otro lado, la muestra también se puede realizar con o sin reemplazo. A un nivel más avanzado también se ha visto cómo es posible utilizar una variable para modificar la probabilidad para cada una de las filas.

Imágenes: Pixabay (Arek Socha)

¿Te ha parecido de utilidad el contenido?

¡Puntúalo entre una y cinco estrellas!

Puntuación promedio 4.5 / 5. Votos emitidos: 2

Ya que has encontrado útil este contenido...

¡Síguenos en redes sociales!

¡Siento que este contenido no te haya sido útil!

¡Déjame mejorar este contenido!

Dime, ¿cómo puedo mejorar este contenido?

Publicaciones relacionadas

  • Nuevo test de normalidad interactivo en el laboratorio de Analytics Lane
  • Nuevo conversor de timestamp Unix en el laboratorio de Analytics Lane
  • Calculadora de Contrastes de Hipótesis: interpreta correctamente el p-valor y toma decisiones estadísticas con confianza
  • Calculadora de Tamaño del Efecto: la herramienta clave para entender cuánto importa realmente una diferencia
  • Simulador de DBSCAN: descubre cómo encontrar clusters reales (y ruido) sin fijar K
  • Conversor de Colores: convierte, compara y valida cualquier color en tiempo real
  • Analytics Lane lanza su Generador de UUIDs: identificadores únicos, seguros y listos para producción en segundos
  • 1200 publicaciones en Analytics Lane
  • Analytics Lane lanza su Conversor TIN ↔ TAE: la herramienta definitiva para entender el coste real de depósitos, préstamos e hipotecas

Publicado en: Python Etiquetado como: Pandas, Seaborn

Interacciones con los lectores

Deja una respuesta Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

I accept the Terms and Conditions and the Privacy Policy

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Barra lateral principal

Suscríbete a nuestro boletín

Suscríbete al boletín semanal para estar al día de todas las publicaciones.

Política de Privacidad

Analytics Lane en redes sociales

  • Amazon
  • Bluesky
  • Facebook
  • GitHub
  • Instagram
  • Mastodon
  • Pinterest
  • RSS
  • Telegram
  • Tumblr
  • Twitter
  • YouTube

Publicidad

Entradas recientes

De la Regresión Logística al Scorecard: La Transformación Matemática

mayo 19, 2026 Por Daniel Rodríguez

Noticias

Analytics Lane lanza la versión 1.1 del laboratorio con nuevas suites de CLV y Scoring

mayo 18, 2026 Por Daniel Rodríguez

Interés compuesto: la fuerza que multiplica tu dinero (y los errores que la anulan)

mayo 14, 2026 Por Daniel Rodríguez

Publicidad

Es tendencia

  • Gráficos de correlación en Seaborn: Mapas de calor y gráficos de pares publicado el julio 27, 2023 | en Python
  • Números calientes en Bonoloto: mismos resultados que el azar publicado el octubre 9, 2020 | en Opinión
  • Copiar y pegar Activar copiar y pegar en VirtualBox publicado el mayo 1, 2019 | en Herramientas
  • Hoja de cálculo para repartir los escaños en base al método D’Hont Aplicar el método D’Hondt en Excel publicado el abril 14, 2021 | en Herramientas
  • 7 extensiones de Visual Studio Code para ciencia de datos publicado el enero 27, 2023 | en Herramientas

Publicidad

Lo mejor valorado

4.9 (24)

Seleccionar filas y columnas en Pandas con iloc y loc

4.6 (16)

Archivos JSON con Python: lectura y escritura

4.4 (14)

Ordenación de diccionarios en Python mediante clave o valor

4.7 (13)

Operaciones de filtrado de DataFrame con Pandas en base a los valores de las columnas

4.1 (11)

Aplicar el método D’Hondt en Excel

Comentarios recientes

  • bif en JSON en bases de datos: cuándo es buena idea y cuándo no
  • bif en Cómo desinstalar Oracle Database 19c en Windows
  • M. Pilar en Cómo eliminar las noticias en Windows 11 y recuperar tu concentración
  • Daniel Rodríguez en Probabilidad básica: cómo entender el azar en nuestra vida diaria
  • Pepe en Probabilidad básica: cómo entender el azar en nuestra vida diaria

Publicidad


Footer

Analytics Lane

  • Acerca de Analytics Lane
  • Boletín de noticias
  • Contacto
  • Libros
  • Lo más popular
  • Noticias
  • Tienda
  • Tiendas afiliadas

Secciones

  • Ciencia de datos
  • Criptografía
  • Herramientas
  • Machine Learning
  • Opinión
  • Productividad
  • Programación
  • Reseñas

Sobre de Analytics Lane

En Analytics Lane tratamos de explicar los principales conceptos de la ciencia e ingeniería de datos con un enfoque práctico. Los principales temas tratados son ciencia de datos, ingeniería de datos, inteligencia artificial, machine learning, deep learning y criptografía. Además, también se habla de los principales lenguajes de programación y herramientas utilizadas por los científicos e ingenieros de datos.

Copyright © 2018-2026 Analytics Lane ·Términos y condiciones ·Política de Cookies ·Política de Privacidad ·Herramientas de privacidad ·Contacto