• Saltar al contenido principal
  • Skip to secondary menu
  • Saltar a la barra lateral principal
  • Saltar al pie de página
  • Inicio
  • Secciones
    • Ciencia de datos
    • Criptografía
    • Herramientas
    • Machine Learning
    • Noticias
    • Opinión
    • Productividad
    • Programación
      • JavaScript
      • Julia
      • Matlab
      • Python
      • R
  • Programación
    • JavaScript
    • Julia
    • Matlab
    • Python
    • R
  • Laboratorio
    • Estadística
      • Calculadora del Tamaño Muestral en Encuestas
      • Calculadora de estadísticos descriptivos
      • Test de normalidad
      • Calculadora de contrastes de hipotesis
      • Calculadora de tamano del efecto
      • Simulador de Regresión Lineal con Ruido
      • Visualizador de PCA
      • Visualizador de Series Temporales
      • Simulador de Regresión Logística
      • Simulador de K-Means
      • Simulador de DBSCAN
      • Detector de la Ley de Benford
      • Ajuste de Curvas
      • Calculadora de Matrices
    • Probabilidad
      • Calculadora de Probabilidad de Distribuciones
      • Calculadora de Probabilidades de Lotería
      • Simulador del Problema de Monty Hall
      • Simulador de la Estrategia Martingala
    • Finanzas
      • Calculadora de Préstamos e Hipotecas
      • Conversor TIN ↔ TAE
      • Calculadora DCA con ajuste por inflación
      • Calculadora XIRR con Flujos Irregulares
      • Simulador FIRE (Financial Independence, Retire Early)
    • Negocios
      • CLV
      • Scoring
    • Herramientas
      • Formateador / Minificador de JSON
      • Conversor CSV ↔ JSON
      • Comparador y Formateador de Texto y JSON
      • Formateador y Tester de Expresiones Regulares
      • Inspector de JWT
      • Generador y verificador de hashes
      • Codificador / Decodificador Base64 y URL
      • Conversor de bases numericas
      • Conversor de Timestamp Unix
      • Conversor de colores
      • Generador de UUIDs
    • Juegos
      • Tres en Raya
      • Nim con Q-Learning
    • Más
      • Método D’Hondt
      • Generador de Contraseñas Seguras
  • Noticias
  • Boletín
  • Contacto
  • Tienda
    • Libros
    • Equipamiento de oficina
    • Equipamiento en movilidad

Analytics Lane

Ciencia e ingeniería de datos aplicada

  • Ciencia de datos
  • Machine Learning
  • IA Generativa
  • Python
  • Pandas
  • NumPy
  • R
  • Excel

Significado de p-value en Machine Learning

septiembre 24, 2021 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 4 minutos

Una duda habitual que me suelen plantear los alumnos al comenzar en Machine Learning, y también no tan novatos, es que significan los p-value. Además de por qué se deben rechazar los resultados cuando estos superan 0,05. Básicamente este valor es la probabilidad de que, con los datos disponibles, la hipótesis nula, la opuesta a la que deseamos rechazar, sea verdadera. Por eso, solamente cuando estamos seguros de que la hipótesis nula es poco probable, se puede asumir como verdadera la hipótesis que deseamos probar. A continuación, se va a explicar de una forma intuitiva, sin un formalismo matemático, el significado de p-value en Machine Learning y el por qué del límite de 0,05.

La hipótesis nula y la hipótesis alternativa

En estadística una hipótesis es una afirmación que se realiza sobre una población, por ejemplo, que la media de alguna característica es igual a 5. Una afirmación que solamente se puede rechazar cuando los resultados obtenidos en una muestra de la población no sean compatibles con ella. Por ejemplo, para la característica del caso anterior se observa una media de 100 posiblemente podremos rechazar la hipótesis planteada de que el valor es 5, no así si se hubiese obtenido 5,01.

Así cuando se desea probar la veracidad de una hipótesis, a la que se denomina hipótesis alternativa (H1), es habitual plantear su opuesta, a la que se denomina hipótesis nula (H0), y se busca demostrar la falsedad de la segunda. De este modo, en el caso de que se pueda demostrar la falsedad de la hipótesis nula se podrá afirmar que la hipótesis alternativa es verdadera. Lo que básicamente es una técnica de reacción al absurdo. Pero ¿cómo se puede demostrar la falsedad de la hipótesis nula? Demostrando que la probabilidad de que esta sea cierta en base a los datos disponibles, lo que mide el p-value, se encuentre por debajo de un valor umbral dado, típicamente 0,05.

La caverna del consumo, o cómo Greenspan miraba calzoncillos para hacer política monetaria – El bestiario de los indicadores económicos absurdos (parte 1)
En Analytics Lane
La caverna del consumo, o cómo Greenspan miraba calzoncillos para hacer política monetaria – El bestiario de los indicadores económicos absurdos (parte 1)

Estimación del p-value

En este punto sabemos que si queremos demostrar una hipótesis solamente hay que plantear su opuesta y demostrar que los datos disponibles no la soportan. Para lo que calcularemos el p-value. Lo que requiere asumir que los datos se comportan de una manera dada, por ejemplo, que son aleatorios. Así si tenemos una moneda y la hipótesis de que esta no está trucada la posibilidad de obtener una cara es de 0,5, dos seguidas 0,25, tres seguidas 0,125… Siendo esta el p-value de la hipótesis en cada uno de los casos, la probabilidad de que se cierta la hipótesis.

Publicidad


Ejemplo: Probabilidad de que una moneda está trucada

Ahora supongamos que tenemos una moneda y tenemos la sospecha de que está trucada. Para ello podemos plantear la hipótesis alternativa (H1) “la moneda está trucada” y a modo de hipótesis nula (H0) su opuesta “la moneda no está trucada”. Por lo que solamente hay que comprobar que H0 no se soporta con los datos para demostrar que H1 es cierto. Lo que se puede hacer tirando la moneda y obteniendo:

  1. cara: 0,5
  2. cara: 0,25
  3. cara: 0,125
  4. cara: 0,0625
  5. cara: 0,03125
  6. cara: 0,015625
  7. cara: 0,0078125

Seguramente al obtener tres caras seguidas ya podemos comenzar a sospechar que la moneda está trucada. Pero esta serie tiene una probabilidad de 0,125 bajo la hipótesis nula, por lo que no se puede rechazar aún. Lo mismo pasa al obtener cuatro caras seguidas. Pero, en el caso de llegar a las cinco caras seguidas, las cosas cambiarán. La probabilidad para esta serie es de solamente 0,03125 con lo que se puede rechazar la hipótesis nula y afirmar que la moneda está trucada con un nivel de confianza bastante alto. Algo que se refuerza al obtener más caras seguidas, con siete la probabilidad baja por debajo de 0,01.

Así, podemos ver que 0,05 no es más que un criterio estándar para poder descartar la hipótesis nula. Aunque siempre se puede usar otro en caso de que necesitemos ser más o menos estrictos a la hora de poder descartar la hipótesis nula. Por ejemplo, en este caso podríamos esperar a la séptima tirada para asegurar que existe una probabilidad inferior a 0,01 de que estos resultados se puedan obtener con moneda que no esté trucada.

Los parámetros de los modelos y p-value en Machine Learning

Ahora ya podemos interpretar el significado de los p-values que se obtienen al entrenar nuestros modelos, para lo que solamente es necesario conocer cuál es la hipótesis nula utilizada. En el caso de los parámetros es “el parámetro no tiene efecto sobre el resultado del modelo”. En otras palabras, la hipótesis nula afirma que el valor del parámetro es cero, por lo que no tiene efecto en la predicción ni tiene sentido incluirlo. Así, en el caso de que podamos rechazar esta hipótesis se puede afirmar que el parámetro en cuestión es significativo.

Conclusiones

En esta ocasión he intentado explicar de una forma intuitiva el significado de un concepto estadístico utilizado en Machine Learning que mucha gente no comprende perfectamente. El p-value en Machine Learning es un concepto que nos puede ayudar mucho a la hora de seleccionar los parámetros y modelos que mejor se adaptan a los datos disponibles. Lo que nos permite garantizar que los resultados son los más adecuados en cada ocasión.

No sé si he conseguido el resultado deseado, pero si tienes cualquier duda o comentario te invito a que los dejes a continuación.

Imagen de jakob5200 en Pixabay

¿Te ha parecido de utilidad el contenido?

¡Puntúalo entre una y cinco estrellas!

Puntuación promedio 0 / 5. Votos emitidos: 0

Ya que has encontrado útil este contenido...

¡Síguenos en redes sociales!

¡Siento que este contenido no te haya sido útil!

¡Déjame mejorar este contenido!

Dime, ¿cómo puedo mejorar este contenido?

Publicidad


Publicaciones relacionadas

  • La caverna del consumo, o cómo Greenspan miraba calzoncillos para hacer política monetaria – El bestiario de los indicadores económicos absurdos (parte 1)
  • La vanidad del paisaje, o por qué un becario sale a contar grúas a Manhattan – El bestiario de los indicadores económicos absurdos (parte 2)
  • Augurios deportivos y portadas malditas, o cuando The Economist predice mejor al revés – El bestiario de los indicadores económicos absurdos (parte 3)
  • El Binning en Credit Scoring: El Arte de Discretizar Variables
  • Cómo comparar tendencias con gráficos de líneas en Matplotlib: guía práctica paso a paso
  • Analytics Lane lanza la versión 1.2 del laboratorio con nuevas herramientas de ajuste de curvas y cálculo matricial
  • Subplots en Matplotlib: cómo organizar múltiples gráficos en una sola figura
  • Analytics Lane lanza la versión 1.3 del laboratorio con nuevas herramientas de evaluación de modelos y utilidades prácticas
  • Ley de Benford: cómo detectar datos manipulados con ejemplos reales

Publicado en: Ciencia de datos Etiquetado como: Estadística, Machine learning

Interacciones con los lectores

Deja una respuesta Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

I accept the Terms and Conditions and the Privacy Policy

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Barra lateral principal

Suscríbete a nuestro boletín

Suscríbete al boletín semanal para estar al día de todas las publicaciones.

Política de Privacidad

Analytics Lane en redes sociales

  • Amazon
  • Bluesky
  • Facebook
  • GitHub
  • Instagram
  • Mastodon
  • Pinterest
  • RSS
  • Telegram
  • Tumblr
  • Twitter
  • YouTube

Publicidad

Entradas recientes

Noticias

Analytics Lane lanza la versión 1.3 del laboratorio con nuevas herramientas de evaluación de modelos y utilidades prácticas

junio 19, 2026 Por Daniel Rodríguez

Augurios deportivos y portadas malditas, o cuando The Economist predice mejor al revés – El bestiario de los indicadores económicos absurdos (parte 3)

junio 18, 2026 Por Daniel Rodríguez

El Binning en Credit Scoring: El Arte de Discretizar Variables

junio 16, 2026 Por Daniel Rodríguez

Publicidad

Es tendencia

  • Buscar en Excel con dos o más criterios publicado el septiembre 7, 2022 | en Herramientas
  • Comprobar hash SHA-256 o MD5 en Windows, macOS y Linux publicado el noviembre 1, 2023 | en Criptografía, Herramientas
  • ¿Qué son y cómo manejar los errores FutureWarning en Python? publicado el enero 22, 2024 | en Python
  • Combinar histogramas en Matplotlib publicado el agosto 2, 2022 | en Python
  • Noticias Analytics Lane lanza la versión 1.3 del laboratorio con nuevas herramientas de evaluación de modelos y utilidades prácticas publicado el junio 19, 2026 | en Noticias

Publicidad

Lo mejor valorado

4.9 (24)

Seleccionar filas y columnas en Pandas con iloc y loc

4.6 (16)

Archivos JSON con Python: lectura y escritura

4.4 (14)

Ordenación de diccionarios en Python mediante clave o valor

4.7 (13)

Operaciones de filtrado de DataFrame con Pandas en base a los valores de las columnas

4.9 (11)

Pandas: Cambiar los tipos de datos en los DataFrames

Comentarios recientes

  • bif en JSON en bases de datos: cuándo es buena idea y cuándo no
  • bif en Cómo desinstalar Oracle Database 19c en Windows
  • M. Pilar en Cómo eliminar las noticias en Windows 11 y recuperar tu concentración
  • Daniel Rodríguez en Probabilidad básica: cómo entender el azar en nuestra vida diaria
  • Pepe en Probabilidad básica: cómo entender el azar en nuestra vida diaria

Publicidad


Footer

Analytics Lane

  • Acerca de Analytics Lane
  • Boletín de noticias
  • Contacto
  • Libros
  • Lo más popular
  • Noticias
  • Tienda
  • Tiendas afiliadas

Secciones

  • Ciencia de datos
  • Criptografía
  • Herramientas
  • Machine Learning
  • Opinión
  • Productividad
  • Programación
  • Reseñas

Sobre de Analytics Lane

En Analytics Lane tratamos de explicar los principales conceptos de la ciencia e ingeniería de datos con un enfoque práctico. Los principales temas tratados son ciencia de datos, ingeniería de datos, inteligencia artificial, machine learning, deep learning y criptografía. Además, también se habla de los principales lenguajes de programación y herramientas utilizadas por los científicos e ingenieros de datos.

Copyright © 2018-2026 Analytics Lane ·Términos y condiciones ·Política de Cookies ·Política de Privacidad ·Herramientas de privacidad ·Contacto