• Saltar al contenido principal
  • Skip to secondary menu
  • Saltar a la barra lateral principal
  • Saltar al pie de página
  • Inicio
  • Secciones
    • Ciencia de datos
    • Criptografía
    • Herramientas
    • Machine Learning
    • Noticias
    • Opinión
    • Productividad
    • Programación
      • JavaScript
      • Julia
      • Matlab
      • Python
      • R
  • Programación
    • JavaScript
    • Julia
    • Matlab
    • Python
    • R
  • Laboratorio
    • Estadística
      • Calculadora del Tamaño Muestral en Encuestas
      • Calculadora de estadísticos descriptivos
      • Test de normalidad
      • Calculadora de contrastes de hipotesis
      • Calculadora de tamano del efecto
      • Simulador de Regresión Lineal con Ruido
      • Visualizador de PCA
      • Visualizador de Series Temporales
      • Simulador de Regresión Logística
      • Simulador de K-Means
      • Simulador de DBSCAN
      • Detector de la Ley de Benford
    • Probabilidad
      • Calculadora de Probabilidad de Distribuciones
      • Calculadora de Probabilidades de Lotería
      • Simulador del Problema de Monty Hall
      • Simulador de la Estrategia Martingala
    • Finanzas
      • Calculadora de Préstamos e Hipotecas
      • Conversor TIN ↔ TAE
      • Calculadora DCA con ajuste por inflación
      • Calculadora XIRR con Flujos Irregulares
      • Simulador FIRE (Financial Independence, Retire Early)
    • Riesgo
      • Constructor de Scorecards de Crédito
      • Aplicar Scorecard de Crédito
    • Herramientas
      • Formateador / Minificador de JSON
      • Conversor CSV ↔ JSON
      • Comparador y Formateador de Texto y JSON
      • Formateador y Tester de Expresiones Regulares
      • Inspector de JWT
      • Generador y verificador de hashes
      • Codificador / Decodificador Base64 y URL
      • Conversor de bases numericas
      • Conversor de Timestamp Unix
      • Conversor de colores
      • Generador de UUIDs
    • Juegos
      • Tres en Raya
      • Nim con Q-Learning
    • Más
      • Método D’Hondt
      • Generador de Contraseñas Seguras
  • Noticias
  • Boletín
  • Contacto
  • Tienda
    • Libros
    • Equipamiento de oficina
    • Equipamiento en movilidad

Analytics Lane

Ciencia e ingeniería de datos aplicada

  • Ciencia de datos
  • Machine Learning
  • IA Generativa
  • Python
  • Pandas
  • NumPy
  • R
  • Excel

Significado de p-value en Machine Learning

septiembre 24, 2021 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 4 minutos

Una duda habitual que me suelen plantear los alumnos al comenzar en Machine Learning, y también no tan novatos, es que significan los p-value. Además de por qué se deben rechazar los resultados cuando estos superan 0,05. Básicamente este valor es la probabilidad de que, con los datos disponibles, la hipótesis nula, la opuesta a la que deseamos rechazar, sea verdadera. Por eso, solamente cuando estamos seguros de que la hipótesis nula es poco probable, se puede asumir como verdadera la hipótesis que deseamos probar. A continuación, se va a explicar de una forma intuitiva, sin un formalismo matemático, el significado de p-value en Machine Learning y el por qué del límite de 0,05.

La hipótesis nula y la hipótesis alternativa

En estadística una hipótesis es una afirmación que se realiza sobre una población, por ejemplo, que la media de alguna característica es igual a 5. Una afirmación que solamente se puede rechazar cuando los resultados obtenidos en una muestra de la población no sean compatibles con ella. Por ejemplo, para la característica del caso anterior se observa una media de 100 posiblemente podremos rechazar la hipótesis planteada de que el valor es 5, no así si se hubiese obtenido 5,01.

Así cuando se desea probar la veracidad de una hipótesis, a la que se denomina hipótesis alternativa (H1), es habitual plantear su opuesta, a la que se denomina hipótesis nula (H0), y se busca demostrar la falsedad de la segunda. De este modo, en el caso de que se pueda demostrar la falsedad de la hipótesis nula se podrá afirmar que la hipótesis alternativa es verdadera. Lo que básicamente es una técnica de reacción al absurdo. Pero ¿cómo se puede demostrar la falsedad de la hipótesis nula? Demostrando que la probabilidad de que esta sea cierta en base a los datos disponibles, lo que mide el p-value, se encuentre por debajo de un valor umbral dado, típicamente 0,05.

Nuevo test de normalidad interactivo en el laboratorio de Analytics Lane
En Analytics Lane
Nuevo test de normalidad interactivo en el laboratorio de Analytics Lane

Estimación del p-value

En este punto sabemos que si queremos demostrar una hipótesis solamente hay que plantear su opuesta y demostrar que los datos disponibles no la soportan. Para lo que calcularemos el p-value. Lo que requiere asumir que los datos se comportan de una manera dada, por ejemplo, que son aleatorios. Así si tenemos una moneda y la hipótesis de que esta no está trucada la posibilidad de obtener una cara es de 0,5, dos seguidas 0,25, tres seguidas 0,125… Siendo esta el p-value de la hipótesis en cada uno de los casos, la probabilidad de que se cierta la hipótesis.

Publicidad


Ejemplo: Probabilidad de que una moneda está trucada

Ahora supongamos que tenemos una moneda y tenemos la sospecha de que está trucada. Para ello podemos plantear la hipótesis alternativa (H1) “la moneda está trucada” y a modo de hipótesis nula (H0) su opuesta “la moneda no está trucada”. Por lo que solamente hay que comprobar que H0 no se soporta con los datos para demostrar que H1 es cierto. Lo que se puede hacer tirando la moneda y obteniendo:

  1. cara: 0,5
  2. cara: 0,25
  3. cara: 0,125
  4. cara: 0,0625
  5. cara: 0,03125
  6. cara: 0,015625
  7. cara: 0,0078125

Seguramente al obtener tres caras seguidas ya podemos comenzar a sospechar que la moneda está trucada. Pero esta serie tiene una probabilidad de 0,125 bajo la hipótesis nula, por lo que no se puede rechazar aún. Lo mismo pasa al obtener cuatro caras seguidas. Pero, en el caso de llegar a las cinco caras seguidas, las cosas cambiarán. La probabilidad para esta serie es de solamente 0,03125 con lo que se puede rechazar la hipótesis nula y afirmar que la moneda está trucada con un nivel de confianza bastante alto. Algo que se refuerza al obtener más caras seguidas, con siete la probabilidad baja por debajo de 0,01.

Así, podemos ver que 0,05 no es más que un criterio estándar para poder descartar la hipótesis nula. Aunque siempre se puede usar otro en caso de que necesitemos ser más o menos estrictos a la hora de poder descartar la hipótesis nula. Por ejemplo, en este caso podríamos esperar a la séptima tirada para asegurar que existe una probabilidad inferior a 0,01 de que estos resultados se puedan obtener con moneda que no esté trucada.

Los parámetros de los modelos y p-value en Machine Learning

Ahora ya podemos interpretar el significado de los p-values que se obtienen al entrenar nuestros modelos, para lo que solamente es necesario conocer cuál es la hipótesis nula utilizada. En el caso de los parámetros es “el parámetro no tiene efecto sobre el resultado del modelo”. En otras palabras, la hipótesis nula afirma que el valor del parámetro es cero, por lo que no tiene efecto en la predicción ni tiene sentido incluirlo. Así, en el caso de que podamos rechazar esta hipótesis se puede afirmar que el parámetro en cuestión es significativo.

Conclusiones

En esta ocasión he intentado explicar de una forma intuitiva el significado de un concepto estadístico utilizado en Machine Learning que mucha gente no comprende perfectamente. El p-value en Machine Learning es un concepto que nos puede ayudar mucho a la hora de seleccionar los parámetros y modelos que mejor se adaptan a los datos disponibles. Lo que nos permite garantizar que los resultados son los más adecuados en cada ocasión.

No sé si he conseguido el resultado deseado, pero si tienes cualquier duda o comentario te invito a que los dejes a continuación.

Imagen de jakob5200 en Pixabay

¿Te ha parecido de utilidad el contenido?

¡Puntúalo entre una y cinco estrellas!

Puntuación promedio 0 / 5. Votos emitidos: 0

Ya que has encontrado útil este contenido...

¡Síguenos en redes sociales!

¡Siento que este contenido no te haya sido útil!

¡Déjame mejorar este contenido!

Dime, ¿cómo puedo mejorar este contenido?

Publicidad


Publicaciones relacionadas

  • Nuevo test de normalidad interactivo en el laboratorio de Analytics Lane
  • Nuevo conversor de timestamp Unix en el laboratorio de Analytics Lane
  • Calculadora de Contrastes de Hipótesis: interpreta correctamente el p-valor y toma decisiones estadísticas con confianza
  • Calculadora de Tamaño del Efecto: la herramienta clave para entender cuánto importa realmente una diferencia
  • Simulador de DBSCAN: descubre cómo encontrar clusters reales (y ruido) sin fijar K
  • Conversor de Colores: convierte, compara y valida cualquier color en tiempo real
  • Analytics Lane lanza su Generador de UUIDs: identificadores únicos, seguros y listos para producción en segundos
  • 1200 publicaciones en Analytics Lane
  • Analytics Lane lanza su Conversor TIN ↔ TAE: la herramienta definitiva para entender el coste real de depósitos, préstamos e hipotecas

Publicado en: Ciencia de datos Etiquetado como: Estadística, Machine learning

Interacciones con los lectores

Deja una respuesta Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

I accept the Terms and Conditions and the Privacy Policy

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Barra lateral principal

Suscríbete a nuestro boletín

Suscríbete al boletín semanal para estar al día de todas las publicaciones.

Política de Privacidad

Analytics Lane en redes sociales

  • Amazon
  • Bluesky
  • Facebook
  • GitHub
  • Instagram
  • Mastodon
  • Pinterest
  • RSS
  • Telegram
  • Tumblr
  • Twitter
  • YouTube

Publicidad

Entradas recientes

WOE e IV: La Base Matemática del Credit Scoring

mayo 5, 2026 Por Daniel Rodríguez

Noticias

Lanzamiento de la versión 1.0 del laboratorio de Analytics Lane con nuevas herramientas de scoring

mayo 2, 2026 Por Daniel Rodríguez

Analytics Lane

¡Analytics Lane cumple ocho años!

mayo 2, 2026 Por Daniel Rodríguez

Publicidad

Es tendencia

  • Noticias Mejores mensajes de error en Python 3.10 publicado el octubre 11, 2021 | en Python
  • Codificación JSON Archivos JSON con Python: lectura y escritura publicado el julio 16, 2018 | en Python
  • pandas Creación de variables dummies con Pandas (variables binarias para aprendizaje automático) publicado el junio 26, 2023 | en Python
  • Programador de tareas de Windows: Guía definitiva para automatizar tu trabajo (BAT, PowerShell y Python) publicado el octubre 7, 2025 | en Herramientas, Productividad
  • Copiar y pegar Activar copiar y pegar en VirtualBox publicado el mayo 1, 2019 | en Herramientas

Publicidad

Lo mejor valorado

4.9 (24)

Seleccionar filas y columnas en Pandas con iloc y loc

4.6 (16)

Archivos JSON con Python: lectura y escritura

4.4 (14)

Ordenación de diccionarios en Python mediante clave o valor

4.7 (13)

Operaciones de filtrado de DataFrame con Pandas en base a los valores de las columnas

4.9 (11)

Pandas: Cambiar los tipos de datos en los DataFrames

Comentarios recientes

  • M. Pilar en Cómo eliminar las noticias en Windows 11 y recuperar tu concentración
  • Daniel Rodríguez en Probabilidad básica: cómo entender el azar en nuestra vida diaria
  • Pepe en Probabilidad básica: cómo entender el azar en nuestra vida diaria
  • CARLOS ARETURO BELLO CACERES en Justicio: La herramienta gratuita de IA para consultas legales
  • Piera en Ecuaciones multilínea en Markdown

Publicidad


Footer

Analytics Lane

  • Acerca de Analytics Lane
  • Boletín de noticias
  • Contacto
  • Libros
  • Lo más popular
  • Noticias
  • Tienda
  • Tiendas afiliadas

Secciones

  • Ciencia de datos
  • Criptografía
  • Herramientas
  • Machine Learning
  • Opinión
  • Productividad
  • Programación
  • Reseñas

Sobre de Analytics Lane

En Analytics Lane tratamos de explicar los principales conceptos de la ciencia e ingeniería de datos con un enfoque práctico. Los principales temas tratados son ciencia de datos, ingeniería de datos, inteligencia artificial, machine learning, deep learning y criptografía. Además, también se habla de los principales lenguajes de programación y herramientas utilizadas por los científicos e ingenieros de datos.

Copyright © 2018-2026 Analytics Lane ·Términos y condiciones ·Política de Cookies ·Política de Privacidad ·Herramientas de privacidad ·Contacto