Los conceptos de sesgo y varianza en aprendizaje automáticos

El sesgo y varianza son dos conceptos importantes a la hora de medir el error en los modelos de aprendizaje automático. Por eso es necesario comprender su significado para evaluar correctamente lo que nos dicen.

Tabla de contenidos

1 Sesgo y varianza en estadística
- 1.1 Sesgo
- 1.2 Varianza
2 Sesgo y varianza en aprendizaje automático
- 2.1 Sesgo
- 2.2 Varianza
3 Conclusiones

Sesgo y varianza en estadística

La estadística es un área en la que se intenta extraer conclusiones de las poblaciones utilizando únicamente los datos de una muestra. Algo necesario ya que utilizar la población completa es demasiado costoso o directamente inviable en la mayoría de los casos. Como cuando se desea conocer la opinión de la ciudadanía sobre un tema, se utilizan encuestas porque preguntar a toda la población no es viable. Además del hecho que los entrevistados pueden mentir. Por el hecho de utilizar una muestra, en lugar de toda la población, los resultados serán diferentes a los reales. Es decir, existirá errores en la estimación obtenida. Dos de estos son el sesgo y la varianza.

Sesgo

El sesgo mide lo lejos que se encuentra el valor estimado respecto al real de la población completa. Por ejemplo, si se desea calcular la vida media de unas bombillas es necesario escoger una muestra. El tiempo de vida promedio de esta muestra es el que se le asocia a la población, pero no tiene porque se el de la población total. Este error es lo que se llama como sesgo.

Varianza

Al trabajar con una muestra aleatoria de la población total es de esperar que sea diferente de otra muestra. Esta diferencia entre las muestras es lo que la varianza. Así cada vez que se realiza un nuevo muestreo se observa que los resultados suelen ser diferentes.

Sesgo y varianza en aprendizaje automático

Los conceptos de sesgo y varianza que se han visto anteriormente se pueden extender fácilmente a los modelos de aprendizaje automático. En esta ocasión se puede ver que cada una de las familias presenta diferentes características en cuanto al sesgo y la varianza.

Sesgo

En aprendizaje automático para estimar un valor se utilizan modelos. Existiendo muchas familias entre los que escoger. Por ejemplo, en un problema de clasificación se puede utilizar regresiones logísticas o random forest entre otros. Pero no todos los modelos son iguales, ya que cada uno presenta diferentes propiedades.

Así que una pregunta obvia es cómo se relaciona cada una de las familias de modelos con el sesgo de las predicciones. El sesgo habitualmente presenta una relación inversa con la complejidad de los modelos. Es decir, a mayor complejidad del modelo utilizado es de esperar una menor sesgo.

Ahora bien, ¿qué se entiende por complejidad de un modelo? Por ejemplo, la regresión logística es un modelo más simple que un árbol de decisión. La regresión logística asume cierta relación entre las características y el valor a predecir. Por otro lado, random forest es más complejo en el sentido de que utiliza un conjunto de árboles de decisión para realizar las predicciones.

Varianza

El entrenamiento de los modelos se realiza con conjuntos de dato diferentes sobre los que posteriormente se utiliza para validar las predicciones. A los que se conocen como conjunto de entrenamiento y test respectivamente. Por este hecho es de esperar que ambos conjuntos sean ligeramente diferentes. Es importante tener en cuenta que cuando entrena a un modelo no se esperar que este memorice los valores, sino que encuentre patrones. Observándose en muchas ocasiones que modelos complejos ajustan bien a los datos de entrenamiento, pero no sucede lo mismo con los de validación. En donde se suele observar que fallan.

La varianza también se puede relacionar con la complejidad de los modelos. A medida que aumenta la complejidad, aumentan las posibilidades de sobreajuste, es decir, la varianza aumenta. Al comparar la regresión logística con random forest se espera que la varianza del primero se meno que la del segundo.

Conclusiones

En esta entrada se ha intentado explicar qué significan los conceptos sesgo y varianza en los modelos de aprendizaje automático.

Imágenes: Pixabay (Michael Schwarzenberger)

Daniel Rodríguez

Next Simulador martingala en Matlab con GUIDE »

Previous « La estrategia martingala

Published by

Daniel Rodríguez

Tags: EstadísticaMachine learning

7 años ago

El Binning en Credit Scoring: El Arte de Discretizar Variables
Si el WOE y el IV son la base matemática del credit scoring, el binning…
Interés compuesto: la fuerza que multiplica tu dinero (y los errores que la anulan)
“El interés compuesto es la octava maravilla del mundo. El que lo entiende lo gana…
Calibración vs Discriminación en Credit Scoring: diferencias clave y cómo evaluarlas
Imagina que construyes un modelo de credit scoring y obtienes un Gini de 0,65. Un…

El bestiario de los indicadores económicos absurdos: El zoo patrio

Cualquier país desarrollado tiene sus propios indicadores folclóricos. España, por motivos que tienen mucho que…

4 días ago

Sin categoría

Por qué el banco te ofrece un 3% TAE y no es lo que parece

Entras a la web de tu banco. En la página principal, un banner llamativo: “Depósito…

6 días ago

Noticias

Analytics Lane lanza la versión 1.3 del laboratorio con nuevas herramientas de evaluación de modelos y utilidades prácticas

Seguimos ampliando el laboratorio de Analytics Lane con el lanzamiento de la versión 1.3, disponible…

1 semana ago

Opinión

Augurios deportivos y portadas malditas, o cuando The Economist predice mejor al revés – El bestiario de los indicadores económicos absurdos (parte 3)

Cerramos la serie internacional con la categoría más estrambótica de todas: indicadores que predicen el…

2 semanas ago

Sin categoría

El Binning en Credit Scoring: El Arte de Discretizar Variables

Si el WOE y el IV son la base matemática del credit scoring, el binning…

2 semanas ago

Noticias

Analytics Lane lanza la versión 1.2 del laboratorio con nuevas herramientas de ajuste de curvas y cálculo matricial

Seguimos iterando sobre el laboratorio de Analytics Lane y lanzamos la versión 1.2, disponible en:https://www.analyticslane.com/lab/es…

2 semanas ago

This website uses cookies.

Los conceptos de sesgo y varianza en aprendizaje automáticos

Sesgo y varianza en estadística

Sesgo

Varianza

Sesgo y varianza en aprendizaje automático

Sesgo

Varianza

Conclusiones

Publicaciones relacionadas

Related Post

Recent Posts

El bestiario de los indicadores económicos absurdos: El zoo patrio

Por qué el banco te ofrece un 3% TAE y no es lo que parece

Analytics Lane lanza la versión 1.3 del laboratorio con nuevas herramientas de evaluación de modelos y utilidades prácticas

Augurios deportivos y portadas malditas, o cuando The Economist predice mejor al revés – El bestiario de los indicadores económicos absurdos (parte 3)

El Binning en Credit Scoring: El Arte de Discretizar Variables

Analytics Lane lanza la versión 1.2 del laboratorio con nuevas herramientas de ajuste de curvas y cálculo matricial