El sesgo y varianza son dos conceptos importantes a la hora de medir el error en los modelos de aprendizaje automático. Por eso es necesario comprender su significado para evaluar correctamente lo que nos dicen.
Sesgo y varianza en estadística
La estadística es un área en la que se intenta extraer conclusiones de las poblaciones utilizando únicamente los datos de una muestra. Algo necesario ya que utilizar la población completa es demasiado costoso o directamente inviable en la mayoría de los casos. Como cuando se desea conocer la opinión de la ciudadanía sobre un tema, se utilizan encuestas porque preguntar a toda la población no es viable. Además del hecho que los entrevistados pueden mentir. Por el hecho de utilizar una muestra, en lugar de toda la población, los resultados serán diferentes a los reales. Es decir, existirá errores en la estimación obtenida. Dos de estos son el sesgo y la varianza.
Sesgo
El sesgo mide lo lejos que se encuentra el valor estimado respecto al real de la población completa. Por ejemplo, si se desea calcular la vida media de unas bombillas es necesario escoger una muestra. El tiempo de vida promedio de esta muestra es el que se le asocia a la población, pero no tiene porque se el de la población total. Este error es lo que se llama como sesgo.
Varianza
Al trabajar con una muestra aleatoria de la población total es de esperar que sea diferente de otra muestra. Esta diferencia entre las muestras es lo que la varianza. Así cada vez que se realiza un nuevo muestreo se observa que los resultados suelen ser diferentes.
Sesgo y varianza en aprendizaje automático
Los conceptos de sesgo y varianza que se han visto anteriormente se pueden extender fácilmente a los modelos de aprendizaje automático. En esta ocasión se puede ver que cada una de las familias presenta diferentes características en cuanto al sesgo y la varianza.
Sesgo
En aprendizaje automático para estimar un valor se utilizan modelos. Existiendo muchas familias entre los que escoger. Por ejemplo, en un problema de clasificación se puede utilizar regresiones logísticas o random forest entre otros. Pero no todos los modelos son iguales, ya que cada uno presenta diferentes propiedades.
Así que una pregunta obvia es cómo se relaciona cada una de las familias de modelos con el sesgo de las predicciones. El sesgo habitualmente presenta una relación inversa con la complejidad de los modelos. Es decir, a mayor complejidad del modelo utilizado es de esperar una menor sesgo.
Ahora bien, ¿qué se entiende por complejidad de un modelo? Por ejemplo, la regresión logística es un modelo más simple que un árbol de decisión. La regresión logística asume cierta relación entre las características y el valor a predecir. Por otro lado, random forest es más complejo en el sentido de que utiliza un conjunto de árboles de decisión para realizar las predicciones.
Varianza
El entrenamiento de los modelos se realiza con conjuntos de dato diferentes sobre los que posteriormente se utiliza para validar las predicciones. A los que se conocen como conjunto de entrenamiento y test respectivamente. Por este hecho es de esperar que ambos conjuntos sean ligeramente diferentes. Es importante tener en cuenta que cuando entrena a un modelo no se esperar que este memorice los valores, sino que encuentre patrones. Observándose en muchas ocasiones que modelos complejos ajustan bien a los datos de entrenamiento, pero no sucede lo mismo con los de validación. En donde se suele observar que fallan.
La varianza también se puede relacionar con la complejidad de los modelos. A medida que aumenta la complejidad, aumentan las posibilidades de sobreajuste, es decir, la varianza aumenta. Al comparar la regresión logística con random forest se espera que la varianza del primero se meno que la del segundo.
Conclusiones
En esta entrada se ha intentado explicar qué significan los conceptos sesgo y varianza en los modelos de aprendizaje automático.
Imágenes: Pixabay (Michael Schwarzenberger)
Deja una respuesta