El sesgo y varianza son dos conceptos importantes a la hora de medir el error en los modelos de aprendizaje automático. Por eso es necesario comprender su significado para evaluar correctamente lo que nos dicen.
Tabla de contenidos
La estadística es un área en la que se intenta extraer conclusiones de las poblaciones utilizando únicamente los datos de una muestra. Algo necesario ya que utilizar la población completa es demasiado costoso o directamente inviable en la mayoría de los casos. Como cuando se desea conocer la opinión de la ciudadanía sobre un tema, se utilizan encuestas porque preguntar a toda la población no es viable. Además del hecho que los entrevistados pueden mentir. Por el hecho de utilizar una muestra, en lugar de toda la población, los resultados serán diferentes a los reales. Es decir, existirá errores en la estimación obtenida. Dos de estos son el sesgo y la varianza.
El sesgo mide lo lejos que se encuentra el valor estimado respecto al real de la población completa. Por ejemplo, si se desea calcular la vida media de unas bombillas es necesario escoger una muestra. El tiempo de vida promedio de esta muestra es el que se le asocia a la población, pero no tiene porque se el de la población total. Este error es lo que se llama como sesgo.
Al trabajar con una muestra aleatoria de la población total es de esperar que sea diferente de otra muestra. Esta diferencia entre las muestras es lo que la varianza. Así cada vez que se realiza un nuevo muestreo se observa que los resultados suelen ser diferentes.
Los conceptos de sesgo y varianza que se han visto anteriormente se pueden extender fácilmente a los modelos de aprendizaje automático. En esta ocasión se puede ver que cada una de las familias presenta diferentes características en cuanto al sesgo y la varianza.
En aprendizaje automático para estimar un valor se utilizan modelos. Existiendo muchas familias entre los que escoger. Por ejemplo, en un problema de clasificación se puede utilizar regresiones logísticas o random forest entre otros. Pero no todos los modelos son iguales, ya que cada uno presenta diferentes propiedades.
Así que una pregunta obvia es cómo se relaciona cada una de las familias de modelos con el sesgo de las predicciones. El sesgo habitualmente presenta una relación inversa con la complejidad de los modelos. Es decir, a mayor complejidad del modelo utilizado es de esperar una menor sesgo.
Ahora bien, ¿qué se entiende por complejidad de un modelo? Por ejemplo, la regresión logística es un modelo más simple que un árbol de decisión. La regresión logística asume cierta relación entre las características y el valor a predecir. Por otro lado, random forest es más complejo en el sentido de que utiliza un conjunto de árboles de decisión para realizar las predicciones.
El entrenamiento de los modelos se realiza con conjuntos de dato diferentes sobre los que posteriormente se utiliza para validar las predicciones. A los que se conocen como conjunto de entrenamiento y test respectivamente. Por este hecho es de esperar que ambos conjuntos sean ligeramente diferentes. Es importante tener en cuenta que cuando entrena a un modelo no se esperar que este memorice los valores, sino que encuentre patrones. Observándose en muchas ocasiones que modelos complejos ajustan bien a los datos de entrenamiento, pero no sucede lo mismo con los de validación. En donde se suele observar que fallan.
La varianza también se puede relacionar con la complejidad de los modelos. A medida que aumenta la complejidad, aumentan las posibilidades de sobreajuste, es decir, la varianza aumenta. Al comparar la regresión logística con random forest se espera que la varianza del primero se meno que la del segundo.
En esta entrada se ha intentado explicar qué significan los conceptos sesgo y varianza en los modelos de aprendizaje automático.
Imágenes: Pixabay (Michael Schwarzenberger)
Cualquier país desarrollado tiene sus propios indicadores folclóricos. España, por motivos que tienen mucho que…
Entras a la web de tu banco. En la página principal, un banner llamativo: “Depósito…
Seguimos ampliando el laboratorio de Analytics Lane con el lanzamiento de la versión 1.3, disponible…
Cerramos la serie internacional con la categoría más estrambótica de todas: indicadores que predicen el…
Si el WOE y el IV son la base matemática del credit scoring, el binning…
Seguimos iterando sobre el laboratorio de Analytics Lane y lanzamos la versión 1.2, disponible en:https://www.analyticslane.com/lab/es…
This website uses cookies.