Ciencia de datos

¿Qué es el sesgo en aprendizaje automático?

En los procesos de toma de decisiones el término sesgo tiene generalmente connotaciones negativas. No es deseable que un proceso automático lo tenga de ningún tipo. La palabra sesgo procede de sesgar, un verbo que hace referencia a torcer o atravesar algo hacia uno de sus lados. Por lo que una decisión sesgada, que se tuerce en algún sentido, no es deseable. Los modelos de aprendizaje automático (“machine learnig”) no están exentos de este problema, ya que son desarrollados por personas. Así es importante conocer qué es el sesgo en aprendizaje automático y cómo se puede minimizar su aparición.

El sesgo en aprendizaje automático

El sesgo en aprendizaje automático, también conocido como sesgo de modelo, aparece cuando un modelo produce resultados erróneos de forma sistemática. La aparición de estos es debida a que los modelos son desarrollados por personas. Las cuales tiene tienen preferencias que transfieren a los modelos. Tanto sean conscientes como inconscientes. Muchas veces estas pueden pasar desapercibidos hasta que se los modelos se ponen en producción.

Origen de los sesgos

Una de las principales fuentes de sesgos de los modelos de aprendizaje automático son los procesos de capturar de datos. Estos datos que posteriormente se emplearán para el entrenamiento de los modelos. Un proceso cuyo resultado depende de la calidad, la objetividad y el tamaño de los conjuntos de datos empleados. Así, si los datos utilizados no son representan de forma objetiva la realidad, los modelos resultantes del proceso tendrán necesariamente sesgo.

Esto puede estar causado por una mala planificación del proceso por los responsables. O una falta de análisis crítico. Por lo que es importante saber cómo preguntar para evitar la aparición de sesgos.

Importancia de eliminar los sesgos

Los modelos de aprendizaje automático se utilizan diariamente para la toma de decisiones. Desde tareas triviales como qué anuncio se le presenta al visitante de una página web, hasta otras que pueden afectar a la vida de las personas como a quien se le concede un préstamo y a quien no. O, incluso, con implicaciones que pueden ser de vida y muerte como un diagnóstico médico.

Conclusiones

Es importante tomar consciencia del hecho que los modelos de aprendizaje automático pueden ser entrenados con sesgo. Por lo que es necesario poner en marcha todas las medidas posibles para evitarlo. La primera es garantizar que los datos utilizados son representativos de la realidad, no obtenidos únicamente en un subconjunto de la población en la que se van a aplicar. Una vez hecho esto los científicos de datos podrán desarrollar modelos que presenten el menor sesgo posible.

Es necesario recordar que los modelos de aprendizaje automático no piensan ni tienen sentimientos. Por lo que es una tarea de los científicos de datos pensar por ellos para evitar la existencia de sesgos.

Imágenes: Pixabay

¿Te ha parecido de utilidad el contenido?

Daniel Rodríguez

Share
Published by
Daniel Rodríguez

Recent Posts

Analytics Lane lanza ScoreFlow, un SaaS para construir y desplegar scorecards de crédito

En Analytics Lane seguimos evolucionando nuestras herramientas y damos un paso más con el lanzamiento…

1 día ago

DBSCAN y la selección de ε: teoría, intuición y aplicación práctica

Cuando hablamos de clustering, lo primero que viene a la mente suele ser k-means. Pero…

2 días ago

El bestiario de los indicadores económicos absurdos: El zoo patrio

Cualquier país desarrollado tiene sus propios indicadores folclóricos. España, por motivos que tienen mucho que…

1 semana ago

Por qué el banco te ofrece un 3% TAE y no es lo que parece

Entras a la web de tu banco. En la página principal, un banner llamativo: “Depósito…

1 semana ago

Analytics Lane lanza la versión 1.3 del laboratorio con nuevas herramientas de evaluación de modelos y utilidades prácticas

Seguimos ampliando el laboratorio de Analytics Lane con el lanzamiento de la versión 1.3, disponible…

2 semanas ago

This website uses cookies.