En los procesos de toma de decisiones el término sesgo tiene generalmente connotaciones negativas. No es deseable que un proceso automático lo tenga de ningún tipo. La palabra sesgo procede de sesgar, un verbo que hace referencia a torcer o atravesar algo hacia uno de sus lados. Por lo que una decisión sesgada, que se tuerce en algún sentido, no es deseable. Los modelos de aprendizaje automático (“machine learnig”) no están exentos de este problema, ya que son desarrollados por personas. Así es importante conocer qué es el sesgo en aprendizaje automático y cómo se puede minimizar su aparición.
El sesgo en aprendizaje automático, también conocido como sesgo de modelo, aparece cuando un modelo produce resultados erróneos de forma sistemática. La aparición de estos es debida a que los modelos son desarrollados por personas. Las cuales tiene tienen preferencias que transfieren a los modelos. Tanto sean conscientes como inconscientes. Muchas veces estas pueden pasar desapercibidos hasta que se los modelos se ponen en producción.
Una de las principales fuentes de sesgos de los modelos de aprendizaje automático son los procesos de capturar de datos. Estos datos que posteriormente se emplearán para el entrenamiento de los modelos. Un proceso cuyo resultado depende de la calidad, la objetividad y el tamaño de los conjuntos de datos empleados. Así, si los datos utilizados no son representan de forma objetiva la realidad, los modelos resultantes del proceso tendrán necesariamente sesgo.
Esto puede estar causado por una mala planificación del proceso por los responsables. O una falta de análisis crítico. Por lo que es importante saber cómo preguntar para evitar la aparición de sesgos.
Los modelos de aprendizaje automático se utilizan diariamente para la toma de decisiones. Desde tareas triviales como qué anuncio se le presenta al visitante de una página web, hasta otras que pueden afectar a la vida de las personas como a quien se le concede un préstamo y a quien no. O, incluso, con implicaciones que pueden ser de vida y muerte como un diagnóstico médico.
Es importante tomar consciencia del hecho que los modelos de aprendizaje automático pueden ser entrenados con sesgo. Por lo que es necesario poner en marcha todas las medidas posibles para evitarlo. La primera es garantizar que los datos utilizados son representativos de la realidad, no obtenidos únicamente en un subconjunto de la población en la que se van a aplicar. Una vez hecho esto los científicos de datos podrán desarrollar modelos que presenten el menor sesgo posible.
Es necesario recordar que los modelos de aprendizaje automático no piensan ni tienen sentimientos. Por lo que es una tarea de los científicos de datos pensar por ellos para evitar la existencia de sesgos.
Imágenes: Pixabay
En las cuatro entregas anteriores recorrimos los disparates más folclóricos del género: faldas que predicen…
En Analytics Lane seguimos evolucionando nuestras herramientas y damos un paso más con el lanzamiento…
Cuando hablamos de clustering, lo primero que viene a la mente suele ser k-means. Pero…
Cualquier país desarrollado tiene sus propios indicadores folclóricos. España, por motivos que tienen mucho que…
Entras a la web de tu banco. En la página principal, un banner llamativo: “Depósito…
Seguimos ampliando el laboratorio de Analytics Lane con el lanzamiento de la versión 1.3, disponible…
This website uses cookies.