Distancias y métricas en aprendizaje automático

En muchas técnicas de aprendizaje automático es necesario poder medir la separación entre los diferentes registros. Por ejemplo, en los métodos de análisis de clúster es necesario para obtener un grado de similitud entre los registros. La forma de hacer esto es utilizando las distancias. Asumiendo de esta forma que los datos son puntos en un espacio de n dimensiones.

Distancias

Matemáticamente una distancia es una función, $d(a,b)$ , que asigna un número positivo a cada par de puntos de un espacio n-dimensional, $a=(a_1,a_2,\ldots,a_n)$ , y verifica las siguientes propiedades:

No negativa, el valor nunca puede ser menor de cero. $d(a,b) \ge 0$
Simétrica, garantizando que la distancia entre $a$ y $b$ sea la misma que entre $b$ y $a$ . $d(a,b)=d(b,a)$
Verifica la desigualdad triangular, las distancia entre dos puntos ha de ser mayor o igual que la suma de las distancias de los puntos originales a un punto intermedio. Es decir, la distancia que hay que recorrer en dos caras de un triángulo es siempre mayor o igual la de la otra cara. $d(a,b) \le d(a,c)+d(c,b)$
La distancia con el mismo punto es cero. $d(a,a)=0$
Para que la distancia entre dos puntos sea cero estos han de ser el mismo, es decir $d(a,b)=0 \implies a=b$

Distancia Euclídea

Una de las distancias más conocidas y utilizadas es la distancia euclídea. Ya que es la que se utiliza en el día a día para medir la separación entre dos puntos. La distancia euclídea en un espacio de n dimensiones se define mediante la siguiente ecuación:

d(a,b) = \sqrt{\sum_{i=1}^n (a_i - b_i)^2}

Aunque esta distancia es útil para media la separación entre dos puntos en el mundo físico muestra algunas desventajas cuando se utiliza en un espacio de características, como es la dependencia con las unidades de cada una de las coordenadas. A la hora de medir la separación en el mundo físico todas las dimensiones se miden con las mismas unidades (metros, pies, etc.). En un espacio de características generalmente no es así. Por ejemplo, es habitual que se disponga de características como edad (años), ingresos (€, $, etc.) o número de hijos. Para solucionar este problema se puede utilizar la distancia euclídea normalizada que se define como:

d(a,b) = \sqrt{\sum_{i=1}^n \left(\frac{a_i}{\sigma_i} - \frac{b_i}{\sigma_i} \right)^2}

donde $\sigma_i^2$ es la varianza de la coordenada $i$ . El uso de esta distancia ofrece dos ventajas importantes frente a la euclídea. La primera es la independencia de los resultados de las unidades utilizadas en cada una de las coordenadas; la segunda es la de ajustar el peso de las coordenadas en función su varianza, haciendo que ya no pese igual una separación de un euro o dólar en el sueldo de un cliente que un hijo en la segmentación de clientes, como sucede en la euclídea.

Otra forma para solucionar el problema de las unidades es normalizar los datos antes de utilizar una distancia.

Geometría del taxista

Otra distancia de interés en algunos problemas es la Manhattan o geometría del taxista. El nombre hace referencia al diseño de cuadriculado de las calles de la isla de Manhattan, lo que obliga a moverse en los ejes que definen las calles. Así la distancia más corta entre dos puntos es la suma de los tramos de las calles. Esto es lo que se muestra en la siguiente figura donde la línea negra representa la distancia euclídea y el resto son la distancia Manhattan.

Representación de la distancia Manhattan

Matemáticamente se define como:

d(a,b) = \sqrt{\sum_{i=1}^n \left|a_i - b_i \right|}

Al igual que la distancia euclídea, en la Manhattan también puede ser normalizada o utilizar características normalizadas para evitar los efectos de las dimensiones.

Distancia de Minkowsky

La distancia de Minkowsky es una generalización de las vistas anteriormente. Esto se realiza mediante un parámetro $p$ con el que se puede reproducir los valores de las anteriores. Matemáticamente se define como:

d(a,b) = \sqrt[p]{\sum_{i=1}^n \left|a_i - b_i \right|^p}

Es fácil ver que en el caso de que el parámetro $p$ sea 1 se obtienen la geometría del taxista y en caso de que sea 2 la distancia euclídea. Obviamente, esta distancia también se puede normalizar para evitar problemas con las dimensiones de las características.

Conclusiones

En esta entrada se han visto tres de las principales distancias utilizadas en los algoritmos de aprendizaje automático. También se ha visto lo importante que es normalizar las características pare evitar que los resultados dependan de las unidades utilizadas.

Imágenes: Pixabay

Daniel Rodríguez

Next ¿Qué es el Aprendizaje Profundo o Deep Learning? »

Previous « ¿Qué es el Aprendizaje Automático?

Published by

Daniel Rodríguez

Tags: Machine learning

7 años ago

Data Lake y Data Warehouse: diferencias, usos y cómo se complementan en la era del dato
En la era del dato, las organizaciones se enfrentan al reto de gestionar volúmenes masivos…
¿Está concentrado el MSCI World? Un análisis con Gini, Lorenz y leyes de potencia
El MSCI World Index suele presentarse como “la ventana al mundo” para quienes invierten en…
Cómo calcular el tamaño de la muestra para encuestas
Calcular adecuadamente el tamaño de la muestra es una parte esencial en el diseño de…

Data Lake y Data Warehouse: diferencias, usos y cómo se complementan en la era del dato

En la era del dato, las organizaciones se enfrentan al reto de gestionar volúmenes masivos…

2 días ago

JavaScript

Documentar tu API de Express con TypeScript usando OpenAPI (Swagger)

En la serie Creación de una API REST con Express y TypeScript construimos una API…

4 días ago

Opinión

Curiosidad: El sesgo de supervivencia, o por qué prestar atención sólo a los que “llegaron” puede engañarte

Durante la Segunda Guerra Mundial, la Fuerza Aérea de Estados Unidos quería reforzar sus aviones…

1 semana ago

Herramientas

Cómo abrir una ventana de Chrome con tamaño y posición específicos desde la línea de comandos en Windows

En muchas situaciones —ya sea para grabar un tutorial, tomar capturas de pantalla profesionales, probar…

2 semanas ago

Opinión

La Paradoja del Cumpleaños, o por qué no es tan raro compartir fecha de nacimiento

Imagínate en una sala con un grupo de personas, por ejemplo, en una oficina, un…

2 semanas ago

Herramientas

Programador de tareas de Windows: Guía definitiva para automatizar tu trabajo (BAT, PowerShell y Python)

En el trabajo diario con ordenadores, es común encontrarse con tareas repetitivas: realizar copias de…

3 semanas ago

This website uses cookies.