Distancias y métricas en aprendizaje automático

En muchas técnicas de aprendizaje automático es necesario poder medir la separación entre los diferentes registros. Por ejemplo, en los métodos de análisis de clúster es necesario para obtener un grado de similitud entre los registros. La forma de hacer esto es utilizando las distancias. Asumiendo de esta forma que los datos son puntos en un espacio de n dimensiones.

Distancias

Matemáticamente una distancia es una función, $d(a,b)$ , que asigna un número positivo a cada par de puntos de un espacio n-dimensional, $a=(a_1,a_2,\ldots,a_n)$ , y verifica las siguientes propiedades:

No negativa, el valor nunca puede ser menor de cero. $d(a,b) \ge 0$
Simétrica, garantizando que la distancia entre $a$ y $b$ sea la misma que entre $b$ y $a$ . $d(a,b)=d(b,a)$
Verifica la desigualdad triangular, las distancia entre dos puntos ha de ser mayor o igual que la suma de las distancias de los puntos originales a un punto intermedio. Es decir, la distancia que hay que recorrer en dos caras de un triángulo es siempre mayor o igual la de la otra cara. $d(a,b) \le d(a,c)+d(c,b)$
La distancia con el mismo punto es cero. $d(a,a)=0$
Para que la distancia entre dos puntos sea cero estos han de ser el mismo, es decir $d(a,b)=0 \implies a=b$

Distancia Euclídea

Una de las distancias más conocidas y utilizadas es la distancia euclídea. Ya que es la que se utiliza en el día a día para medir la separación entre dos puntos. La distancia euclídea en un espacio de n dimensiones se define mediante la siguiente ecuación:

d(a,b) = \sqrt{\sum_{i=1}^n (a_i - b_i)^2}

Aunque esta distancia es útil para media la separación entre dos puntos en el mundo físico muestra algunas desventajas cuando se utiliza en un espacio de características, como es la dependencia con las unidades de cada una de las coordenadas. A la hora de medir la separación en el mundo físico todas las dimensiones se miden con las mismas unidades (metros, pies, etc.). En un espacio de características generalmente no es así. Por ejemplo, es habitual que se disponga de características como edad (años), ingresos (€, $, etc.) o número de hijos. Para solucionar este problema se puede utilizar la distancia euclídea normalizada que se define como:

d(a,b) = \sqrt{\sum_{i=1}^n \left(\frac{a_i}{\sigma_i} - \frac{b_i}{\sigma_i} \right)^2}

donde $\sigma_i^2$ es la varianza de la coordenada $i$ . El uso de esta distancia ofrece dos ventajas importantes frente a la euclídea. La primera es la independencia de los resultados de las unidades utilizadas en cada una de las coordenadas; la segunda es la de ajustar el peso de las coordenadas en función su varianza, haciendo que ya no pese igual una separación de un euro o dólar en el sueldo de un cliente que un hijo en la segmentación de clientes, como sucede en la euclídea.

Otra forma para solucionar el problema de las unidades es normalizar los datos antes de utilizar una distancia.

Geometría del taxista

Otra distancia de interés en algunos problemas es la Manhattan o geometría del taxista. El nombre hace referencia al diseño de cuadriculado de las calles de la isla de Manhattan, lo que obliga a moverse en los ejes que definen las calles. Así la distancia más corta entre dos puntos es la suma de los tramos de las calles. Esto es lo que se muestra en la siguiente figura donde la línea negra representa la distancia euclídea y el resto son la distancia Manhattan.

Distancia Manhattan — Representación de la distancia Manhattan

Matemáticamente se define como:

d(a,b) = \sqrt{\sum_{i=1}^n \left|a_i - b_i \right|}

Al igual que la distancia euclídea, en la Manhattan también puede ser normalizada o utilizar características normalizadas para evitar los efectos de las dimensiones.

Distancia de Minkowsky

La distancia de Minkowsky es una generalización de las vistas anteriormente. Esto se realiza mediante un parámetro $p$ con el que se puede reproducir los valores de las anteriores. Matemáticamente se define como:

d(a,b) = \sqrt[p]{\sum_{i=1}^n \left|a_i - b_i \right|^p}

Es fácil ver que en el caso de que el parámetro $p$ sea 1 se obtienen la geometría del taxista y en caso de que sea 2 la distancia euclídea. Obviamente, esta distancia también se puede normalizar para evitar problemas con las dimensiones de las características.

Conclusiones

En esta entrada se han visto tres de las principales distancias utilizadas en los algoritmos de aprendizaje automático. También se ha visto lo importante que es normalizar las características pare evitar que los resultados dependan de las unidades utilizadas.

Imágenes: Pixabay