En muchas técnicas de aprendizaje automático es necesario poder medir la separación entre los diferentes registros. Por ejemplo, en los métodos de análisis de clúster es necesario para obtener un grado de similitud entre los registros. La forma de hacer esto es utilizando las distancias. Asumiendo de esta forma que los datos son puntos en un espacio de n dimensiones.
Matemáticamente una distancia es una función, d(a,b), que asigna un número positivo a cada par de puntos de un espacio n-dimensional, a=(a_1,a_2,\ldots,a_n), y verifica las siguientes propiedades:
Una de las distancias más conocidas y utilizadas es la distancia euclídea. Ya que es la que se utiliza en el día a día para medir la separación entre dos puntos. La distancia euclídea en un espacio de n dimensiones se define mediante la siguiente ecuación:
Aunque esta distancia es útil para media la separación entre dos puntos en el mundo físico muestra algunas desventajas cuando se utiliza en un espacio de características, como es la dependencia con las unidades de cada una de las coordenadas. A la hora de medir la separación en el mundo físico todas las dimensiones se miden con las mismas unidades (metros, pies, etc.). En un espacio de características generalmente no es así. Por ejemplo, es habitual que se disponga de características como edad (años), ingresos (€, $, etc.) o número de hijos. Para solucionar este problema se puede utilizar la distancia euclídea normalizada que se define como:
d(a,b) = \sqrt{\sum_{i=1}^n \left(\frac{a_i}{\sigma_i} - \frac{b_i}{\sigma_i} \right)^2}donde \sigma_i^2 es la varianza de la coordenada i. El uso de esta distancia ofrece dos ventajas importantes frente a la euclídea. La primera es la independencia de los resultados de las unidades utilizadas en cada una de las coordenadas; la segunda es la de ajustar el peso de las coordenadas en función su varianza, haciendo que ya no pese igual una separación de un euro o dólar en el sueldo de un cliente que un hijo en la segmentación de clientes, como sucede en la euclídea.
Otra forma para solucionar el problema de las unidades es normalizar los datos antes de utilizar una distancia.
Otra distancia de interés en algunos problemas es la Manhattan o geometría del taxista. El nombre hace referencia al diseño de cuadriculado de las calles de la isla de Manhattan, lo que obliga a moverse en los ejes que definen las calles. Así la distancia más corta entre dos puntos es la suma de los tramos de las calles. Esto es lo que se muestra en la siguiente figura donde la línea negra representa la distancia euclídea y el resto son la distancia Manhattan.
Matemáticamente se define como:
d(a,b) = \sqrt{\sum_{i=1}^n \left|a_i - b_i \right|}Al igual que la distancia euclídea, en la Manhattan también puede ser normalizada o utilizar características normalizadas para evitar los efectos de las dimensiones.
La distancia de Minkowsky es una generalización de las vistas anteriormente. Esto se realiza mediante un parámetro p con el que se puede reproducir los valores de las anteriores. Matemáticamente se define como:
d(a,b) = \sqrt[p]{\sum_{i=1}^n \left|a_i - b_i \right|^p}Es fácil ver que en el caso de que el parámetro p sea 1 se obtienen la geometría del taxista y en caso de que sea 2 la distancia euclídea. Obviamente, esta distancia también se puede normalizar para evitar problemas con las dimensiones de las características.
En esta entrada se han visto tres de las principales distancias utilizadas en los algoritmos de aprendizaje automático. También se ha visto lo importante que es normalizar las características pare evitar que los resultados dependan de las unidades utilizadas.
Imágenes: Pixabay
En la era del dato, las organizaciones se enfrentan al reto de gestionar volúmenes masivos…
En la serie Creación de una API REST con Express y TypeScript construimos una API…
Durante la Segunda Guerra Mundial, la Fuerza Aérea de Estados Unidos quería reforzar sus aviones…
En muchas situaciones —ya sea para grabar un tutorial, tomar capturas de pantalla profesionales, probar…
Imagínate en una sala con un grupo de personas, por ejemplo, en una oficina, un…
En el trabajo diario con ordenadores, es común encontrarse con tareas repetitivas: realizar copias de…
This website uses cookies.