• Ir al contenido principal
  • Skip to secondary menu
  • Ir a la barra lateral primaria
  • Ir al pie de página
  • Inicio
  • Secciones
    • Ciencia de datos
    • Criptografía
    • Herramientas
    • Noticias
    • Opinión
  • Programación
    • JavaScript
    • Julia
    • Matlab
    • Python
    • R
  • Boletín
  • Contacto
  • Acerca de Analytics Lane
  • Tienda
    • Libros
    • Equipamiento de oficina
    • Equipamiento en movilidad
    • Tiendas afiliadas
      • AliExpress
      • Amazon
      • GearBest
      • GeekBuying
      • JoyBuy

Analytics Lane

Ciencia e ingeniería de datos aplicada

  • Ciencia de datos
  • Criptografía
  • Python
  • Matlab
  • R
  • Julia
  • JavaScript
  • Herramientas
  • Opinión
  • Noticias

Distancias y métricas en aprendizaje automático

agosto 24, 2018 Por Daniel Rodríguez Dejar un comentario

Distancias

En muchas técnicas de aprendizaje automático es necesario poder medir la separación entre los diferentes registros. Por ejemplo, en los métodos de análisis de clúster es necesario para obtener un grado de similitud entre los registros. La forma de hacer esto es utilizando las distancias. Asumiendo de esta forma que los datos son puntos en un espacio de n dimensiones.

Distancias

Matemáticamente una distancia es una función, d(a,b), que asigna un número positivo a cada par de puntos de un espacio n-dimensional, a=(a_1,a_2,\ldots,a_n), y verifica las siguientes propiedades:

  • No negativa, el valor nunca puede ser menor de cero.d(a,b) \ge 0
  • Simétrica, garantizando que la distancia entre a y b sea la misma que entre b y a. d(a,b)=d(b,a)
  • Verifica la desigualdad triangular, las distancia entre dos puntos ha de ser mayor o igual que la suma de las distancias de los puntos originales a un punto intermedio. Es decir, la distancia que hay que recorrer en dos caras de un triángulo es siempre mayor o igual la de la otra cara. d(a,b) \le d(a,c)+d(c,b)
  • La distancia con el mismo punto es cero. d(a,a)=0
  • Para que la distancia entre dos puntos sea cero estos han de ser el mismo, es decir d(a,b)=0 \implies a=b

Distancia Euclídea

Una de las distancias más conocidas y utilizadas es la distancia euclídea. Ya que es la que se utiliza en el día a día para medir la separación entre dos puntos. La distancia euclídea en un espacio de n dimensiones se define mediante la siguiente ecuación:

d(a,b) = \sqrt{\sum_{i=1}^n (a_i - b_i)^2}

Aunque esta distancia es útil para media la separación entre dos puntos en el mundo físico muestra algunas desventajas cuando se utiliza en un espacio de características, como es la dependencia con las unidades de cada una de las coordenadas. A la hora de medir la separación en el mundo físico todas las dimensiones se miden con las mismas unidades (metros, pies, etc.). En un espacio de características generalmente no es así. Por ejemplo, es habitual que se disponga de características como edad (años), ingresos (€, $, etc.) o número de hijos. Para solucionar este problema se puede utilizar la distancia euclídea normalizada que se define como:

d(a,b) = \sqrt{\sum_{i=1}^n \left(\frac{a_i}{\sigma_i} - \frac{b_i}{\sigma_i} \right)^2}

donde \sigma_i^2 es la varianza de la coordenada i. El uso de esta distancia ofrece dos ventajas importantes frente a la euclídea. La primera es la independencia de los resultados de las unidades utilizadas en cada una de las coordenadas; la segunda es la de ajustar el peso de las coordenadas en función su varianza, haciendo que ya no pese igual una separación de un euro o dólar en el sueldo de un cliente que un hijo en la segmentación de clientes, como sucede en la euclídea.

Otra forma para solucionar el problema de las unidades es normalizar los datos antes de utilizar una distancia.

Geometría del taxista

Otra distancia de interés en algunos problemas es la Manhattan o geometría del taxista. El nombre hace referencia al diseño de cuadriculado de las calles de la isla de Manhattan, lo que obliga a moverse en los ejes que definen las calles. Así la distancia más corta entre dos puntos es la suma de los tramos de las calles. Esto es lo que se muestra en la siguiente figura donde la línea negra representa la distancia euclídea y el resto son la distancia Manhattan.

Distancia Manhattan
Representación de la distancia Manhattan

Matemáticamente se define como:

d(a,b) = \sqrt{\sum_{i=1}^n \left|a_i - b_i \right|}

Al igual que la distancia euclídea, en la Manhattan también puede ser normalizada o utilizar características normalizadas para evitar los efectos de las dimensiones.

Distancia de Minkowsky

La distancia de Minkowsky es una generalización de las vistas anteriormente. Esto se realiza mediante un parámetro p con el que se puede reproducir los valores de las anteriores. Matemáticamente se define como:

d(a,b) = \sqrt[p]{\sum_{i=1}^n \left|a_i - b_i \right|^p}

Es fácil ver que en el caso de que el parámetro p sea 1 se obtienen la geometría del taxista y en caso de que sea 2 la distancia euclídea. Obviamente, esta distancia también se puede normalizar para evitar problemas con las dimensiones de las características.

Conclusiones

En esta entrada se han visto tres de las principales distancias utilizadas en los algoritmos de aprendizaje automático. También se ha visto lo importante que es normalizar las características pare evitar que los resultados dependan de las unidades utilizadas.

Imágenes: Pixabay

¿Te ha parecido de utilidad el contenido?

¡Puntúalo entre una y cinco estrellas!

Puntuación promedio 0 / 5. Votos emitidos: 0

Ya que has encontrado útil este contenido...

¡Síguenos en redes sociales!

¡Siento que este contenido no te haya sido útil!

¡Déjame mejorar este contenido!

Dime, ¿cómo puedo mejorar este contenido?

Contenido relacionado

Archivado en:Ciencia de datos Etiquetado con:Machine learning

Interacciones con los lectores

Deja una respuesta Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

I accept the Terms and Conditions and the Privacy Policy

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Publicidad


Barra lateral primaria

Suscríbete a nuestro boletín

Suscríbete al boletín semanal para estar al día de todas las publicaciones.

Política de Privacidad

¡Síguenos en redes sociales!

  • facebook
  • github
  • telegram
  • pinterest
  • rss
  • tumblr
  • twitter
  • youtube

Publicidad

Tiendas afiliadas

Ayúdanos realizando tus compras sin coste adicional con los enlaces de la tienda. ¡Gracias!

Entradas recientes

Usar dispositivos USB en VirtualBox

enero 15, 2021 Por Daniel Rodríguez Dejar un comentario

Eliminar elementos en matrices de Matlab

enero 13, 2021 Por Daniel Rodríguez Dejar un comentario

NumPy

NumPy: Crear matrices vacías en NumPy y adjuntar filas o columnas

enero 11, 2021 Por Daniel Rodríguez Dejar un comentario

Publicidad

Es tendencia

  • Seleccionar filas y columnas en Pandas con iloc y loc bajo Python
  • ¿Cómo eliminar columnas y filas en un dataframe pandas? bajo Python
  • Cómo leer y escribir archivos en Python bajo Python
  • Excel en Python Guardar y leer archivos Excel en Python bajo Python
  • Codificación JSON Archivos JSON con Python: lectura y escritura bajo Python

Publicidad

Lo mejor valorado

5 (3)

Ordenar una matriz en Matlab en base a una fila o columna

5 (3)

Automatizar el análisis de datos con Pandas-Profiling

5 (5)

Diferencias entre var y let en JavaScript

5 (6)

Operaciones de filtrado de DataFrame con Pandas en base a los valores de las columnas

5 (3)

Unir y combinar dataframes con pandas en Python

Publicidad

Comentarios recientes

  • Daniel Rodríguez en Calculadora de probabilidades de ganar a la lotería
  • abel en Calculadora de probabilidades de ganar a la lotería
  • David Arias en Diferencias entre regresión y clasificación en aprendizaje automático
  • Juan Aguilar en Archivos JSON con Python: lectura y escritura
  • Camilo en Contar palabras en una celda Excel

Publicidad

Footer

Secciones

  • Ciencia de datos
  • Criptografía
  • Herramientas
  • Noticias
  • Opinión

Programación

  • JavaScript
  • Julia
  • Matlab
  • Python
  • R

Analytics Lane

  • Acerca de Analytics Lane
  • Boletín de noticias
  • Contacto
  • Lo más popular
  • Tienda

Tiendas Afiliadas

  • AliExpress
  • Amazon
  • BangGood
  • GearBest
  • Geekbuying
  • JoyBuy

Sobre de Analytics Lane

En Analytics Lane tratamos de explicar los principales conceptos de la ciencia e ingeniería de datos con un enfoque práctico. Los principales temas tratados son ciencia de datos, ingeniería de datos, inteligencia artificial, machine learning, deep learning y criptografía. Además, también se habla de los principales lenguajes de programación y herramientas utilizadas por los científicos e ingenieros de datos.

Tiendas afiliadas

Ayúdanos realizando tus compras sin coste adicional con los enlaces de la tienda. ¡Gracias!

Amazon

2018-2020 Analytics Lane · Términos y condiciones · Política de Cookies · Política de Privacidad · Herramientas de privacidad · Contacto