• Saltar al contenido principal
  • Skip to secondary menu
  • Saltar a la barra lateral principal
  • Saltar al pie de página
  • Inicio
  • Secciones
    • Ciencia de datos
    • Criptografía
    • Herramientas
    • Machine Learning
    • Noticias
    • Opinión
    • Productividad
    • Programación
      • JavaScript
      • Julia
      • Matlab
      • Python
      • R
  • Programación
    • JavaScript
    • Julia
    • Matlab
    • Python
    • R
  • Noticias
  • Boletín
  • Contacto
  • Tienda
    • Libros
    • Equipamiento de oficina
    • Equipamiento en movilidad
    • Tiendas afiliadas
      • AliExpress
      • Amazon
      • Banggood
      • GeekBuying
      • Lenovo

Analytics Lane

Ciencia e ingeniería de datos aplicada

  • Ciencia de datos
  • Machine Learning
  • Python
  • Pandas
  • NumPy
  • Matlab
  • Julia
  • JavaScript
  • Excel

Distancias y métricas en aprendizaje automático

agosto 24, 2018 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 4 minutos

Distancias

En muchas técnicas de aprendizaje automático es necesario poder medir la separación entre los diferentes registros. Por ejemplo, en los métodos de análisis de clúster es necesario para obtener un grado de similitud entre los registros. La forma de hacer esto es utilizando las distancias. Asumiendo de esta forma que los datos son puntos en un espacio de n dimensiones.

Distancias

Matemáticamente una distancia es una función, d(a,b), que asigna un número positivo a cada par de puntos de un espacio n-dimensional, a=(a_1,a_2,\ldots,a_n), y verifica las siguientes propiedades:

  • No negativa, el valor nunca puede ser menor de cero.d(a,b) \ge 0
  • Simétrica, garantizando que la distancia entre a y b sea la misma que entre b y a. d(a,b)=d(b,a)
  • Verifica la desigualdad triangular, las distancia entre dos puntos ha de ser mayor o igual que la suma de las distancias de los puntos originales a un punto intermedio. Es decir, la distancia que hay que recorrer en dos caras de un triángulo es siempre mayor o igual la de la otra cara. d(a,b) \le d(a,c)+d(c,b)
  • La distancia con el mismo punto es cero. d(a,a)=0
  • Para que la distancia entre dos puntos sea cero estos han de ser el mismo, es decir d(a,b)=0 \implies a=b

Distancia Euclídea

Una de las distancias más conocidas y utilizadas es la distancia euclídea. Ya que es la que se utiliza en el día a día para medir la separación entre dos puntos. La distancia euclídea en un espacio de n dimensiones se define mediante la siguiente ecuación:

d(a,b) = \sqrt{\sum_{i=1}^n (a_i - b_i)^2}

Aunque esta distancia es útil para media la separación entre dos puntos en el mundo físico muestra algunas desventajas cuando se utiliza en un espacio de características, como es la dependencia con las unidades de cada una de las coordenadas. A la hora de medir la separación en el mundo físico todas las dimensiones se miden con las mismas unidades (metros, pies, etc.). En un espacio de características generalmente no es así. Por ejemplo, es habitual que se disponga de características como edad (años), ingresos (€, $, etc.) o número de hijos. Para solucionar este problema se puede utilizar la distancia euclídea normalizada que se define como:

Publicidad


d(a,b) = \sqrt{\sum_{i=1}^n \left(\frac{a_i}{\sigma_i} - \frac{b_i}{\sigma_i} \right)^2}

donde \sigma_i^2 es la varianza de la coordenada i. El uso de esta distancia ofrece dos ventajas importantes frente a la euclídea. La primera es la independencia de los resultados de las unidades utilizadas en cada una de las coordenadas; la segunda es la de ajustar el peso de las coordenadas en función su varianza, haciendo que ya no pese igual una separación de un euro o dólar en el sueldo de un cliente que un hijo en la segmentación de clientes, como sucede en la euclídea.

Otra forma para solucionar el problema de las unidades es normalizar los datos antes de utilizar una distancia.

Geometría del taxista

Otra distancia de interés en algunos problemas es la Manhattan o geometría del taxista. El nombre hace referencia al diseño de cuadriculado de las calles de la isla de Manhattan, lo que obliga a moverse en los ejes que definen las calles. Así la distancia más corta entre dos puntos es la suma de los tramos de las calles. Esto es lo que se muestra en la siguiente figura donde la línea negra representa la distancia euclídea y el resto son la distancia Manhattan.

Distancia Manhattan
Representación de la distancia Manhattan

Matemáticamente se define como:

d(a,b) = \sqrt{\sum_{i=1}^n \left|a_i - b_i \right|}

Al igual que la distancia euclídea, en la Manhattan también puede ser normalizada o utilizar características normalizadas para evitar los efectos de las dimensiones.

Publicidad


Distancia de Minkowsky

La distancia de Minkowsky es una generalización de las vistas anteriormente. Esto se realiza mediante un parámetro p con el que se puede reproducir los valores de las anteriores. Matemáticamente se define como:

d(a,b) = \sqrt[p]{\sum_{i=1}^n \left|a_i - b_i \right|^p}

Es fácil ver que en el caso de que el parámetro p sea 1 se obtienen la geometría del taxista y en caso de que sea 2 la distancia euclídea. Obviamente, esta distancia también se puede normalizar para evitar problemas con las dimensiones de las características.

Conclusiones

En esta entrada se han visto tres de las principales distancias utilizadas en los algoritmos de aprendizaje automático. También se ha visto lo importante que es normalizar las características pare evitar que los resultados dependan de las unidades utilizadas.

Imágenes: Pixabay

¿Te ha parecido de utilidad el contenido?

¡Puntúalo entre una y cinco estrellas!

Puntuación promedio 0 / 5. Votos emitidos: 0

Publicidad


Ya que has encontrado útil este contenido...

¡Síguenos en redes sociales!

¡Siento que este contenido no te haya sido útil!

¡Déjame mejorar este contenido!

Dime, ¿cómo puedo mejorar este contenido?

Publicaciones relacionadas

  • cars
    Comparación entre la regresión logística y SVM…
  • vote
    Cómo analizar la proporcionalidad de un sistema de…
  • newspaper
    La distancia de Levenshtein
  • Modelos de datos
    El problema de desequilibrio de clases en conjuntos…
  • grapes
    Identificar el número de clústeres con…
  • dart-board
    La exactitud y la precisión en modelos de clasificación

Publicado en: Ciencia de datos Etiquetado como: Machine learning

Interacciones con los lectores

Deja una respuesta Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

I accept the Terms and Conditions and the Privacy Policy

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Publicidad





Barra lateral principal

Suscríbete a nuestro boletín

Suscríbete al boletín semanal para estar al día de todas las publicaciones.

Política de Privacidad

Analytics Lane en redes sociales

  • Amazon
  • Facebook
  • GitHub
  • Instagram
  • Pinterest
  • RSS
  • Twitter
  • Tumblr
  • YouTube

Publicidad

Entradas recientes

Mantener un sistema de alta disponibilidad con PostgreSQL y repmgr

diciembre 1, 2023 Por Daniel Rodríguez

Diferencias entre los errores 401 y 403 del estándar HTTP

noviembre 29, 2023 Por Daniel Rodríguez

Ver el código de cualquier función en Python

noviembre 27, 2023 Por Daniel Rodríguez

Publicidad

Es tendencia

  • Operaciones de filtrado de DataFrame con Pandas en base a los valores de las columnas publicado el mayo 10, 2019 | en Python
  • Diferentes formas de ordenar dataframes en pandas publicado el abril 29, 2019 | en Python
  • Seleccionar filas y columnas en Pandas con iloc y loc publicado el junio 21, 2019 | en Python
  • Codificación JSON Archivos JSON con Python: lectura y escritura publicado el julio 16, 2018 | en Python
  • pandas Pandas: Cómo crear un DataFrame vacío y agregar datos publicado el noviembre 16, 2020 | en Python

Publicidad

Lo mejor valorado

4.9 (22)

Seleccionar filas y columnas en Pandas con iloc y loc

4.7 (12)

Operaciones de filtrado de DataFrame con Pandas en base a los valores de las columnas

4.6 (15)

Archivos JSON con Python: lectura y escritura

4.5 (10)

Diferencias entre var y let en JavaScript

4.4 (13)

Ordenación de diccionarios en Python mediante clave o valor

Publicidad

Comentarios recientes

  • Anto en Rendimiento al iterar en JavaScript sobre un vector
  • Daniel Rodríguez en Creación de un certificado Let’s Encrypt en Windows con Win-Acme
  • Guillermo en Creación de un certificado Let’s Encrypt en Windows con Win-Acme
  • Daniel Rodríguez en ¿Cómo eliminar columnas y filas en un dataframe pandas?
  • Miguel en ¿Cómo eliminar columnas y filas en un dataframe pandas?

Publicidad

Footer

Analytics Lane

  • Acerca de Analytics Lane
  • Boletín de noticias
  • Contacto
  • Libros
  • Lo más popular
  • Noticias
  • Tienda
  • Tiendas afiliadas

Secciones

  • Ciencia de datos
  • Criptografía
  • Herramientas
  • Machine Learning
  • Opinión
  • Productividad
  • Programación
  • Reseñas

Sobre de Analytics Lane

En Analytics Lane tratamos de explicar los principales conceptos de la ciencia e ingeniería de datos con un enfoque práctico. Los principales temas tratados son ciencia de datos, ingeniería de datos, inteligencia artificial, machine learning, deep learning y criptografía. Además, también se habla de los principales lenguajes de programación y herramientas utilizadas por los científicos e ingenieros de datos.

Copyright © 2018-2023 Analytics Lane ·Términos y condiciones ·Política de Cookies ·Política de Privacidad ·Herramientas de privacidad ·Contacto