• Saltar al contenido principal
  • Skip to secondary menu
  • Saltar a la barra lateral principal
  • Saltar al pie de página
  • Inicio
  • Secciones
    • Ciencia de datos
    • Criptografía
    • Herramientas
    • Machine Learning
    • Noticias
    • Opinión
    • Productividad
    • Programación
      • JavaScript
      • Julia
      • Matlab
      • Python
      • R
  • Programación
    • JavaScript
    • Julia
    • Matlab
    • Python
    • R
  • Laboratorio
    • Estadística
      • Calculadora del Tamaño Muestral en Encuestas
      • Calculadora de estadísticos descriptivos
      • Test de normalidad
      • Calculadora de contrastes de hipotesis
      • Calculadora de tamano del efecto
      • Simulador de Regresión Lineal con Ruido
      • Visualizador de PCA
      • Visualizador de Series Temporales
      • Simulador de Regresión Logística
      • Simulador de K-Means
      • Simulador de DBSCAN
      • Detector de la Ley de Benford
      • Ajuste de Curvas
      • Calculadora de Matrices
    • Probabilidad
      • Calculadora de Probabilidad de Distribuciones
      • Calculadora de Probabilidades de Lotería
      • Simulador del Problema de Monty Hall
      • Simulador de la Estrategia Martingala
    • Finanzas
      • Calculadora de Préstamos e Hipotecas
      • Conversor TIN ↔ TAE
      • Calculadora DCA con ajuste por inflación
      • Calculadora XIRR con Flujos Irregulares
      • Simulador FIRE (Financial Independence, Retire Early)
    • Negocios
      • CLV
      • Scoring
    • Herramientas
      • Formateador / Minificador de JSON
      • Conversor CSV ↔ JSON
      • Comparador y Formateador de Texto y JSON
      • Formateador y Tester de Expresiones Regulares
      • Inspector de JWT
      • Generador y verificador de hashes
      • Codificador / Decodificador Base64 y URL
      • Conversor de bases numericas
      • Conversor de Timestamp Unix
      • Conversor de colores
      • Generador de UUIDs
    • Juegos
      • Tres en Raya
      • Nim con Q-Learning
    • Más
      • Método D’Hondt
      • Generador de Contraseñas Seguras
  • Noticias
  • Boletín
  • Contacto
  • Tienda
    • Libros
    • Equipamiento de oficina
    • Equipamiento en movilidad

Analytics Lane

Ciencia e ingeniería de datos aplicada

  • Ciencia de datos
  • Machine Learning
  • IA Generativa
  • Python
  • Pandas
  • NumPy
  • R
  • Excel

La similitud de Jaro–Winkler

junio 24, 2020 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 4 minutos

La similitud de Jaro–Winkler

La semana pasada hemos se ha visto cómo medir la diferencia entre dos cadenas de texto con la distancia de Levenshtein. Una distancia que mide el número de operaciones necesarias para convertir una cadena de caracteres en otra. Otra distancia que se puede utilizar para medir la similitud entre dos cadenas de texto es la de Jaro–Winkler. Una modificación propuesta por Winkler en 1990 de la distancia que Jaro había propuesto un año antes en la que se le da un mayor peso las cadenas que comparten prefijos. Además de esto, a diferencia de la distancia de Levenshtein el algoritmo de Jaro–Winkler ya ofrece directamente el grado de similitud, es decir, un valor entre 0 y 1, sin necesidad de normalizar posteriormente.

La similitud de Jaro

Antes de ver la forma de calcular la similitud de Jaro–Winkler se puede estudiar la similitud de Jaro. Una métrica en la que la única operación de edición que utiliza es la transposición de caracteres. Por lo que solamente es necesario contar el número de caracteres iguales entre dos cadenas y el número de transposiciones que son necesarias para llegar de una a otra. Así, se puede definir matemáticamente la distancia de Jaro entre las cadenas de texto a y b mediante la expresión.

La caverna del consumo, o cómo Greenspan miraba calzoncillos para hacer política monetaria – El bestiario de los indicadores económicos absurdos (parte 1)
En Analytics Lane
La caverna del consumo, o cómo Greenspan miraba calzoncillos para hacer política monetaria – El bestiario de los indicadores económicos absurdos (parte 1)

j_{a,b}=\left\{\begin{matrix} 0 & si \, m = 0, \\ \frac{1}{2} \left( \frac{m}{|a|} + \frac{m}{|b|} + \frac{m-t}{m} \right) & si \, m \ne 0 \end{matrix}\right.

en donde |a| es la longitud de la cadena a, |b| es la longitud de la cadena b, m es el número de caracteres coincidentes en ambas cadenas y t es la mitad de número de transposiciones necesarios para convertir una cadena en otra.

Para asumir que un carácter de la cadena a coincide con uno de la cadena b este ha de ser el mismo y no estar separado más de una distancia igual a la mitad de la cadena más larga menos uno. Esto es, no pueden estar separados más de la distancia.

Por otro lado, las transposiciones son el número de caracteres que son iguales en ambas cadenas, pero se encuentran en diferente orden. Este valor dividido por dos es el valor que toma t en la expresión anterior.

La similitud de Jaro–Winkler

Winkler propuso modificar la similitud de Jaro para dar un peso mayor a las cadenas de texto que tiene prefijos comunes. Ya que en la mayoría de los casos los prefijos tienen más valor que los sufijos de las cadenas para identificar texto que son similares. Así en la similitud de Jaro–Winkler se introduce una escala que otorga calificaciones más favorables a las cadenas que coinciden desde el principio. Siendo la longitud de prefijo establecida un hiperparámetro que es necesario fijar. Esto es, la métrica se modifica mediante la expresión

jk_{a,b} = j_{a,b} + l p (1-j_{a,b})

donde l es la longitud del prefijo común al comienzo de las cadenas y p es un factor de escala constante con el que se ajusta la puntuación hacia arriba por tener prefijos comunes.

Publicidad


Implementación

La similitud de Jaro–Winkler se puede implementar mediante el siguiente algoritmo en R.

jaroWinkler <- function(str_1, str_2,
                        weight_threshold = 0.7,
                        num_chars        = 4) {
  str_1 <- tolower(str_1)
  str_2 <- tolower(str_2)
  len_1 <- str_length(str_1)
  len_2 <- str_length(str_2)

  if (len_1 == 0 || len_2 == 0) {
    if (len_1 == 0 && len_2 == 0) {
      return(1)
    } else {
      return(0)
    }
  }

  search_range <- max(len_1, len_2) / 2
  search_range <- floor(max(1, search_range))

  match_1 <- rep(FALSE, len_1)
  match_2 <- rep(FALSE, len_2)

  num_common <- 0

  for (i in 1:len_1) {
    ini <- max(1, i - search_range)
    end <- min(i + search_range, len_2)

    for (j in ini:end) {
      if (match_2[j]) {
        next
      }

      if (str_sub(str_1, i, i) != str_sub(str_2, j, j)) {
        next
      }

      match_1[i] <- TRUE
      match_2[j] <- TRUE
      num_common <- num_common + 1
      break;
    }
  }

  if (num_common == 0) {
    return(0)
  }

  num_half_transposed <- 0
  k                   <- 1

  for (i in 1:len_1) {
    if (!match_1[i]) {
      next
    }

    while (!match_2[k]) {
      k <- k + 1
    }

    if (str_sub(str_1, i, i) != str_sub(str_2, k, k)) {
      num_half_transposed <- num_half_transposed + 1
    }

    k <- k + 1
  }

  num_transposed <- floor(num_half_transposed / 2)
  weight         <- (num_common / len_1 + num_common / len_2 +
                       (num_common - num_transposed) / num_common) / 3

  if (weight <= weight_threshold) {
    return(weight)
  }

  num_max <- min(num_chars, min(len_1, len_2));
  pos     <- 1
  while (pos <= num_max && str_sub(str_1, pos, pos) == str_sub(str_2, pos, pos)) {
    pos <- pos + 1
  }

  if (pos == 1) {
    return(weight)
  }

  return(weight + 0.1 * (pos - 1) * (1 - weight))
}

En este código se han fijado por defecto el número de los caracteres de los prefijos a 4 (num_chars) y el peso que se le ha asignado es de 0,7 (weight_threshold). Posteriormente se comprueba si las cadenas son vacías o no, en caso afirmativo si son ambas vacías se devuelve 1 y cero en caso contrario.

Posteriormente se procede con el algoritmo en sí. Obteniéndose el número de caracteres que son similares dentro del rango permitido. Para inmediatamente después obtener el número de transposiciones. Finalmente se usa los pesos para obtener el resultado deseado.

Conclusiones

En la entrada de hoy hemos visto la similitud de Jaro–Winkler, una métrica con la que se puede ver si dos cadenas son similares y medir este grado. Al igual que la distancia de Levenshtein esta es una función que se puede utilizar en diferentes aplicaciones como correctores ortográficos u OCR.

Imagen de PDPics en Pixabay

¿Te ha parecido de utilidad el contenido?

¡Puntúalo entre una y cinco estrellas!

Puntuación promedio 5 / 5. Votos emitidos: 1

Ya que has encontrado útil este contenido...

¡Síguenos en redes sociales!

¡Siento que este contenido no te haya sido útil!

¡Déjame mejorar este contenido!

Dime, ¿cómo puedo mejorar este contenido?

Publicaciones relacionadas

  • La caverna del consumo, o cómo Greenspan miraba calzoncillos para hacer política monetaria – El bestiario de los indicadores económicos absurdos (parte 1)
  • La vanidad del paisaje, o por qué un becario sale a contar grúas a Manhattan – El bestiario de los indicadores económicos absurdos (parte 2)
  • Augurios deportivos y portadas malditas, o cuando The Economist predice mejor al revés – El bestiario de los indicadores económicos absurdos (parte 3)
  • El bestiario de los indicadores económicos absurdos: El zoo patrio
  • El Binning en Credit Scoring: El Arte de Discretizar Variables
  • Las fórmulas con DNI, o cómo dividir cualquier cosa entre cualquier otra cosa puede acabar publicado en un titular serio – El bestiario de los indicadores económicos absurdos (parte 5)
  • Cómo comparar tendencias con gráficos de líneas en Matplotlib: guía práctica paso a paso
  • Analytics Lane lanza la versión 1.2 del laboratorio con nuevas herramientas de ajuste de curvas y cálculo matricial
  • Analytics Lane lanza la versión 1.3 del laboratorio con nuevas herramientas de evaluación de modelos y utilidades prácticas

Publicado en: Ciencia de datos, R

Interacciones con los lectores

Deja una respuesta Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

I accept the Terms and Conditions and the Privacy Policy

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Barra lateral principal

Suscríbete a nuestro boletín

Suscríbete al boletín semanal para estar al día de todas las publicaciones.

Política de Privacidad

Analytics Lane en redes sociales

  • Amazon
  • Bluesky
  • Facebook
  • GitHub
  • Instagram
  • Mastodon
  • Pinterest
  • RSS
  • Telegram
  • Tumblr
  • Twitter
  • YouTube

Publicidad

Entradas recientes

Las fórmulas con DNI, o cómo dividir cualquier cosa entre cualquier otra cosa puede acabar publicado en un titular serio – El bestiario de los indicadores económicos absurdos (parte 5)

julio 2, 2026 Por Daniel Rodríguez

Analytics Lane lanza ScoreFlow, un SaaS para construir y desplegar scorecards de crédito

julio 1, 2026 Por Daniel Rodríguez

DBSCAN y la selección de ε: teoría, intuición y aplicación práctica

junio 30, 2026 Por Daniel Rodríguez

Publicidad

Es tendencia

  • Las fórmulas con DNI, o cómo dividir cualquier cosa entre cualquier otra cosa puede acabar publicado en un titular serio – El bestiario de los indicadores económicos absurdos (parte 5) publicado el julio 2, 2026 | en Opinión
  • Noticias Traducción al castellano de “Python for Data Analysis” de Wes McKinney publicado el febrero 28, 2023 | en Noticias
  • La caverna del consumo, o cómo Greenspan miraba calzoncillos para hacer política monetaria – El bestiario de los indicadores económicos absurdos (parte 1) publicado el junio 4, 2026 | en Opinión
  • Comparación de números reales en SQL: Una guía completa publicado el diciembre 11, 2024 | en Herramientas
  • Cómo usar Ollama con Node.js y TypeScript para ejecutar modelos LLM locales publicado el febrero 19, 2025 | en JavaScript

Publicidad

Lo mejor valorado

4.9 (24)

Seleccionar filas y columnas en Pandas con iloc y loc

4.6 (16)

Archivos JSON con Python: lectura y escritura

4.4 (14)

Ordenación de diccionarios en Python mediante clave o valor

4.7 (13)

Operaciones de filtrado de DataFrame con Pandas en base a los valores de las columnas

4.1 (11)

Aplicar el método D’Hondt en Excel

Comentarios recientes

  • bif en JSON en bases de datos: cuándo es buena idea y cuándo no
  • bif en Cómo desinstalar Oracle Database 19c en Windows
  • M. Pilar en Cómo eliminar las noticias en Windows 11 y recuperar tu concentración
  • Daniel Rodríguez en Probabilidad básica: cómo entender el azar en nuestra vida diaria
  • Pepe en Probabilidad básica: cómo entender el azar en nuestra vida diaria

Publicidad


Footer

Analytics Lane

  • Acerca de Analytics Lane
  • Boletín de noticias
  • Contacto
  • Libros
  • Lo más popular
  • Noticias
  • Tienda
  • Tiendas afiliadas

Secciones

  • Ciencia de datos
  • Criptografía
  • Herramientas
  • Machine Learning
  • Opinión
  • Productividad
  • Programación
  • Reseñas

Sobre de Analytics Lane

En Analytics Lane tratamos de explicar los principales conceptos de la ciencia e ingeniería de datos con un enfoque práctico. Los principales temas tratados son ciencia de datos, ingeniería de datos, inteligencia artificial, machine learning, deep learning y criptografía. Además, también se habla de los principales lenguajes de programación y herramientas utilizadas por los científicos e ingenieros de datos.

Copyright © 2018-2026 Analytics Lane ·Términos y condiciones ·Política de Cookies ·Política de Privacidad ·Herramientas de privacidad ·Contacto