• Saltar al contenido principal
  • Skip to secondary menu
  • Saltar a la barra lateral principal
  • Saltar al pie de página
  • Inicio
  • Secciones
    • Ciencia de datos
    • Criptografía
    • Herramientas
    • Machine Learning
    • Noticias
    • Opinión
    • Productividad
    • Programación
      • JavaScript
      • Julia
      • Matlab
      • Python
      • R
  • Programación
    • JavaScript
    • Julia
    • Matlab
    • Python
    • R
  • Laboratorio
    • Estadística
      • Calculadora del Tamaño Muestral en Encuestas
      • Calculadora de estadísticos descriptivos
      • Test de normalidad
      • Calculadora de contrastes de hipotesis
      • Calculadora de tamano del efecto
      • Simulador de Regresión Lineal con Ruido
      • Visualizador de PCA
      • Visualizador de Series Temporales
      • Simulador de Regresión Logística
      • Simulador de K-Means
      • Simulador de DBSCAN
      • Detector de la Ley de Benford
    • Probabilidad
      • Calculadora de Probabilidad de Distribuciones
      • Calculadora de Probabilidades de Lotería
      • Simulador del Problema de Monty Hall
      • Simulador de la Estrategia Martingala
    • Finanzas
      • Calculadora de Préstamos e Hipotecas
      • Conversor TIN ↔ TAE
      • Calculadora DCA con ajuste por inflación
      • Simulador FIRE (Financial Independence, Retire Early)
    • Herramientas
      • Formateador / Minificador de JSON
      • Comparador y Formateador de Texto y JSON
      • Formateador y Tester de Expresiones Regulares
      • Inspector de JWT
      • Generador y verificador de hashes
      • Codificador / Decodificador Base64 y URL
      • Conversor de bases numericas
      • Conversor de Timestamp Unix
      • Conversor de colores
      • Generador de UUIDs
    • Juegos
      • Tres en Raya
      • Nim con Q-Learning
    • Más
      • Método D’Hondt
      • Generador de Contraseñas Seguras
  • Noticias
  • Boletín
  • Contacto
  • Tienda
    • Libros
    • Equipamiento de oficina
    • Equipamiento en movilidad

Analytics Lane

Ciencia e ingeniería de datos aplicada

  • Ciencia de datos
  • Machine Learning
  • IA Generativa
  • Python
  • Pandas
  • NumPy
  • R
  • Excel

SequenceMatcher

marzo 23, 2020 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 3 minutos

Comparar dos documentos es una tarea relativamente compleja, especialmente si buscamos coincidencias parciales entre los mismos. Para esta tarea en el módulo difflib de Python podemos encontrar la clase SequenceMatcher con la que realizar esta tarea. Una clase con la que localizar las coincidencias existentes en las subsecuencia, al mismo tiempo que se puede obtener un grado de similitud entre los documentos. Veamos cómo funciona esta clase.

LCS (Longest Contiguous matching Subsequence)

El problema básico que resuelve la clase SequenceMatcher es localizar la subsecuencia de coincidencia contigua más larga (LCS, Longest Contiguous matching Subsequence) entre dos secuencias. Esto sin tener en cuenta la presencia de elementos “basura”, es decir, aquellas subsecuencias que no aportan valor a la secuencia.

Por ejemplo, si tenemos la cadena “Hola mundo” y “Hola Analytics Lane” la subsecuencia de coincidencia contigua más larga es “Hola ”. Esto es, la subcadena de texto más larga que se encuentra en ambas.

Uso de SequenceMatcher

El constructor SequenceMatcher tiene la siguiente forma

SequenceMatcher(isjunk=None, a='', b='', autojunk=True)

En donde isjunk es una función que devuelve verdadero para aquellos elementos que se considera “basura”, a es la primera secuencia, b es la segunda secuencia y autojunk es una opción con la que eliminar la heurística que permite detectar automáticamente secuencias “basura”. Una vez creada la clase se puede acceder al método find_longest_match para localizar la subsecuencia de coincidencia contigua más larga. Método que requiere cuatro entradas: la posición inicial de búsqueda en la secuencia a, la posición final de búsqueda en la secuencia a, la posición inicial de búsqueda en la secuencia b y la posición final de búsqueda en la secuencia b. Así para buscar en dos cadenas se puede usar:

Nuevo simulador FIRE en el laboratorio de aplicaciones de Analytics Lane
En Analytics Lane
Nuevo simulador FIRE en el laboratorio de aplicaciones de Analytics Lane

from difflib import SequenceMatcher

str1 = ' Hola'
str2 = 'Hola Hola'

matcher = SequenceMatcher(None, str1, str2)
match = matcher.find_longest_match(0, len(str1), 0, len(str2))
match
Match(a=0, b=4, size=5)

Lo que nos devuelve en match un objeto Match en el que nos da la posición inicial de la subsecuencia en a, b y la longitud de esta. Así es posible ver la cadena usando la siguiente línea de código:

str1[match.a:match.a + match.size]
' Hola'

Publicidad


Indicar las secuencias “basura”

Habitualmente es posible que deseemos que algunos elementos como los espacios y la puntuación ya que no aportan información. Es decir, los podemos considerar “basura” dentro de la secuencia. Lo que se puede configurar a través del primer parámetro de la clase. Así para eliminar los espacios en blanco se puede usar:

matcher = SequenceMatcher(lambda x: x in " ", str1, str2)
match = matcher.find_longest_match(0, len(str1), 0, len(str2))
str1[match.a:match.a + match.size]
'Hola'

Obtener todas las secuencias

Además del método find_longest_match También existe el método get_matching_blocks que devolverá todos los bloques de texto coincidentes existentes en las dos secuencias. Lo que devolverá un listado de objetos Mathc como el que devuelve el método find_longest_match. Los objetos no están ordenados, pero si queremos ordenarlos en base al tamaño se puede usar la función sort:

sorted(matcher.get_matching_blocks(), key=lambda obj: obj.size, reverse=True)

Ratio de similitud

Finalmente se puede obtener una ratio de similitud entre las dos secuencias que se puede obtener mediante el método ratio. Un valor que se calcula como 2*M/T donde M son la coincidencias y T el número de elementos en ambas secuencias. Así se puede comprobar el resultado usando

T = len(str1) + len(str2)
M = 0

for matchin matcher.get_matching_blocks():
    M += match.size

ratio = 2 * M / T
ratio
0.7142857142857143

El mismo resultado que el método ratio

matcher.ratio()
0.7142857142857143

Esta ratio, que tiene valores entre 0 y 1, es una medida de similares o no que las dos secuencias comparadas. No es una distancia pero se podría crear una a partir del resutlado.

Publicidad


Conclusiones

En esta entrada se ha visto el comportamiento de la clase SequenceMatcher con la que se puede comparar las coincidencias entre dos secuencias. Una herramienta con la que se puede analizar las similitudes que existen entre dos documentos.

Imagen de Pezibear en Pixabay

¿Te ha parecido de utilidad el contenido?

¡Puntúalo entre una y cinco estrellas!

Puntuación promedio 0 / 5. Votos emitidos: 0

Ya que has encontrado útil este contenido...

¡Síguenos en redes sociales!

¡Siento que este contenido no te haya sido útil!

¡Déjame mejorar este contenido!

Dime, ¿cómo puedo mejorar este contenido?

Publicaciones relacionadas

  • Nuevo simulador FIRE en el laboratorio de aplicaciones de Analytics Lane
  • Nueva calculadora de préstamos e hipotecas en el laboratorio de aplicaciones de Analytics Lane
  • Hardening avanzado de NGINX: CSP, OCSP Stapling y defensa en profundidad
  • Nuevo generador y verificador de hashes en el laboratorio de aplicaciones de Analytics Lane
  • Nueva simulación de la estrategia Martingala en ruleta en el laboratorio de aplicaciones de Analytics Lane
  • Exactitud, precisión, recall… y los errores que cometemos al interpretarlas en proyectos reales
  • Nuevo simulador del problema de Monty Hall en el laboratorio de aplicaciones de Analytics Lane
  • Nuevo simulador interactivo de K-Means en el laboratorio de aplicaciones de Analytics Lane
  • Por qué los chatbots de inteligencia artificial parecen estar siempre de acuerdo contigo – Conversar con una inteligencia artificial – Parte I

Publicado en: Ciencia de datos, Python

Interacciones con los lectores

Deja una respuesta Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

I accept the Terms and Conditions and the Privacy Policy

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Barra lateral principal

Suscríbete a nuestro boletín

Suscríbete al boletín semanal para estar al día de todas las publicaciones.

Política de Privacidad

Analytics Lane en redes sociales

  • Amazon
  • Bluesky
  • Facebook
  • GitHub
  • Instagram
  • Mastodon
  • Pinterest
  • RSS
  • Telegram
  • Tumblr
  • Twitter
  • YouTube

Publicidad

Entradas recientes

Nuevo Inspector de JWT en el laboratorio de aplicaciones de Analytics Lane

abril 20, 2026 Por Daniel Rodríguez

Nuevo simulador de regresión logística en el laboratorio de aplicaciones de Analytics Lane

abril 17, 2026 Por Daniel Rodríguez

Nuevo simulador de regresión lineal con ruido en el laboratorio de aplicaciones de Analytics Lane

abril 16, 2026 Por Daniel Rodríguez

Publicidad

Es tendencia

  • Nuevo Inspector de JWT en el laboratorio de aplicaciones de Analytics Lane publicado el abril 20, 2026 | en Noticias
  • Creación de gráficos de barras y gráficos de columnas con Seaborn publicado el julio 18, 2023 | en Python
  • El método de Muller e implementación en Python publicado el marzo 24, 2023 | en Ciencia de datos
  • El método de la bisección e implementación en Python publicado el marzo 11, 2022 | en Ciencia de datos
  • Cómo calcular el tamaño de la muestra para encuestas publicado el septiembre 9, 2025 | en Ciencia de datos

Publicidad

Lo mejor valorado

4.9 (24)

Seleccionar filas y columnas en Pandas con iloc y loc

4.6 (16)

Archivos JSON con Python: lectura y escritura

4.4 (14)

Ordenación de diccionarios en Python mediante clave o valor

4.7 (13)

Operaciones de filtrado de DataFrame con Pandas en base a los valores de las columnas

4.9 (11)

Pandas: Cambiar los tipos de datos en los DataFrames

Comentarios recientes

  • M. Pilar en Cómo eliminar las noticias en Windows 11 y recuperar tu concentración
  • Daniel Rodríguez en Probabilidad básica: cómo entender el azar en nuestra vida diaria
  • Pepe en Probabilidad básica: cómo entender el azar en nuestra vida diaria
  • CARLOS ARETURO BELLO CACERES en Justicio: La herramienta gratuita de IA para consultas legales
  • Piera en Ecuaciones multilínea en Markdown

Publicidad


Footer

Analytics Lane

  • Acerca de Analytics Lane
  • Boletín de noticias
  • Contacto
  • Libros
  • Lo más popular
  • Noticias
  • Tienda
  • Tiendas afiliadas

Secciones

  • Ciencia de datos
  • Criptografía
  • Herramientas
  • Machine Learning
  • Opinión
  • Productividad
  • Programación
  • Reseñas

Sobre de Analytics Lane

En Analytics Lane tratamos de explicar los principales conceptos de la ciencia e ingeniería de datos con un enfoque práctico. Los principales temas tratados son ciencia de datos, ingeniería de datos, inteligencia artificial, machine learning, deep learning y criptografía. Además, también se habla de los principales lenguajes de programación y herramientas utilizadas por los científicos e ingenieros de datos.

Copyright © 2018-2026 Analytics Lane ·Términos y condiciones ·Política de Cookies ·Política de Privacidad ·Herramientas de privacidad ·Contacto