Python

Truco Python: identificar diptongos o triptongos en una cadena de texto en Python

Recientemente me han planteado cómo identificar triptongos en cadena de texto dentro de los elementos de una lista en Python. Siendo esta una tarea que se puede realizar fácilmente recurriendo a las expresiones regulares. Una herramienta tan poderosa y muchas veces olvidadas.

Buscar un grupo de caracteres en una cadena de texto

Para buscar un grupo de caracteres en una cadena de texto mediante expresiones regulares simplemente se tiene encerrar los válidos entre corchetes. Así para buscar las vocales solamente se tiene que escribir “[AEIOUaeiou]” o “[aeiou]” si se ignorar la diferencia entre mayúsculas y minúsculas.

Si queremos buscar tres vocales seguidas no hay más que concatenar tres “[aeiou][aeiou][aeiou]” y comprobar con una expresión regular si existe esta combinación.

re.search("[aeiou][aeiou][aeiou]", texto, re.IGNORECASE)

Observando que se ha usado la opción re.IGNORECASE para indicar que no se debe diferenciar entre mayúsculas o minúsculas. Así para identificar diptongos o triptongos en una cadena de texto en Python se puede definir la siguiente función:

import re

def multiple_string(list_, num=3):
    regex = num * "[aeiou]"
    
    for text in list_:
        if re.search(regex, text, re.IGNORECASE):
            print(text)
            
multiple_string(['hola', 'antiautoritario', 'vieira', 'colores', 'GUAU'], 3)
antiautoritario
vieira
GUAU

En la que se ha definido como parámetros de entrada la lista y el número de caracteres que se desean buscar.

Al ejecutar el ejemplo se obtiene como resultado las palabras de la lista que contiene tres vocales consecutivas. Siendo esto lo que se buscaba inicialmente.

Usando programación funcional

En este caso se puede simplificar el código si se utiliza programación funcional. Por ejemplo, se puede filtrar la lista con:

def multiple_string(list_, num=3):
    regex = num * "[aeiou]"
    return list(filter(lambda text: re.search(regex, text, re.IGNORECASE), list_))
            
multiple_string(['hola', 'antiautoritario', 'vieira', 'colores', 'GUAU'], 3)
['antiautoritario', 'vieira', 'GUAU']

Conclusiones

En esta entrada se ha visto la utilidad de las expresiones regulares para identificar patrones en cadenas de texto. Una tarea que es bastante habitual. Además se ha visto como la programación funcional permite hacer código más sencillo de leer y comprender.

Imágenes: Pixabay (Theodor Moise )

¿Te ha parecido de utilidad el contenido?

Daniel Rodríguez

Share
Published by
Daniel Rodríguez
Tags: Truco

Recent Posts

Síndrome del objeto brillante en ciencia de datos: el error simétrico a los costes hundidos

Hace poco publiqué una entrada en la que trataba de un sesgo bien documentado: aferrarse…

4 días ago

De la Regresión Logística al Scorecard: La Transformación Matemática

En un entrada previa explicamos qué son el WOE y el IV y por qué…

6 días ago

Analytics Lane lanza la versión 1.1 del laboratorio con nuevas suites de CLV y Scoring

Seguimos evolucionando el laboratorio de Analytics Lane y hoy lanzamos la versión 1.1, disponible en:…

7 días ago

Interés compuesto: la fuerza que multiplica tu dinero (y los errores que la anulan)

“El interés compuesto es la octava maravilla del mundo. El que lo entiende lo gana…

2 semanas ago

Cómo comparar datos con barras en Matplotlib: agrupadas, apiladas y porcentuales

Tienes los datos de ventas de tres productos en dos años distintos y quieres saber…

2 semanas ago

Costes hundidos en ciencia de datos: cuándo mantener un modelo y cuándo migrar

Imagina la situación. Tu equipo lleva tres años con un modelo en producción. No es…

3 semanas ago

This website uses cookies.