• Saltar al contenido principal
  • Skip to secondary menu
  • Saltar a la barra lateral principal
  • Saltar al pie de página
  • Inicio
  • Secciones
    • Ciencia de datos
    • Criptografía
    • Herramientas
    • Machine Learning
    • Noticias
    • Opinión
    • Productividad
    • Programación
      • JavaScript
      • Julia
      • Matlab
      • Python
      • R
  • Programación
    • JavaScript
    • Julia
    • Matlab
    • Python
    • R
  • Laboratorio
    • Encuestas: Tamaño de Muestra
    • Lotería: Probabilidad de Ganar
    • Reparto de Escaños (D’Hondt)
    • Tres en Raya con IA
  • Noticias
  • Boletín
  • Contacto
  • Tienda
    • Libros
    • Equipamiento de oficina
    • Equipamiento en movilidad
    • Tiendas afiliadas
      • AliExpress
      • Amazon
      • Banggood
      • GeekBuying
      • Lenovo

Analytics Lane

Ciencia e ingeniería de datos aplicada

  • Ciencia de datos
  • Machine Learning
  • IA Generativa
  • Python
  • Pandas
  • NumPy
  • Excel
  • Matlab

Separar texto en columnas con Pandas en Python

octubre 19, 2020 Por Daniel Rodríguez 1 comentario
Tiempo de lectura: 4 minutos

Cuando importamos un conjunto de datos para un análisis es habitual que los registros no estén como los necesitamos. Uno de estos casos es cuando en alguna de las columnas contiene más de un valor que necesitamos procesar por separados. Como puede ser el nombre completo o una lista de características. En esto casos se pueden utilizar el método .str.split que se puede encontrar en todas la columnas de un DataFrame. Con lo que se puede separar fácilmente el texto en columnas con Pandas.

Conjunto de datos de ejemplo

En esta situación vamos a trabajar con un conjunto de datos de ejemplo generados en Mockaroo los cuales contienen el nombre, título, correo electrónico y huso horario de unos usuarios. Conjunto de datos que importamos en Pandas con el siguiente código:

import pandas as pd

df = pd.read_csv('MOCK_DATA.csv')
Conjunto de datos de ejemplo usado en la entrada
Conjunto de datos de ejemplo usado en la entrada

Publicidad


Separar nombre y apellido

Lo primero que se puede observar en este conjunto de datos es que en la columna name del DataFrame se encuentra el nombre y el apellido cada uno de los usuarios. Para separarlos podemos usar directamente la función .str.split() para obtener el siguiente resultado.

Curiosidad: El origen del análisis exploratorio de datos y el papel de John Tukey
En Analytics Lane
Curiosidad: El origen del análisis exploratorio de datos y el papel de John Tukey

df["name"].str.split()
0             [Viv, Dimanche]
1           [Lyn, Siaspinski]
2               [Dion, Peete]
3            [Ruthie, Dulake]
4           [Tobye, Furmedge]
5     [Mercedes, McCambridge]
6             [Sadie, Moohan]
7            [Shadow, Rousel]
8              [Ely, Garratt]
9        [Kendrick, Ffoulkes]
10      [Fiorenze, Caldecutt]
11              [Maure, Sall]

En el que se ha obtenido una serie de listas de valores. En cada uno de los elementos de la serie se tiene una lista de dos elementos con el nombre y apellido de los usuarios. Pero normalmente vamos a querer una Data Frame en lugar de una lista. Lo que se puede conseguir con la propiedad adecuada en la función.

Generar un nuevo Data Frame con los valores separados

Para obtener un DataFrame en lugar de una lista como resultado del método .str.split() es necesario indicar que la propiedad expand sea verdadera. Obteniendo el siguiente resultado.

df["name"].str.split(expand=True)
           0            1
0        Viv     Dimanche
1        Lyn   Siaspinski
2       Dion        Peete
3     Ruthie       Dulake
4      Tobye     Furmedge
5   Mercedes  McCambridge
6      Sadie       Moohan
7     Shadow       Rousel
8        Ely      Garratt
9   Kendrick     Ffoulkes
10  Fiorenze    Caldecutt
11     Maure         Sall

Ahora podemos combinar este nuevo Data Frame con el original para obtener un único objeto con todos los datos.

name = df["name"].str.split(expand=True)
name.columns = ['first_name', 'last_name']

df = pd.concat([df, name], axis=1)
df
Conjunto de datos de ejemplo al que se le ha añadido las filas de nombres y apellidos
Conjunto de datos de ejemplo al que se le ha añadido las filas de nombres y apellidos

Publicidad


Utilizar otros separadores

Por defecto el método .str.split() separa las cadenas de texto utilizando el espacio. Pero no siempre es lo que deseamos. Por eso se puede indicar la cadena de texto que utilizados para separar como una propiedad de la función. Algo que se puede aplicar a la zona horaria, donde tenemos el continente y la ciudad separada por /. Así podemos separar ambos valores mediante el siguiente código

df["time_zone"].str.split('/', expand=True)
          0          1
0      Asia    Jakarta
1      Asia    Baghdad
2   America       Lima
3   America   New_York
4   America  Sao_Paulo
5    Europe     Warsaw
6    Africa     Douala
7    Europe     Warsaw
8      Asia   Damascus
9   America     Bogota
10  America   Montreal
11   Europe     Moscow

Utilizar más de un separador

Finalmente, si queremos utilizar más de un separador se puede conseguir indicando todos los separadores entre corchetes. En el conjunto de datos de ejemplo esto se puede usar en las direcciones de correo para obtener todos los subdominios y separar además el nombre. Algo que se puede ver en el siguiente ejemplo.

df["email"].str.split('[.@]', expand=True)
                0         1    2     3
0      vdimanche0  slashdot  org  None
1    lsiaspinski1      imdb  com  None
2         dpeete2      fema  gov  None
3        rdulake3  t-online   de  None
4      tfurmedge4     youtu   be  None
5   mmccambridge5    google  com    br
6        smoohan6    amazon  com  None
7        srousel7  guardian   co    uk
8       egarratt8     plala   or    jp
9      kffoulkes9      tiny   cc  None
10    fcaldecutta  usatoday  com  None
11         msallb   rambler   ru  None

En este caso se pude ver que cuando el número de valores que se obtiene en un fila es diferente, el Data Frame resultante es de la longitud mayor y el resto de valores se completan con None.

Publicidad


Conclusiones

El método .str.split de las series Pandas es útil para poder separar texto en columnas en Python. Un recursos que puede solucionar muchos problemas durante el preprocesado de los datos.

Imagen de Manfred Antranias Zimmer en Pixabay

¿Te ha parecido de utilidad el contenido?

¡Puntúalo entre una y cinco estrellas!

Puntuación promedio 4.8 / 5. Votos emitidos: 6

Ya que has encontrado útil este contenido...

¡Síguenos en redes sociales!

¡Siento que este contenido no te haya sido útil!

¡Déjame mejorar este contenido!

Dime, ¿cómo puedo mejorar este contenido?

Publicaciones relacionadas

  • Curiosidad: El origen del análisis exploratorio de datos y el papel de John Tukey
  • Cómo calcular el tamaño de la muestra para encuestas
  • Curiosidad: La Ley de Twyman y la trampa de los datos “interesantes”
  • Copias de seguridad automáticas en SQL Server con rotación de archivos
  • Curiosidad: La Paradoja de Simpson, o por qué no siempre debes fiarte de los promedios
  • Error npm ERR! code EACCES al instalar paquetes en Node.js: Cómo solucionarlo paso a paso
  • Curiosidad: La maldición de la dimensionalidad, o por qué añadir más datos puede empeorar tu modelo
  • ¿Está concentrado el MSCI World? Un análisis con Gini, Lorenz y leyes de potencia
  • Curiosidad: ¿Por qué usamos p < 0.05? Un umbral que cambió la historia de la ciencia

Publicado en: Python Etiquetado como: Pandas

Interacciones con los lectores

Comentarios

  1. Gisela dice

    noviembre 9, 2020 a las 9:37 pm

    Muy bueno! me ayudó con mi practica

    Responder

Deja una respuesta Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

I accept the Terms and Conditions and the Privacy Policy

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Barra lateral principal

Suscríbete a nuestro boletín

Suscríbete al boletín semanal para estar al día de todas las publicaciones.

Política de Privacidad

Analytics Lane en redes sociales

  • Amazon
  • Bluesky
  • Facebook
  • GitHub
  • Instagram
  • Mastodon
  • Pinterest
  • RSS
  • Telegram
  • Tumblr
  • Twitter
  • YouTube

Publicidad

Entradas recientes

Curiosidad: ¿Por qué usamos p < 0.05? Un umbral que cambió la historia de la ciencia

octubre 2, 2025 Por Daniel Rodríguez

¿Está concentrado el MSCI World? Un análisis con Gini, Lorenz y leyes de potencia

septiembre 30, 2025 Por Daniel Rodríguez

Curiosidad: La maldición de la dimensionalidad, o por qué añadir más datos puede empeorar tu modelo

septiembre 25, 2025 Por Daniel Rodríguez

Publicidad

Es tendencia

  • Cómo solucionar problemas de red en VirtualBox: Guía completa publicado el junio 11, 2025 | en Herramientas
  • Gráficos de barras en Matplotlib publicado el julio 5, 2022 | en Python
  • Comprobar hash SHA-256 o MD5 en Windows, macOS y Linux publicado el noviembre 1, 2023 | en Criptografía, Herramientas
  • Curiosidad: ¿Por qué usamos p publicado el octubre 2, 2025 | en Ciencia de datos, Opinión
  • NumPy NumPy: Crear matrices vacías en NumPy y adjuntar filas o columnas publicado el enero 11, 2021 | en Python

Publicidad

Lo mejor valorado

4.9 (24)

Seleccionar filas y columnas en Pandas con iloc y loc

4.6 (16)

Archivos JSON con Python: lectura y escritura

4.4 (14)

Ordenación de diccionarios en Python mediante clave o valor

4.7 (13)

Operaciones de filtrado de DataFrame con Pandas en base a los valores de las columnas

4.5 (10)

Diferencias entre var y let en JavaScript

Publicidad

Comentarios recientes

  • Daniel Rodríguez en Probabilidad básica: cómo entender el azar en nuestra vida diaria
  • Pepe en Probabilidad básica: cómo entender el azar en nuestra vida diaria
  • CARLOS ARETURO BELLO CACERES en Justicio: La herramienta gratuita de IA para consultas legales
  • Piera en Ecuaciones multilínea en Markdown
  • Daniel Rodríguez en Tutorial de Mypy para Principiantes

Publicidad


Footer

Analytics Lane

  • Acerca de Analytics Lane
  • Boletín de noticias
  • Contacto
  • Libros
  • Lo más popular
  • Noticias
  • Tienda
  • Tiendas afiliadas

Secciones

  • Ciencia de datos
  • Criptografía
  • Herramientas
  • Machine Learning
  • Opinión
  • Productividad
  • Programación
  • Reseñas

Sobre de Analytics Lane

En Analytics Lane tratamos de explicar los principales conceptos de la ciencia e ingeniería de datos con un enfoque práctico. Los principales temas tratados son ciencia de datos, ingeniería de datos, inteligencia artificial, machine learning, deep learning y criptografía. Además, también se habla de los principales lenguajes de programación y herramientas utilizadas por los científicos e ingenieros de datos.

Copyright © 2018-2025 Analytics Lane ·Términos y condiciones ·Política de Cookies ·Política de Privacidad ·Herramientas de privacidad ·Contacto