• Saltar al contenido principal
  • Skip to secondary menu
  • Saltar a la barra lateral principal
  • Saltar al pie de página
  • Inicio
  • Secciones
    • Ciencia de datos
    • Criptografía
    • Herramientas
    • Machine Learning
    • Noticias
    • Opinión
    • Productividad
    • Programación
      • JavaScript
      • Julia
      • Matlab
      • Python
      • R
  • Programación
    • JavaScript
    • Julia
    • Matlab
    • Python
    • R
  • Laboratorio
    • Estadística
      • Calculadora del Tamaño Muestral en Encuestas
      • Calculadora de estadísticos descriptivos
      • Test de normalidad
      • Calculadora de contrastes de hipotesis
      • Calculadora de tamano del efecto
      • Simulador de Regresión Lineal con Ruido
      • Visualizador de PCA
      • Visualizador de Series Temporales
      • Simulador de Regresión Logística
      • Simulador de K-Means
      • Simulador de DBSCAN
      • Detector de la Ley de Benford
    • Probabilidad
      • Calculadora de Probabilidad de Distribuciones
      • Calculadora de Probabilidades de Lotería
      • Simulador del Problema de Monty Hall
      • Simulador de la Estrategia Martingala
    • Finanzas
      • Calculadora de Préstamos e Hipotecas
      • Conversor TIN ↔ TAE
      • Calculadora DCA con ajuste por inflación
      • Calculadora XIRR con Flujos Irregulares
      • Simulador FIRE (Financial Independence, Retire Early)
    • Herramientas
      • Formateador / Minificador de JSON
      • Conversor CSV ↔ JSON
      • Comparador y Formateador de Texto y JSON
      • Formateador y Tester de Expresiones Regulares
      • Inspector de JWT
      • Generador y verificador de hashes
      • Codificador / Decodificador Base64 y URL
      • Conversor de bases numericas
      • Conversor de Timestamp Unix
      • Conversor de colores
      • Generador de UUIDs
    • Juegos
      • Tres en Raya
      • Nim con Q-Learning
    • Más
      • Método D’Hondt
      • Generador de Contraseñas Seguras
  • Noticias
  • Boletín
  • Contacto
  • Tienda
    • Libros
    • Equipamiento de oficina
    • Equipamiento en movilidad

Analytics Lane

Ciencia e ingeniería de datos aplicada

  • Ciencia de datos
  • Machine Learning
  • IA Generativa
  • Python
  • Pandas
  • NumPy
  • R
  • Excel

Unir múltiples archivos CSV en uno con Pandas

junio 27, 2022 Por Daniel Rodríguez 2 comentarios
Tiempo de lectura: 4 minutos

Por múltiples motivos es bastante habitual que un conjunto de datos llegue en varios archivos CSV en lugar de uno único. Algo que generalmente obliga unirlo en uno antes de poder realizar los análisis. Aunque es una tarea sencilla, puede ser tediosa si se repite de forma habitual. Para solucionar esto, se puede crear una función con Pandas para unir múltiples archivos CSV en uno solo. Tanto sea para usar en memoria como para guardar en el disco.

Importar archivos CSV con Pandas

La importación de la información contenida en archivos CSV es una tarea extremadamente sencilla en Pandas, solamente se tiene que indicar la ruta a la función read_csv(). Así para importar los datos de un archivo que se encuentra en una carpeta solamente se tiene que escribir algo como los siguientes.

import pandas as pd

df = pd.read_csv('data/MOCK_DATA.csv') 
df.head()

print(df.head())
   id first_name last_name                    email       gender       ip_address
0   1    Ermanno   Conrard  [email protected]         Male    255.98.19.201
1   2      Ulick   Manders         [email protected]         Male   234.217.41.124
2   3      Berti   Sumbler       [email protected]  Genderqueer  101.121.178.197
3   4      Brant  Beaushaw      [email protected]         Male       59.0.246.5
4   5      Davie    Truran        [email protected]         Male    190.37.41.180

Existen múltiples opciones en la función read_csv() para gestionar la importación de archivos tales como omitir filas o usar diferentes delimitadores.

Nueva calculadora de distribuciones de probabilidad en el laboratorio de Analytics Lane
En Analytics Lane
Nueva calculadora de distribuciones de probabilidad en el laboratorio de Analytics Lane

Obtener el listado de archivos en una carpeta

El segundo punto para concatenar los archivos CSV es obtener el listado de estos. Algo que se puede hacer manualmente, pero, cuando el número de archivos es grande o estos cambian, es más cómodo usar Python para ello. El listado de archivos en una carpeta se puede obtener con la función listdir() de Python que se encuentra en las funciones del sistema operativo (os). Así, los archivos de la carpeta data se pueden obtener con

import os

os.listdir('data')
['MOCK_DATA.csv', 'MOCK_DATA_2.csv', 'MOCK_DATA_3.csv', '.DS_Store']

Nótese que en esta función devuelve todos los archivos, no solamente los CSV, por lo que puede ser necesario filtrar el resultado. Algo que se puede hacer por ejemplo mediante una lista por comprensión.

[file for file in os.listdir(path) if '.csv' in file]
['MOCK_DATA.csv', 'MOCK_DATA_2.csv', 'MOCK_DATA_3.csv']

Ahora, es necesario obtener la ruta completa a todos los archivos, concatenando la ruta a la carpeta con los nombres de los archivos. Para esto la mejor opción es usar la función os.path.join(), al evitar tener que preocuparnos por el hecho de que el código se ejecute en Windows o UNIX. Lo que se muestra en el siguiente código.

path = 'data'

[os.path.join(path, file) for file in os.listdir(path) if '.csv' in file]
['data/MOCK_DATA.csv', 'data/MOCK_DATA_2.csv', 'data/MOCK_DATA_3.csv']

Moviéndose la ruta a una variable (path) para facilitar la lectura y el mantenimiento del código.

Publicidad


Combinar múltiples archivos CSV en uno con Pandas

Una vez se tiene una el listado de archivos solamente hay que importarlos y concatenarlos. En Pandas para esto se pueden conseguir usando las funciones pd.read_csv(), lectura de los datos, y pd.concat(), concatenación de DataFrames. Empleando programación funcional para facilitar el proceso. En concreto mediante el uso de map() es posible ejecutar pd.read_csv() sobre el listado de archivos, obteniendo un listado de DataFrames. Resultado que se puede concatenar con pd.concat(), ignorando los índices ya que esto se repiten en cada importación. Lo que se puede hacer con el siguiente código.

df = pd.concat(map(pd.read_csv, files), ignore_index=True)
df.shape
(3000, 6)

Obteniendo en df los tres archivos en un único DataFrame. Finalmente, el resultado se puede guardar en un archivo con la propiedad to_csv() que tienen todos los DataFrames.

df.to_csv('mock_join.csv')

También se puede guardar los datos en otros formatos como Excel con los métodos de Pandas.

Conclusiones

En esta ocasión se ha visto cómo se pueden combinar las funciones de Python y Pandas para poder combinar múltiples archivos CSV en uno solo. Tarea que suele ser bastante habitual.

Apéndice: Función que implementa el proceso de unión de múltiples archivos CSV en uno

Dado que la combinación de archivos CSV es una tarea que se hace de forma habitual, crean una función para ello puede ser una buena idea. Así solo se tiene que llamar a la función. Por ello, con lo visto en la entrada, se puede crear la siguiente función.

import pandas as pd
import os

def join_csv(path=None, out_file=None):
    """
    Combina los archivos CSV existentes en una carpeta y devolverlo como un
    DataFrame.
    
    Parameters
    ----------
    path : string
        La ruta en la que se encuentran los archivos, si no se indica ninguna se
        usará la carpeta actual.
    out_file :string
        Archivo opcional en el que se guardará los resultados, en caso de que no
        se indique un nombre no se generará
    
    Returns
    -------
    DataFrame
        Obejto DataFrame con la unión de los archivos CSV
    """
    
    if path is None:
        files = [file for file in os.listdir() if '.csv' in file]
    else:
        files = [os.path.join(path, file) for file in os.listdir(path) if '.csv' in file]
        
    df = pd.concat(map(pd.read_csv, files), ignore_index=True)
    
    if out_file is not None:
        if path is None:
            df.to_csv(out_file)
        else:
            df.to_csv(os.path.join(path, out_file))
        
    return df

Imagen de PublicDomainPictures en Pixabay

¿Te ha parecido de utilidad el contenido?

¡Puntúalo entre una y cinco estrellas!

Puntuación promedio 5 / 5. Votos emitidos: 2

Ya que has encontrado útil este contenido...

¡Síguenos en redes sociales!

¡Siento que este contenido no te haya sido útil!

¡Déjame mejorar este contenido!

Dime, ¿cómo puedo mejorar este contenido?

Publicidad


Publicaciones relacionadas

  • Nueva calculadora de distribuciones de probabilidad en el laboratorio de Analytics Lane
  • Analytics Lane lanza un nuevo Formateador y Tester de Expresiones Regulares para desarrolladores
  • Analytics Lane lanza su Visualizador de Series Temporales: entiende tendencia, estacionalidad y ruido de forma visual e interactiva
  • Analytics Lane lanza su Conversor de Bases Numéricas: entiende cómo trabajan los ordenadores a nivel de bits
  • Analytics Lane lanza su Conversor TIN ↔ TAE: la herramienta definitiva para entender el coste real de depósitos, préstamos e hipotecas
  • 1200 publicaciones en Analytics Lane
  • El mayor riesgo de la inteligencia artificial conversacional: cuando la IA confirma lo que ya pensabas – Conversar con una inteligencia artificial – Parte III
  • Analytics Lane lanza su Generador de UUIDs: identificadores únicos, seguros y listos para producción en segundos
  • Conversor de Colores: convierte, compara y valida cualquier color en tiempo real

Publicado en: Python Etiquetado como: Pandas

Interacciones con los lectores

Comentarios

  1. Gerber L. dice

    abril 10, 2024 a las 9:54 pm

    Hola que excelente post, muchas gracias me ayudaste a entender como funciona todo esto, solo tengo una duda. Como resuelves este error: Error tokenizing data. C error: Expected 1 fields in line 1706, saw 2, Entiendo que mi data set tiene un problema dentro de la fila: Como lo quiero solucionar es con un: on_bad_lines=’skip’ pero no se donde colocarlo dentro de la expresión,

    Slds muchas gracias!

    Responder
    • Daniel Rodríguez dice

      abril 13, 2024 a las 12:09 pm

      Hola Gerner, gracias por el comentario.

      El error parece que el número de columnas en la línea 1706 no es correcta. Lo mejor es abrir el archivo con un editor de texto y comprobar esta línea para ver cuál es el problema. Si hay campos de texto, y no están cerrados con comillas, puede que alguno contenga el separador de campos.

      Responder

Deja una respuesta Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

I accept the Terms and Conditions and the Privacy Policy

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Barra lateral principal

Suscríbete a nuestro boletín

Suscríbete al boletín semanal para estar al día de todas las publicaciones.

Política de Privacidad

Analytics Lane en redes sociales

  • Amazon
  • Bluesky
  • Facebook
  • GitHub
  • Instagram
  • Mastodon
  • Pinterest
  • RSS
  • Telegram
  • Tumblr
  • Twitter
  • YouTube

Publicidad

Entradas recientes

Analytics Lane lanza un nuevo Formateador y Tester de Expresiones Regulares para desarrolladores

abril 30, 2026 Por Daniel Rodríguez

Analytics Lane lanza su Visualizador de Series Temporales: entiende tendencia, estacionalidad y ruido de forma visual e interactiva

abril 30, 2026 Por Daniel Rodríguez

Analytics Lane lanza su Conversor de Bases Numéricas: entiende cómo trabajan los ordenadores a nivel de bits

abril 29, 2026 Por Daniel Rodríguez

Publicidad

Es tendencia

  • Conjunto de datos sintéticos generado para la entrada Ordenación de datos en Excel avanzado publicado el septiembre 9, 2020 | en Herramientas
  • Cómo modificar el archivo hosts en Windows 11 publicado el octubre 30, 2024 | en Herramientas
  • Unir múltiples archivos CSV en uno con Pandas publicado el junio 27, 2022 | en Python
  • Comprobar hash SHA-256 o MD5 en Windows, macOS y Linux publicado el noviembre 1, 2023 | en Criptografía, Herramientas
  • Error: No se puede cargar el archivo porque la ejecución de scripts está deshabilitada en este sistema Solución a los problemas de ejecución de scripts en Windows 11 cuando se da el mensaje: “No se puede cargar el archivo porque la ejecución de scripts está deshabilitada en este sistema” publicado el febrero 14, 2024 | en Herramientas

Publicidad

Lo mejor valorado

4.9 (24)

Seleccionar filas y columnas en Pandas con iloc y loc

4.6 (16)

Archivos JSON con Python: lectura y escritura

4.4 (14)

Ordenación de diccionarios en Python mediante clave o valor

4.7 (13)

Operaciones de filtrado de DataFrame con Pandas en base a los valores de las columnas

4.9 (11)

Pandas: Cambiar los tipos de datos en los DataFrames

Comentarios recientes

  • M. Pilar en Cómo eliminar las noticias en Windows 11 y recuperar tu concentración
  • Daniel Rodríguez en Probabilidad básica: cómo entender el azar en nuestra vida diaria
  • Pepe en Probabilidad básica: cómo entender el azar en nuestra vida diaria
  • CARLOS ARETURO BELLO CACERES en Justicio: La herramienta gratuita de IA para consultas legales
  • Piera en Ecuaciones multilínea en Markdown

Publicidad


Footer

Analytics Lane

  • Acerca de Analytics Lane
  • Boletín de noticias
  • Contacto
  • Libros
  • Lo más popular
  • Noticias
  • Tienda
  • Tiendas afiliadas

Secciones

  • Ciencia de datos
  • Criptografía
  • Herramientas
  • Machine Learning
  • Opinión
  • Productividad
  • Programación
  • Reseñas

Sobre de Analytics Lane

En Analytics Lane tratamos de explicar los principales conceptos de la ciencia e ingeniería de datos con un enfoque práctico. Los principales temas tratados son ciencia de datos, ingeniería de datos, inteligencia artificial, machine learning, deep learning y criptografía. Además, también se habla de los principales lenguajes de programación y herramientas utilizadas por los científicos e ingenieros de datos.

Copyright © 2018-2026 Analytics Lane ·Términos y condiciones ·Política de Cookies ·Política de Privacidad ·Herramientas de privacidad ·Contacto