Unir múltiples archivos CSV en uno con Pandas

Por múltiples motivos es bastante habitual que un conjunto de datos llegue en varios archivos CSV en lugar de uno único. Algo que generalmente obliga unirlo en uno antes de poder realizar los análisis. Aunque es una tarea sencilla, puede ser tediosa si se repite de forma habitual. Para solucionar esto, se puede crear una función con Pandas para unir múltiples archivos CSV en uno solo. Tanto sea para usar en memoria como para guardar en el disco.

Importar archivos CSV con Pandas

La importación de la información contenida en archivos CSV es una tarea extremadamente sencilla en Pandas, solamente se tiene que indicar la ruta a la función read_csv(). Así para importar los datos de un archivo que se encuentra en una carpeta solamente se tiene que escribir algo como los siguientes.

import pandas as pd

df = pd.read_csv('data/MOCK_DATA.csv') 
df.head()

print(df.head())

   id first_name last_name                    email       gender       ip_address
0   1    Ermanno   Conrard  [email protected]         Male    255.98.19.201
1   2      Ulick   Manders         [email protected]         Male   234.217.41.124
2   3      Berti   Sumbler       [email protected]  Genderqueer  101.121.178.197
3   4      Brant  Beaushaw      [email protected]         Male       59.0.246.5
4   5      Davie    Truran        [email protected]         Male    190.37.41.180

Existen múltiples opciones en la función read_csv() para gestionar la importación de archivos tales como omitir filas o usar diferentes delimitadores.

Obtener el listado de archivos en una carpeta

El segundo punto para concatenar los archivos CSV es obtener el listado de estos. Algo que se puede hacer manualmente, pero, cuando el número de archivos es grande o estos cambian, es más cómodo usar Python para ello. El listado de archivos en una carpeta se puede obtener con la función listdir() de Python que se encuentra en las funciones del sistema operativo (os). Así, los archivos de la carpeta data se pueden obtener con

import os

os.listdir('data')

['MOCK_DATA.csv', 'MOCK_DATA_2.csv', 'MOCK_DATA_3.csv', '.DS_Store']

Nótese que en esta función devuelve todos los archivos, no solamente los CSV, por lo que puede ser necesario filtrar el resultado. Algo que se puede hacer por ejemplo mediante una lista por comprensión.

[file for file in os.listdir(path) if '.csv' in file]

['MOCK_DATA.csv', 'MOCK_DATA_2.csv', 'MOCK_DATA_3.csv']

Ahora, es necesario obtener la ruta completa a todos los archivos, concatenando la ruta a la carpeta con los nombres de los archivos. Para esto la mejor opción es usar la función os.path.join(), al evitar tener que preocuparnos por el hecho de que el código se ejecute en Windows o UNIX. Lo que se muestra en el siguiente código.

path = 'data'

[os.path.join(path, file) for file in os.listdir(path) if '.csv' in file]

['data/MOCK_DATA.csv', 'data/MOCK_DATA_2.csv', 'data/MOCK_DATA_3.csv']

Moviéndose la ruta a una variable (path) para facilitar la lectura y el mantenimiento del código.

Combinar múltiples archivos CSV en uno con Pandas

Una vez se tiene una el listado de archivos solamente hay que importarlos y concatenarlos. En Pandas para esto se pueden conseguir usando las funciones pd.read_csv(), lectura de los datos, y pd.concat(), concatenación de DataFrames. Empleando programación funcional para facilitar el proceso. En concreto mediante el uso de map() es posible ejecutar pd.read_csv() sobre el listado de archivos, obteniendo un listado de DataFrames. Resultado que se puede concatenar con pd.concat(), ignorando los índices ya que esto se repiten en cada importación. Lo que se puede hacer con el siguiente código.

df = pd.concat(map(pd.read_csv, files), ignore_index=True)
df.shape

(3000, 6)

Obteniendo en df los tres archivos en un único DataFrame. Finalmente, el resultado se puede guardar en un archivo con la propiedad to_csv() que tienen todos los DataFrames.

df.to_csv('mock_join.csv')

También se puede guardar los datos en otros formatos como Excel con los métodos de Pandas.

Conclusiones

En esta ocasión se ha visto cómo se pueden combinar las funciones de Python y Pandas para poder combinar múltiples archivos CSV en uno solo. Tarea que suele ser bastante habitual.

Apéndice: Función que implementa el proceso de unión de múltiples archivos CSV en uno

Dado que la combinación de archivos CSV es una tarea que se hace de forma habitual, crean una función para ello puede ser una buena idea. Así solo se tiene que llamar a la función. Por ello, con lo visto en la entrada, se puede crear la siguiente función.

import pandas as pd
import os

def join_csv(path=None, out_file=None):
    """
    Combina los archivos CSV existentes en una carpeta y devolverlo como un
    DataFrame.
    
    Parameters
    ----------
    path : string
        La ruta en la que se encuentran los archivos, si no se indica ninguna se
        usará la carpeta actual.
    out_file :string
        Archivo opcional en el que se guardará los resultados, en caso de que no
        se indique un nombre no se generará
    
    Returns
    -------
    DataFrame
        Obejto DataFrame con la unión de los archivos CSV
    """
    
    if path is None:
        files = [file for file in os.listdir() if '.csv' in file]
    else:
        files = [os.path.join(path, file) for file in os.listdir(path) if '.csv' in file]
        
    df = pd.concat(map(pd.read_csv, files), ignore_index=True)
    
    if out_file is not None:
        if path is None:
            df.to_csv(out_file)
        else:
            df.to_csv(os.path.join(path, out_file))
        
    return df

Imagen de PublicDo mainPict ures en Pixabay

Comentarios

Gerber L. dice
abril 10, 2024 a las 9:54 pm
Hola que excelente post, muchas gracias me ayudaste a entender como funciona todo esto, solo tengo una duda. Como resuelves este error: Error tokenizing data. C error: Expected 1 fields in line 1706, saw 2, Entiendo que mi data set tiene un problema dentro de la fila: Como lo quiero solucionar es con un: on_bad_lines=’skip’ pero no se donde colocarlo dentro de la expresión,
Slds muchas gracias!
Responder
- Daniel Rodríguez dice
  abril 13, 2024 a las 12:09 pm
  Hola Gerner, gracias por el comentario.
  El error parece que el número de columnas en la línea 1706 no es correcta. Lo mejor es abrir el archivo con un editor de texto y comprobar esta línea para ver cuál es el problema. Si hay campos de texto, y no están cerrados con comillas, puede que alguno contenga el separador de campos.
  Responder

Unir múltiples archivos CSV en uno con Pandas

Importar archivos CSV con Pandas

Obtener el listado de archivos en una carpeta

Combinar múltiples archivos CSV en uno con Pandas

Conclusiones

Apéndice: Función que implementa el proceso de unión de múltiples archivos CSV en uno

Analytics Lane

Secciones

Sobre de Analytics Lane

Importar archivos CSV con Pandas

Obtener el listado de archivos en una carpeta

Combinar múltiples archivos CSV en uno con Pandas

Conclusiones

Apéndice: Función que implementa el proceso de unión de múltiples archivos CSV en uno

Publicaciones relacionadas

Interacciones con los lectores

Comentarios

Deja una respuesta Cancelar la respuesta

Footer

Analytics Lane

Secciones

Sobre de Analytics Lane