Por múltiples motivos es bastante habitual que un conjunto de datos llegue en varios archivos CSV en lugar de uno único. Algo que generalmente obliga unirlo en uno antes de poder realizar los análisis. Aunque es una tarea sencilla, puede ser tediosa si se repite de forma habitual. Para solucionar esto, se puede crear una función con Pandas para unir múltiples archivos CSV en uno solo. Tanto sea para usar en memoria como para guardar en el disco.
La importación de la información contenida en archivos CSV es una tarea extremadamente sencilla en Pandas, solamente se tiene que indicar la ruta a la función read_csv(). Así para importar los datos de un archivo que se encuentra en una carpeta solamente se tiene que escribir algo como los siguientes.
import pandas as pd
df = pd.read_csv('data/MOCK_DATA.csv')
df.head()
print(df.head()) id first_name last_name email gender ip_address 0 1 Ermanno Conrard econrard0@imageshack.us Male 255.98.19.201 1 2 Ulick Manders umanders1@hp.com Male 234.217.41.124 2 3 Berti Sumbler bsumbler2@usda.gov Genderqueer 101.121.178.197 3 4 Brant Beaushaw bbeaushaw3@ucoz.com Male 59.0.246.5 4 5 Davie Truran dtruran4@cnbc.com Male 190.37.41.180
Existen múltiples opciones en la función read_csv() para gestionar la importación de archivos tales como omitir filas o usar diferentes delimitadores.
El segundo punto para concatenar los archivos CSV es obtener el listado de estos. Algo que se puede hacer manualmente, pero, cuando el número de archivos es grande o estos cambian, es más cómodo usar Python para ello. El listado de archivos en una carpeta se puede obtener con la función listdir() de Python que se encuentra en las funciones del sistema operativo (os). Así, los archivos de la carpeta data se pueden obtener con
import os
os.listdir('data') ['MOCK_DATA.csv', 'MOCK_DATA_2.csv', 'MOCK_DATA_3.csv', '.DS_Store']
Nótese que en esta función devuelve todos los archivos, no solamente los CSV, por lo que puede ser necesario filtrar el resultado. Algo que se puede hacer por ejemplo mediante una lista por comprensión.
[file for file in os.listdir(path) if '.csv' in file]
['MOCK_DATA.csv', 'MOCK_DATA_2.csv', 'MOCK_DATA_3.csv']
Ahora, es necesario obtener la ruta completa a todos los archivos, concatenando la ruta a la carpeta con los nombres de los archivos. Para esto la mejor opción es usar la función os.path.join(), al evitar tener que preocuparnos por el hecho de que el código se ejecute en Windows o UNIX. Lo que se muestra en el siguiente código.
path = 'data' [os.path.join(path, file) for file in os.listdir(path) if '.csv' in file]
['data/MOCK_DATA.csv', 'data/MOCK_DATA_2.csv', 'data/MOCK_DATA_3.csv']
Moviéndose la ruta a una variable (path) para facilitar la lectura y el mantenimiento del código.
Una vez se tiene una el listado de archivos solamente hay que importarlos y concatenarlos. En Pandas para esto se pueden conseguir usando las funciones pd.read_csv(), lectura de los datos, y pd.concat(), concatenación de DataFrames. Empleando programación funcional para facilitar el proceso. En concreto mediante el uso de map() es posible ejecutar pd.read_csv() sobre el listado de archivos, obteniendo un listado de DataFrames. Resultado que se puede concatenar con pd.concat(), ignorando los índices ya que esto se repiten en cada importación. Lo que se puede hacer con el siguiente código.
df = pd.concat(map(pd.read_csv, files), ignore_index=True) df.shape
(3000, 6)
Obteniendo en df los tres archivos en un único DataFrame. Finalmente, el resultado se puede guardar en un archivo con la propiedad to_csv() que tienen todos los DataFrames.
df.to_csv('mock_join.csv') También se puede guardar los datos en otros formatos como Excel con los métodos de Pandas.
En esta ocasión se ha visto cómo se pueden combinar las funciones de Python y Pandas para poder combinar múltiples archivos CSV en uno solo. Tarea que suele ser bastante habitual.
Dado que la combinación de archivos CSV es una tarea que se hace de forma habitual, crean una función para ello puede ser una buena idea. Así solo se tiene que llamar a la función. Por ello, con lo visto en la entrada, se puede crear la siguiente función.
import pandas as pd
import os
def join_csv(path=None, out_file=None):
"""
Combina los archivos CSV existentes en una carpeta y devolverlo como un
DataFrame.
Parameters
----------
path : string
La ruta en la que se encuentran los archivos, si no se indica ninguna se
usará la carpeta actual.
out_file :string
Archivo opcional en el que se guardará los resultados, en caso de que no
se indique un nombre no se generará
Returns
-------
DataFrame
Obejto DataFrame con la unión de los archivos CSV
"""
if path is None:
files = [file for file in os.listdir() if '.csv' in file]
else:
files = [os.path.join(path, file) for file in os.listdir(path) if '.csv' in file]
df = pd.concat(map(pd.read_csv, files), ignore_index=True)
if out_file is not None:
if path is None:
df.to_csv(out_file)
else:
df.to_csv(os.path.join(path, out_file))
return df En la era del dato, las organizaciones se enfrentan al reto de gestionar volúmenes masivos…
En la serie Creación de una API REST con Express y TypeScript construimos una API…
Durante la Segunda Guerra Mundial, la Fuerza Aérea de Estados Unidos quería reforzar sus aviones…
En muchas situaciones —ya sea para grabar un tutorial, tomar capturas de pantalla profesionales, probar…
Imagínate en una sala con un grupo de personas, por ejemplo, en una oficina, un…
En el trabajo diario con ordenadores, es común encontrarse con tareas repetitivas: realizar copias de…
This website uses cookies.