El análisis de datos con Pandas es una tarea diaria para muchos usuarios, pero al trabajar con grandes conjuntos de datos, el consumo de memoria puede convertirse en un problema crítico. Esto sucede porque, de forma predeterminada, Pandas asigna tipos de datos generales, como float64
o int64
, que pueden ocupar mucha más memoria de la estrictamente necesaria. Por ejemplo:
int64
.object
.En un conjunto de datos pequeño, esto no es un problema para los equipos actuales, por lo que no es necesario optimizar. Pero, cuando los registros se cuentan por millones sí que es un problema y optimizar la memoria es algo necesario para reducir el consumo de memoria y mejorar el rendimiento, especialmente al cargar o manipular grandes conjuntos de datos.
En esta entrada, explicaremos cómo ajustar los tipos de datos en Pandas para optimizar el uso de memoria. Explicando cómo identificar el problemas, aplicar soluciones y evaluar las mejoras con ejemplos prácticos.
Tabla de contenidos
Antes de poder optimizar, es importante evaluar cuánto espacio ocupa un conjunto de datos en memoria. Esta información se puede obtener fácilmente mediante el método DataFrame.info()
. Por ejemplo,
import pandas as pd import numpy as np # Crear un DataFrame ejemplo data = { "id": np.random.randint(1, 6, 1000), "edad": np.random.randint(20, 55, 1000), "salario": np.round(np.random.uniform(1000, 10000, 1000), 2), "genero": np.random.choice(['H', 'M'], 1000) } df = pd.DataFrame(data) # Ver información inicial del DataFrame print(df.info())
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 4 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 id 1000 non-null int64
1 edad 1000 non-null int64
2 salario 1000 non-null float64
3 genero 1000 non-null object
dtypes: float64(1), int64(2), object(1)
memory usage: 31.4+ KB
Al ejecutar, se puede ver que este pequeño conjunto de datos ocupa 31,4 KB
(kilobytes) como se puede ver en la salida.
Además, se puede observar que Pandas asignó int64
, float64
y object
como tipos de datos predeterminados, lo cual es completamente innecesario en este caso.
Una vez identificado el problema, se pueden ajustar los tipos de datos para reducir el tamaño del DataFrame.
int
)Si los valores de una columna entera son pequeños, puedes usar tipos como int8
, int16
o int32
en lugar de int64
. Pasando a usar 8, 16 o 32 bits respectivamente por registro en lugar de los 64 de int64
. Esto se puede hacer simplemente cambiándooslo el tipo de dato.
df["id"] = df["id"].astype("int8") df["edad"] = df["edad"].astype("int8")
Antes de seleccionar un tipo de datos, es necesario recordar que int8
soporta rangos entre -128 y 127, int16
rangos entre -32.768 y 32767 y int32
rangos entre -2.147.483.648 y 2.147.483.647.
float
)Para columnas de tipos en coma flotante, utiliza float32
en lugar de float64
.
df["salario"] = df["salario"].astype("float32")
object
a category
)Las columnas de tipo object
que contienen valores categóricos (como genero
) pueden convertirse al tipo category
, que almacena los valores de forma mucho más eficiente.
df["genero"] = df["genero"].astype("category")
Una vez realizadas las optimizaciones, se puede usar de nuevo DataFrame.info()
para comparar el consumo de memoria.
print(df.info())
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 4 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 id 1000 non-null int8
1 edad 1000 non-null int8
2 salario 1000 non-null float32
3 genero 1000 non-null category
dtypes: category(1), float32(1), int8(2)
memory usage: 7.1 KB
En la salida se observa que el consumo de memoria se ha reducido significativamente, pasando de 31,4 KB a 7,1 KB, lo que representa una disminución del 77%. Aunque en este conjunto de datos la mejora no es crítica —ya que 30 KB no supone un problema para un equipo actual—, en escenarios con grandes volúmenes de datos esta optimización puede ser clave para mejorar el rendimiento de los programas.
Optimizar tipos de datos en Pandas es una técnica esencial para trabajar con grandes volúmenes de datos de manera eficiente. Ajustar enteros, flotantes y columnas categóricas puede reducir drásticamente el uso de memoria y mejorar el rendimiento.
En casi cualquier análisis estadístico —ya sea en medicina, psicología, economía o ciencia de datos—…
El MSCI World Index suele presentarse como “la ventana al mundo” para quienes invierten en…
En el mundo del análisis de datos solemos escuchar una idea poderosa: cuantos más datos,…
¿Te has encontrado con este error al intentar instalar paquetes con npm? npm ERR! code…
En ciencia de datos y estadística, los promedios y porcentajes son herramientas fundamentales para resumir…
Las bases de datos son el corazón de casi cualquier sistema de información moderno. Ya…
This website uses cookies.