Python

Optimización de memoria en Pandas: Usar tipos de datos personalizados para manejar grandes conjuntos de datos

El análisis de datos con Pandas es una tarea diaria para muchos usuarios, pero al trabajar con grandes conjuntos de datos, el consumo de memoria puede convertirse en un problema crítico. Esto sucede porque, de forma predeterminada, Pandas asigna tipos de datos generales, como float64 o int64, que pueden ocupar mucha más memoria de la estrictamente necesaria. Por ejemplo:

Una columna que contiene solo números enteros pequeños no necesita ser representada como int64.
Una columna categórica con unos pocos valores únicos no debería ser almacenada como object.

En un conjunto de datos pequeño, esto no es un problema para los equipos actuales, por lo que no es necesario optimizar. Pero, cuando los registros se cuentan por millones sí que es un problema y optimizar la memoria es algo necesario para reducir el consumo de memoria y mejorar el rendimiento, especialmente al cargar o manipular grandes conjuntos de datos.

En esta entrada, explicaremos cómo ajustar los tipos de datos en Pandas para optimizar el uso de memoria. Explicando cómo identificar el problemas, aplicar soluciones y evaluar las mejoras con ejemplos prácticos.

Tabla de contenidos

1 Identificar el consumo de memoria inicial
2 Ajustar tipos de datos para optimizar memoria
3 Verificar el impacto en memoria
4 Conclusiones

Identificar el consumo de memoria inicial

Antes de poder optimizar, es importante evaluar cuánto espacio ocupa un conjunto de datos en memoria. Esta información se puede obtener fácilmente mediante el método DataFrame.info(). Por ejemplo,

import pandas as pd
import numpy as np

# Crear un DataFrame ejemplo
data = {
    "id": np.random.randint(1, 6, 1000),
    "edad": np.random.randint(20, 55, 1000),
    "salario": np.round(np.random.uniform(1000, 10000, 1000), 2),
    "genero": np.random.choice(['H', 'M'], 1000)
}

df = pd.DataFrame(data)

# Ver información inicial del DataFrame
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   id       1000 non-null   int64  
 1   edad     1000 non-null   int64  
 2   salario  1000 non-null   float64
 3   genero   1000 non-null   object 
dtypes: float64(1), int64(2), object(1)
memory usage: 31.4+ KB

Al ejecutar, se puede ver que este pequeño conjunto de datos ocupa 31,4 KB (kilobytes) como se puede ver en la salida.

Además, se puede observar que Pandas asignó int64, float64 y object como tipos de datos predeterminados, lo cual es completamente innecesario en este caso.

Ajustar tipos de datos para optimizar memoria

Una vez identificado el problema, se pueden ajustar los tipos de datos para reducir el tamaño del DataFrame.

Reducir enteros (`int`)

Si los valores de una columna entera son pequeños, puedes usar tipos como int8, int16 o int32 en lugar de int64. Pasando a usar 8, 16 o 32 bits respectivamente por registro en lugar de los 64 de int64. Esto se puede hacer simplemente cambiándooslo el tipo de dato.

df["id"] = df["id"].astype("int8")
df["edad"] = df["edad"].astype("int8")

Antes de seleccionar un tipo de datos, es necesario recordar que int8 soporta rangos entre -128 y 127, int16 rangos entre -32.768 y 32767 y int32 rangos entre -2.147.483.648 y 2.147.483.647.

Reducir coma flotante (`float`)

Para columnas de tipos en coma flotante, utiliza float32 en lugar de float64.

df["salario"] = df["salario"].astype("float32")

Convertir columnas categóricas (`object` a `category`)

Las columnas de tipo object que contienen valores categóricos (como genero) pueden convertirse al tipo category, que almacena los valores de forma mucho más eficiente.

df["genero"] = df["genero"].astype("category")

Verificar el impacto en memoria

Una vez realizadas las optimizaciones, se puede usar de nuevo DataFrame.info() para comparar el consumo de memoria.

print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype   
---  ------   --------------  -----   
 0   id       1000 non-null   int8    
 1   edad     1000 non-null   int8    
 2   salario  1000 non-null   float32 
 3   genero   1000 non-null   category
dtypes: category(1), float32(1), int8(2)
memory usage: 7.1 KB

En la salida se observa que el consumo de memoria se ha reducido significativamente, pasando de 31,4 KB a 7,1 KB, lo que representa una disminución del 77%. Aunque en este conjunto de datos la mejora no es crítica —ya que 30 KB no supone un problema para un equipo actual—, en escenarios con grandes volúmenes de datos esta optimización puede ser clave para mejorar el rendimiento de los programas.

Conclusiones

Optimizar tipos de datos en Pandas es una técnica esencial para trabajar con grandes volúmenes de datos de manera eficiente. Ajustar enteros, flotantes y columnas categóricas puede reducir drásticamente el uso de memoria y mejorar el rendimiento.

Daniel Rodríguez

Next Introducción a igraph en R (Parte 7): Centralidad de Bonacich »

Previous « Cómo modificar los mensajes de commit en Git

Published by

Daniel Rodríguez

Tags: Pandas

1 año ago

Cómo comparar datos con barras en Matplotlib: agrupadas, apiladas y porcentuales
Tienes los datos de ventas de tres productos en dos años distintos y quieres saber…
Subplots en Matplotlib: cómo organizar múltiples gráficos en una sola figura
Llevas un rato analizando datos y tienes cuatro gráficos abiertos en ventanas separadas: ventas, usuarios,…
Cómo comparar tendencias con gráficos de líneas en Matplotlib: guía práctica paso a paso
Tienes los datos de tráfico web de los últimos cinco meses desglosados por canal: orgánico,…

Analytics Lane lanza la versión 1.4 del laboratorio con nuevas herramientas de conversión y modelos avanzados de CLV

Seguimos ampliando el laboratorio de Analytics Lane con el lanzamiento de la versión 1.4, que…

7 horas ago

Opinión

La liga internacional, o cuando Harvard y Johns Hopkins suman peras con manzanas – El bestiario de los indicadores económicos absurdos (parte 6)

Hemos llegado a la sexta entrega de la serie. Si las cuatro primeras fueron las…

1 día ago

Noticias

Lanzamos el video de ScoreFlow: crea scorecards de crédito de forma ágil y sin IT

En Analytics Lane seguimos apostando por desarrollar herramientas que simplifiquen el trabajo de analistas y…

2 días ago

Ciencia de datos

Data Leakage en Credit Scoring: El Error que Invalida tu Modelo

Imagina que construyes un scorecard con un Gini de 0,85. Un resultado extraordinario, muy por…

3 días ago

Opinión

Las fórmulas con DNI, o cómo dividir cualquier cosa entre cualquier otra cosa puede acabar publicado en un titular serio – El bestiario de los indicadores económicos absurdos (parte 5)

En las cuatro entregas anteriores recorrimos los disparates más folclóricos del género: faldas que predicen…

1 semana ago

Noticias

Analytics Lane lanza ScoreFlow, un SaaS para construir y desplegar scorecards de crédito

En Analytics Lane seguimos evolucionando nuestras herramientas y damos un paso más con el lanzamiento…

1 semana ago

This website uses cookies.