Los objetos DataFrame de Pandas son unas estructuras de datos fantásticas para el análisis y manipulación de los datos. Facilitando muchas tareas en el día a día. Por ejemplo, cuando se necesita reemplazar ciertos registros en función de los valores de estos u otros, esto es, cuando se desea realizar un reemplazo condicional de valores.Conjunto de datos de ejemploEn … [Leer más...] acerca de Reemplazo condicional de valores en Pandas
Pandas
Pandas es una librería para Python la cual extiende las funcionalidades que ofrece NumPy para el tratamiento y análisis de conjuntos de datos. Poniendo a disposición de los usuarios dos nuevas estructuras de datos (Series
y DataFrame
) que facilitan la manipulación de series temporales y tablas.
La estructura de datos básica de Pandas es el objeto Series
. Un vector etiquetado capaz de contener cualquier tipo de dato (enteros, reales, cadenas de texto, fechas, objetos de Python, …) con etiquetas que se denominan índices.
La otra estructura de datos, el DataFrame
, es una colección ordenada de columnas con nombres y tipos, similar a las tablas de las bases de datos, donde las filas son un registro y las columnas son los atributos. Siendo cada una de las columnas de este tipo de datos un objeto Series
.
Calcular diferencia entre elementos de un DataFrame con diff
En los objetos DataFrame de Pandas existe un método con el que se puede obtener la diferencia entre un elemento y el anterior, o cualquier otra posición. Este método es diff(). Su uso permite obtener la diferencia entre los elementos de un DataFrame, lo que se puede usar para ver de una forma rápida cómo crece o decrece una magnitud.El método diff() en PandasEl … [Leer más...] acerca de Calcular diferencia entre elementos de un DataFrame con diff
Acotar los valores en un DataFrame de Pandas
Existen diferentes motivos por los que puede ser necesario limitar o acotar los valores en un DataFrame. Por ejemplo, eliminar valores atípicos o garantizar la consistencia de los datos. Esto es algo que se puede conseguir mediante asignaciones condicionales de valores, aunque también existe el método clip() que lo permite hacer de una manera más legible y con la que es más … [Leer más...] acerca de Acotar los valores en un DataFrame de Pandas
Ordenar textos en Python con acentos en diferentes idiomas
Las listas que contienen cadenas de texto se pueden ordenar el Python mediante el uso de la función sorted(). Cuando se trabaja con cadenas de texto en inglés el resultado de la ordenación es correcto, pero no así en otros idiomas como el español donde existen acentos los cuales Python no ordena correctamente. Una solución a este problema se puede conseguir con el paquete … [Leer más...] acerca de Ordenar textos en Python con acentos en diferentes idiomas
Eliminar las filas con valores nulos en Pandas
Cuando se importa un conjunto de datos en un DataFrame de Pandas es posible que existan valores nulos. Cuya presencia puede afectar a las conclusiones de los análisis que se desean realizar. Para evitar esto una posible solución es eliminar las filas con valores nulos, tanto sea en una única columna, en cualquiera o en un subconjunto.Conjuntos de datos con valores nulos en … [Leer más...] acerca de Eliminar las filas con valores nulos en Pandas
Cuatro libros para aprender Pandas
Pandas es la librería de referencia para el manejo de datos en Python. Una herramienta compleja que puede ayudarnos a resolver una gran cantidad de problemas con los que necesitamos lidiar en el día a día como analistas o científicos de datos. Existen múltiples libros que pueden ser una excelente opción para iniciarse y profundizar en el tema. Por lo que en esta publicación he … [Leer más...] acerca de Cuatro libros para aprender Pandas
Modelos de aprendizaje automático con ChatGPT en español
Hace unas semanas publiqué una entrada en la que evalúe las posibilidades que tiene ChatGPT para la creación de modelos de aprendizaje automático. Comprobando que es una herramienta que puede servir de ayuda para aquellos que comienzan. En aquella ocasión trabajé con la herramienta en inglés, debido a que este es el idioma en el que suelen entrenarse los modelos y, por lo … [Leer más...] acerca de Modelos de aprendizaje automático con ChatGPT en español
Uso del método de Pandas diff()
con cadenas de texto
El método diff() de Pandas permite obtener la diferencia entre los valores de un registro y el siguiente para todos una serie. Aunque solamente funciona cuando las series contienen valores de tipo numérico o fecha, no cadenas de texto. Si se necesita saber cuándo los valores de una serie con texto cambian de un registro a al siguiente, será necesario crear un método equivalente … [Leer más...] acerca de Uso del método de Pandas diff()
con cadenas de texto
Implementar modelos de aprendizaje automático con ChatGPT
ChatGPT es un modelo de lenguaje desarrollado por OpenAI que puede producir respuestas a las cuestiones que se le plantean de forma similar a como lo haría un humano. Con capacidad de comprender el contexto de las preguntas y seguir una conversación. Por lo que es capaz ampliar o corregir las respuestas generadas anteriormente dentro de una conversación en base a las cuestiones … [Leer más...] acerca de Implementar modelos de aprendizaje automático con ChatGPT
Reemplaza loc
e iloc
para mejorar el rendimiento en bucles
Dos de los métodos más utilizados para acceder a los elementos de una Serie o un DataFrame en Pandas son loc e iloc. Algo que se debe a su gran flexibilidad, permite seleccionar elementos o subconjuntos usando tanto los nombres de las etiquetas (loc) como la posición (iloc) de forma intuitiva. Aunque, en algunos casos, pueden ofrecer problemas de rendimiento. Por ejemplo, en … [Leer más...] acerca de Reemplaza loc
e iloc
para mejorar el rendimiento en bucles
Diferencias entre loc
e iloc
en Pandas
La selección de elementos en los DataFrames de Pandas se puede realizar mediante dos métodos: loc e iloc. Aunque, en algunos casos, pueden parecer intercambiables, no es así. Existen importantes diferencias entre loc e iloc. Conocer estas permite seleccionar la opción más adecuada en cada caso.Principal diferencia entre loc e ilocLa principal diferencia que existe entre … [Leer más...] acerca de Diferencias entre loc
e iloc
en Pandas
Configurar el API de Scikit-learn para generar DataFrames
La nueva versión 1.3 de Scikit-learn trae importantes novedades. Una de ellas es la posibilidad de configurar el API de las herramientas de transformación de datos o transformers. Hasta ahora en Scikit-learn al utilizar un transformer el resultado que se obtiene es un ndarray de NumPy. A partir de la versión 1.3, es posible configurar el tipo de objeto resultante mediante el … [Leer más...] acerca de Configurar el API de Scikit-learn para generar DataFrames