En Pandas existen dos opciones para seleccionar los elementos de un DataFrame: at y loc. Aparentemente las dos alternativas hacen lo mismo, pero no es así. Existe una sutil diferencia entre at y loc en Pandas que se debe tener en cuenta a la hora de elegir una u otra opción.La diferencia entre at y loc en PandasLa sutil diferencia que existe entre los dos métodos es la … [Leer más...] acerca de Diferencia entre at y loc en Pandas
Pandas
Pandas es una librería para Python la cual extiende las funcionalidades que ofrece NumPy para el tratamiento y análisis de conjuntos de datos. Poniendo a disposición de los usuarios dos nuevas estructuras de datos (Series
y DataFrame
) que facilitan la manipulación de series temporales y tablas.
La estructura de datos básica de Pandas es el objeto Series
. Un vector etiquetado capaz de contener cualquier tipo de dato (enteros, reales, cadenas de texto, fechas, objetos de Python, …) con etiquetas que se denominan índices.
La otra estructura de datos, el DataFrame
, es una colección ordenada de columnas con nombres y tipos, similar a las tablas de las bases de datos, donde las filas son un registro y las columnas son los atributos. Siendo cada una de las columnas de este tipo de datos un objeto Series
.
Comparar cadenas con espacios en Pandas
Los DataFrame de Pandas son una excelente herramienta para procesar los conjuntos de datos. Con ellos es posible seleccionar los registros en base a los valores de las diferentes columnas o eliminar aquellos que no cumplan una condición. Algo que se puede hacer con valores numéricos, fechas y cadenas de texto. Pero ¿qué pasa cuando los registros de texto no son iguales? Por … [Leer más...] acerca de Comparar cadenas con espacios en Pandas
Segmentar datos numéricos en Pandas con la función cut()
Al trabajar con datos numéricos, para facilitar su análisis e interpretación, puede ser necesario agrupar estos en intervalos de valores discretos. Lo que permite convertir datos numéricos en categorías o clases. La función cut permite segmentar datos numéricos en Pandas de una manera sencilla.Descripción de la función cut() de PandasLa función cut() de Pandas permite … [Leer más...] acerca de Segmentar datos numéricos en Pandas con la función cut()
Acelera el código mediante vectorización en Python: elimina los bucles para aumentar el rendimiento hasta 1800 veces
La primera opción que suele venir a la cabeza cuando se necesita realizar una misma operación sobre diferentes valores es mediante el uso de un bucle. Lo que en Python se puede hacer mediante el uso de for o while. Esta es una forma natural de operar, primero se ejecuta la instrucción sobre el primer elemento, después sobre el segundo y así hasta que se termina. Si se conoce el … [Leer más...] acerca de Acelera el código mediante vectorización en Python: elimina los bucles para aumentar el rendimiento hasta 1800 veces
Ordenar valores en Pandas
En los DataFrames de Pandas se pueden ordenar los registros en base a los valores es estos utilizando el método sort_values(). Este método permite ordenar en base a una o varias columnas, tanto de forma ascendente como descendente, e indicar cómo se deben tratar los valores nulos. Veamos cómo se puede usar este método para ordenar valores en Pandas, para ello primero se … [Leer más...] acerca de Ordenar valores en Pandas
Extender con métodos propios los DataFrame de Pandas
Los DataFrames de Pandas son una fantástica herramienta para analizar datos en Python. No solamente pueden almacenar datos en formato tabular, sino que también disponen de una amplia variedad de métodos para seleccionar, procesar y analizar los datos de una forma altamente eficiente. Sin embargo, en algunas ocasiones, puede ser que no exista un método que permita solucionar de … [Leer más...] acerca de Extender con métodos propios los DataFrame de Pandas
Como filtrar en base a listas o DataFrames en Pandas
La indexación booleana en Pandas permite seleccionar de forma sencilla los elementos de un DataFrame en base a que los valores de una o varias filas cumplan ciertas condiciones. Solamente se debe crear un vector booleano con el valor True en las filas que se desean seleccionar. Algo que es fácil cuando la condición se debe comparar con un único valor, solamente se debe escribir … [Leer más...] acerca de Como filtrar en base a listas o DataFrames en Pandas
Ordenar un DataFrame en base a dos o más columnas
Los DataFrames de Pandas cuentan con el método sort_values() para ordenar los registros de un conjunto de datos en base a sus valores. Siendo una herramienta que ofrece múltiples opciones. En su uso básico permite ordenar los datos en base a los valores de una columna, pero también es posible ordenar un DataFrame en base a dos o más columnas. Pudiendo llegar a combinar unas en … [Leer más...] acerca de Ordenar un DataFrame en base a dos o más columnas
Creación de variables dummies con Pandas (variables binarias para aprendizaje automático)
La mayoría de los algoritmos de aprendizaje automático solamente pueden trabajar con datos numéricos. Pero, en muchas ocasiones, lo que se tienen son datos de tipo categórico. Debido a que los algoritmos no pueden realizar las operaciones matemáticas sobre estos, es necesario transformarlos antes de poder emplearlos en el entrenamiento de cualquier modelo de aprendizaje … [Leer más...] acerca de Creación de variables dummies con Pandas (variables binarias para aprendizaje automático)
Reemplazo condicional de valores en Pandas
Los objetos DataFrame de Pandas son unas estructuras de datos fantásticas para el análisis y manipulación de los datos. Facilitando muchas tareas en el día a día. Por ejemplo, cuando se necesita reemplazar ciertos registros en función de los valores de estos u otros, esto es, cuando se desea realizar un reemplazo condicional de valores.Conjunto de datos de ejemploEn … [Leer más...] acerca de Reemplazo condicional de valores en Pandas
Calcular diferencia entre elementos de un DataFrame con diff
En los objetos DataFrame de Pandas existe un método con el que se puede obtener la diferencia entre un elemento y el anterior, o cualquier otra posición. Este método es diff(). Su uso permite obtener la diferencia entre los elementos de un DataFrame, lo que se puede usar para ver de una forma rápida cómo crece o decrece una magnitud.El método diff() en PandasEl … [Leer más...] acerca de Calcular diferencia entre elementos de un DataFrame con diff
Acotar los valores en un DataFrame de Pandas
Existen diferentes motivos por los que puede ser necesario limitar o acotar los valores en un DataFrame. Por ejemplo, eliminar valores atípicos o garantizar la consistencia de los datos. Esto es algo que se puede conseguir mediante asignaciones condicionales de valores, aunque también existe el método clip() que lo permite hacer de una manera más legible y con la que es más … [Leer más...] acerca de Acotar los valores en un DataFrame de Pandas