Hace unas semanas publiqué una entrada en la que evalúe las posibilidades que tiene ChatGPT para la creación de modelos de aprendizaje automático. Comprobando que es una herramienta que puede servir de ayuda para aquellos que comienzan. En aquella ocasión trabajé con la herramienta en inglés, debido a que este es el idioma en el que suelen entrenarse los modelos y, por lo … [Leer más...] acerca de Modelos de aprendizaje automático con ChatGPT en español
Pandas
Pandas es una librería para Python la cual extiende las funcionalidades que ofrece NumPy para el tratamiento y análisis de conjuntos de datos. Poniendo a disposición de los usuarios dos nuevas estructuras de datos (Series y DataFrame) que facilitan la manipulación de series temporales y tablas.
La estructura de datos básica de Pandas es el objeto Series. Un vector etiquetado capaz de contener cualquier tipo de dato (enteros, reales, cadenas de texto, fechas, objetos de Python, …) con etiquetas que se denominan índices.
La otra estructura de datos, el DataFrame, es una colección ordenada de columnas con nombres y tipos, similar a las tablas de las bases de datos, donde las filas son un registro y las columnas son los atributos. Siendo cada una de las columnas de este tipo de datos un objeto Series.
Uso del método de Pandas diff() con cadenas de texto
El método diff() de Pandas permite obtener la diferencia entre los valores de un registro y el siguiente para todos una serie. Aunque solamente funciona cuando las series contienen valores de tipo numérico o fecha, no cadenas de texto. Si se necesita saber cuándo los valores de una serie con texto cambian de un registro a al siguiente, será necesario crear un método equivalente … [Leer más...] acerca de Uso del método de Pandas diff() con cadenas de texto
Implementar modelos de aprendizaje automático con ChatGPT
ChatGPT es un modelo de lenguaje desarrollado por OpenAI que puede producir respuestas a las cuestiones que se le plantean de forma similar a como lo haría un humano. Con capacidad de comprender el contexto de las preguntas y seguir una conversación. Por lo que es capaz ampliar o corregir las respuestas generadas anteriormente dentro de una conversación en base a las cuestiones … [Leer más...] acerca de Implementar modelos de aprendizaje automático con ChatGPT
Reemplaza loc e iloc para mejorar el rendimiento en bucles
Dos de los métodos más utilizados para acceder a los elementos de una Serie o un DataFrame en Pandas son loc e iloc. Algo que se debe a su gran flexibilidad, permite seleccionar elementos o subconjuntos usando tanto los nombres de las etiquetas (loc) como la posición (iloc) de forma intuitiva. Aunque, en algunos casos, pueden ofrecer problemas de rendimiento. Por ejemplo, en … [Leer más...] acerca de Reemplaza loc e iloc para mejorar el rendimiento en bucles
Diferencias entre loc e iloc en Pandas
La selección de elementos en los DataFrames de Pandas se puede realizar mediante dos métodos: loc e iloc. Aunque, en algunos casos, pueden parecer intercambiables, no es así. Existen importantes diferencias entre loc e iloc. Conocer estas permite seleccionar la opción más adecuada en cada caso.Principal diferencia entre loc e ilocLa principal diferencia que existe entre … [Leer más...] acerca de Diferencias entre loc e iloc en Pandas
Configurar el API de Scikit-learn para generar DataFrames
La nueva versión 1.3 de Scikit-learn trae importantes novedades. Una de ellas es la posibilidad de configurar el API de las herramientas de transformación de datos o transformers. Hasta ahora en Scikit-learn al utilizar un transformer el resultado que se obtiene es un ndarray de NumPy. A partir de la versión 1.3, es posible configurar el tipo de objeto resultante mediante el … [Leer más...] acerca de Configurar el API de Scikit-learn para generar DataFrames
Uso de Eval en Pandas para analizar datos de forma sencilla
El método eval() de los DataFrames de Pandas permite indicar mediante una cadena de texto las operaciones que se desean realizar sobre las columnas del conjunto de datos. Con un funcionamiento similar al de método query(). Pudiendo combinar ambos para llevar a cabo operaciones complejas sobre los datos de los DataFrames de una forma relativamente sencilla. Veamos algunos de los … [Leer más...] acerca de Uso de Eval en Pandas para analizar datos de forma sencilla
Barajar las filas de un DataFrame con Pandas
Los DataFrames de Pandas disponen del método sample() con el que se puede obtener una muestra aleatoria de los registros de un conjunto de datos. Método que se puede emplear para barajar las filas de un DataFrame. Veamos algunos de los usos que se le puede dar al método sample().Conjunto de ejemploAntes de continuar es necesario disponer de un conjunto de datos de … [Leer más...] acerca de Barajar las filas de un DataFrame con Pandas
Diferencia entre dos fechas en Python
Posiblemente una de las mejores opciones para trabajar con fechas en Python sea el tipo de dato datetime64 de NumPy. El cual permite realizar operaciones con fechas como con números, pudiendo restar, sumar o dividir con días, semanas, meses o años. Veamos las opciones que ofrece datetime64 para calcular la diferencia entre dos fechas en Python.Creación de series con … [Leer más...] acerca de Diferencia entre dos fechas en Python
Modificar el formato de los DataFrame de Pandas
Cuando se imprime un DataFrame de Pandas por la pantalla este se muestra con un formato estándar. A pesar de que este es más que adecuado para la mayoría de las aplicaciones, el estilo se puede modificar para adaptarlo a nuestras necesidades. Veamos algunos cambios que se pueden realizar en el formato de los DataFrame de Pandas para obtener unos que se puedan adaptar a cada uno … [Leer más...] acerca de Modificar el formato de los DataFrame de Pandas
Importar solamente algunas columnas de un archivo con Pandas
Una de las formas más habituales para importar los datos para un análisis es mediante el uso de archivos. Los cuales, debido a que los conjuntos de datos no se generan específicamente para un análisis en concreto, generalmente contienen más información de la que es necesaria para el estudio que se necesita realizar. Siendo necesaria más memoria para trabajar con ellos. En … [Leer más...] acerca de Importar solamente algunas columnas de un archivo con Pandas
Obtener los primeros registros ordenados de un DataFrame Pandas
Los objetos DataFrame de Pandas cuentan con un par de métodos mediante los cuales se puede ordenar los registros en base a los valores de una o varias columnas y obtener como resultado los n primeros. Una funcionalidad con la que se puede simplificar algunos análisis. En concreto, el método df.nlargest() ordena de mayor a menor los registros de un conjunto de datos y devuelve … [Leer más...] acerca de Obtener los primeros registros ordenados de un DataFrame Pandas






