Las clases de Python tienen por defecto dos métodos que a primera vista pueden parecen el mismo __str__ y __repr__. Aunque realmente son diferentes. Por eso, para acceder a cada una de los métodos Python cuenta con dos funciones diferentes: str() y repr(). A la hora de crear nuestros objetos es necesario conocer cuales son las diferencias existen y cuando se deben usar str y … [Leer más...] acerca de Diferencias entre str y repr en Python
Python
Python es un lenguaje de programación interpretado con una filosofía basada en la legibilidad del código. Un lenguaje que gracias posee un gran ecosistema de librerías para la ciencia de datos. Por lo que es uno de los más populares en la actualidad entre los científicos de datos. Además, es uno de los lenguajes más deseados y adorados por los programadores según las encuestas de Stack Overflow.
Python es un lenguaje de programación interpretado de propósito general que obliga al uso de una sintaxis clara, gracias a la cual el código es altamente legible. Siendo un lenguaje potente y fácil de aprender. Además, permite utilizar múltiples paradigmas de programación. Lo que permite usar desde programación orientada a objetos, pasando por programación imperativa o funcional.
Los paquetes de Python más utilizados por los científicos son:
- NumPy: permite el tratamiento de datos basados en matrices,
- Pandas: ideal para la manipulación de datos heterogéneos mediante objetos DataFrame,
- SciPy: implementa tareas habituales en computación científica,
- Matplotlib: facilita la visualización de datos y scikit-learn creación de modelos de aprendizaje automático.
Las publicaciones de esta sección versan sobre estas librerías y las bases del lenguaje.
Truco Python: eliminar los valores duplicados de una lista en Python
Un problema con el que nos podemos encontrar de forma más es la identificación de valores únicos en una lista. Ya que la existencia de valores duplicados no es se interés para el análisis que se desea realizar. Por eso, saber como eliminar los valores duplicados en una lista es un truco que debemos tener en nuestro arsenal. Otro truco que también puede ser de interés es contar … [Leer más...] acerca de Truco Python: eliminar los valores duplicados de una lista en Python
Jupyter Notebooks en Visual Studio Code
Una de las herramientas que ha revolucionado el trabajo con Python para el tratamiento de datos es Jupyter Notebooks. Por otro lado, uno de los editores de texto más populares en la actualidad es Visual Studio Code. La buena noticia para los que nos gustan ambas herramientas es que, gracias a las extensiones de Visual Studio Code, es posible ejecutar directamente Jupyter … [Leer más...] acerca de Jupyter Notebooks en Visual Studio Code
Muestreo en Python
Al trabajar con datos puede que sea necesario realizar una muestra de un conjunto de datos. Esto puede ser porque la totalidad de los datos disponibles sea inmanejable o porque exista un desequilibrio en las clases de los datos. En estos es necesario recurrir al muestreo de los datos. Algunas de las técnicas más utilizadas de muestreo en Python se muestran a … [Leer más...] acerca de Muestreo en Python
Concatenar cadenas de texto en Python de forma óptima
La concatenación de cadenas de texto es una tarea habitual. Por eso en Python, al igual que otros lenguajes de programación, esta se puede realizar simplemente con el operador adicción +. Pero también existe un método de las cadenas de texto para esta tarea join. El cual permite concatenar cadenas de texto en Python de una forma más rápida y óptima para nuestros … [Leer más...] acerca de Concatenar cadenas de texto en Python de forma óptima
Importar archivos XML en Python
XML (Extensible Mark up Language) es un lenguaje de marcado que codifica los datos en texto plano. Permitiendo así que estos puedan ser legibles tanto por parte de máquinas como por personas, de manera análoga a los JSON. Actualmente es un lenguaje que es usado por múltiples programas para almacenar y transmitir datos estructurados. A diferencia de los archivos JSON o Excel no … [Leer más...] acerca de Importar archivos XML en Python
Vectorización en Python para mejorar el rendimiento
Python es uno de los leguajes de programación más populares en la actualidad en ciencia de datos y otras áreas intensivas en cálculo numérico. Aun así, no es rápido en comparación con otros lenguajes. Por eso, conocer las prácticas que nos permiten obtener el mejor rendimiento en nuestros códigos es importante. Para poder reducir así el tiempo de ejecución de nuestros … [Leer más...] acerca de Vectorización en Python para mejorar el rendimiento
Importar tablas desde webs con Pandas
En muchas páginas web es habitual encontrase con datos en formato de tablas. Datos que pueden ser de interés en nuestros estudios, por lo que disponer de una función que permita importarlos de forma fácil y sencilla es algo que nos puede ahorrar mucho tiempo. Por eso en Pandas existe el método read_html() con el que se pueden importar tablas desde webs.Tablas en páginas … [Leer más...] acerca de Importar tablas desde webs con Pandas
Convertir archivos CSV a XLSX con Python
Los archivos de Excel y CSV son los formatos más utilizados para el intercambio de datos tabulados. En algunas situaciones puede ser necesario convertir los archivos de un formato a otro, cuando los usuarios que reciben los datos lo quieren en un formato concreto o cuando el programa no admite más que uno de tipos de archivo. En esta entrada vamos a ver se pueden convertir … [Leer más...] acerca de Convertir archivos CSV a XLSX con Python
Creación de gráficos animados con Python
Una de las herramientas más eficaces para la presentación de los resultados son los gráficos. Eficacia que se puede aumentar al animarlos. La creación de gráficos animados en Python es una tarea realmente sencilla gracias a MoviePy. Un módulo para la edición de video que se puede usar tanto para operaciones básicas, como para el procesamiento y la creación de efectos avanzados … [Leer más...] acerca de Creación de gráficos animados con Python
Cursos on-line para comenzar en ciencia de datos
Ahora que medio mundo se encuentra confinado por el coronavirus puede ser el momento para realizar cursos con el que aprender nuevas habilidades o reforzar otras. En la situación actual una de las posibles soluciones es realizar un MOOC ya que no requiere asistir a clase y, en una gran cantidad de los casos, se pueden realizar de forma completamente gratuita. Aunque acceder a … [Leer más...] acerca de Cursos on-line para comenzar en ciencia de datos
Cómo conseguir que Pandas itere más rápido, hasta 375 veces
A pesar de que Python se uno de los lenguajes más populares para el tratamiento de datos no es el más rápido. Tanto Julia como JavaScript puede llegar a ser órdenes de magnitud más rápido. Por eso, cualquier truco que nos permita reducir el tiempo de ejecución de nuestro código es de agradecer. En esta entrada vamos a comparar diferentes métodos de iteración en dataframe Pandas … [Leer más...] acerca de Cómo conseguir que Pandas itere más rápido, hasta 375 veces