Python

Python es un lenguaje de programación interpretado con una filosofía basada en la legibilidad del código. Un lenguaje que gracias posee un gran ecosistema de librerías para la ciencia de datos. Por lo que es uno de los más populares en la actualidad entre los científicos de datos. Además, es uno de los lenguajes más deseados y adorados por los programadores según las encuestas de Stack Overflow.

Python es un lenguaje de programación interpretado de propósito general que obliga al uso de una sintaxis clara, gracias a la cual el código es altamente legible. Siendo un lenguaje potente y fácil de aprender. Además, permite utilizar múltiples paradigmas de programación. Lo que permite usar desde programación orientada a objetos, pasando por programación imperativa o funcional.

Los paquetes de Python más utilizados por los científicos son:

NumPy: permite el tratamiento de datos basados en matrices,
Pandas: ideal para la manipulación de datos heterogéneos mediante objetos DataFrame,
SciPy: implementa tareas habituales en computación científica,
Matplotlib: facilita la visualización de datos y scikit-learn creación de modelos de aprendizaje automático.

Las publicaciones de esta sección versan sobre estas librerías y las bases del lenguaje.

Gráficos de densidad: alternativa a los gráficos de dispersión en Python

marzo 27, 2023 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 4 minutos

En una publicación anterior se vieron algunos de los problemas que muestran los gráficos de dispersión cuando se cuentan con grandes conjuntos de datos, proponiendo en aquella ocasión el uso de los gráficos de Hexbin como alternativa. Otros gráficos que se pueden emplear en estas situaciones son los gráficos de densidad. Unos gráficos en los que se dibujan los contornos en los … [Leer más...] acerca de Gráficos de densidad: alternativa a los gráficos de dispersión en Python

Gráficos de Hexbin: alternativa a los gráficos de dispersión en Python

marzo 20, 2023 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 4 minutos

Los gráficos de dispersión son uno de los más utilizados para representar cómo se distribuyen los valores de un conjunto de datos en un plano. Son fáciles de crear y sencillos de interpretar. Aunque, cuando el conjunto de datos cuenta con centenas de registros, los gráficos de dispersión pueden ser demasiado densos para interpretarlos. En esta situación una alternativa es … [Leer más...] acerca de Gráficos de Hexbin: alternativa a los gráficos de dispersión en Python

Uso del método de Pandas `diff()` con cadenas de texto

marzo 13, 2023 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 3 minutos

El método diff() de Pandas permite obtener la diferencia entre los valores de un registro y el siguiente para todos una serie. Aunque solamente funciona cuando las series contienen valores de tipo numérico o fecha, no cadenas de texto. Si se necesita saber cuándo los valores de una serie con texto cambian de un registro a al siguiente, será necesario crear un método equivalente … [Leer más...] acerca de Uso del método de Pandas diff() con cadenas de texto

Optimizar código en Jupyter con el decorador `@profile`

marzo 6, 2023 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 3 minutos

En una publicación anterior se vio como se puede optimizar el código Python usando LineProfiler, una librería con la se puede analizar el tiempo que necesita cada línea de un programa para finalizar. Lo que permite centrar las mejoras solamente en aquellas áreas donde el código es lento. En aquella ocasión se vio como en un archivo de Python la forma más sencilla de usar esta … [Leer más...] acerca de Optimizar código en Jupyter con el decorador @profile

Eliminar características colineales con la matriz de correlación

marzo 3, 2023 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 3 minutos

En aprendizaje automático el uso de características colineales para el entrenamiento es un problema que puede afectar a la calidad de los modelos, especialmente en los lineales. Por lo que es necesario identificarlas y eliminarlas. Una de las razones para hacer esto es usar la matriz de correlación dado que la multicolinealidad se produce cuando dos o más características están … [Leer más...] acerca de Eliminar características colineales con la matriz de correlación

Generación de números aleatorios criptográficamente seguros en Python

febrero 27, 2023 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 2 minutos

La generación de número aleatorios criptográficamente seguros es clave para poder garantizar la seguridad y privacidad de los sistemas. Cuando los valores se obtienen de funciones que no se pueden considerar seguras, como es el caso de las librerías random o NumPy, es posible predecir los números generados. Algo que un atacante puede usar para acceder a los datos que se desean … [Leer más...] acerca de Generación de números aleatorios criptográficamente seguros en Python

Usar ChatGPT en Python

febrero 22, 2023 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 2 minutos

La semana pasada analicé cómo puede ayudar a los científicos de datos el uso de ChatGPT, comprobando que este puede implementar rápidamente análisis de datos y modelos básicos. Para lo que utilice la aplicación de chat disponible en la propia web de OpenAI. Otro método para acceder a ChatGPT es empleando el API que ofrece OpenAI, lo que permite integrar fácilmente el modelo en … [Leer más...] acerca de Usar ChatGPT en Python

Optimización de código Python con LineProfiler

febrero 20, 2023 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 3 minutos

LineProfiler es una herramienta que puede ser de gran ayuda para la optimización de código Python. Debido a que permite medir el tiempo que necesita para ejecutar cada una de las líneas de un programa. Pudiendo identificar de esta manera aquellas que requieren más tiempos. Así, se pueden focalizar los esfuerzos en mejorar el rendimiento solamente de aquellas partes de código … [Leer más...] acerca de Optimización de código Python con LineProfiler

Interpretación de las predicciones de los árboles de regresión y Random Forest

febrero 17, 2023 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 3 minutos

Una de las ventajas de usar árboles de regresión es su interpretabilidad. Cuando se crea un modelo a partir de un árbol de regresión no solamente se puede obtener una predicción para cada uno de los registros, sino que también es posible saber cuánto afecta cada una de las características usadas al resultado final. Aunque esto no se puede hacer directamente en Scikit-learn. … [Leer más...] acerca de Interpretación de las predicciones de los árboles de regresión y Random Forest

Reemplaza `loc` e `iloc` para mejorar el rendimiento en bucles

febrero 13, 2023 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 4 minutos

Dos de los métodos más utilizados para acceder a los elementos de una Serie o un DataFrame en Pandas son loc e iloc. Algo que se debe a su gran flexibilidad, permite seleccionar elementos o subconjuntos usando tanto los nombres de las etiquetas (loc) como la posición (iloc) de forma intuitiva. Aunque, en algunos casos, pueden ofrecer problemas de rendimiento. Por ejemplo, en … [Leer más...] acerca de Reemplaza loc e iloc para mejorar el rendimiento en bucles

Diferencias entre `loc` e `iloc` en Pandas

febrero 6, 2023 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 3 minutos

La selección de elementos en los DataFrames de Pandas se puede realizar mediante dos métodos: loc e iloc. Aunque, en algunos casos, pueden parecer intercambiables, no es así. Existen importantes diferencias entre loc e iloc. Conocer estas permite seleccionar la opción más adecuada en cada caso.Principal diferencia entre loc e ilocLa principal diferencia que existe entre … [Leer más...] acerca de Diferencias entre loc e iloc en Pandas

Almacenar variables en Jupyter

enero 30, 2023 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 3 minutos

Durante una sesión de trabajo en un Notebook de Jupyter los diferentes resultados que se obtengan se pueden almacenar las variables y recuperarlos posteriormente. Aunque, una vez se cierre el Notebook o se reinicie el núcleo (kernel) de IPython, los valores se pierden ya que solamente están almacenados en memoria. Cuando se necesita persistencia de datos se pueden almacenar … [Leer más...] acerca de Almacenar variables en Jupyter