Los árboles de decisión son un de la familia de modelos de aprendizaje automático más utilizados. Se pueden utilizar tanto para resolver problemas de clasificación como de regresión. Una de sus principales ventajas es la facilidad con la que se puede interpretar los resultados en base a reglas. Permitiendo no solo obtener un resultado, sino que inspeccionar los motivos por los … [Leer más...] acerca de Visualización de árboles de decisión en Python con PyDotPlus
Python
Python es un lenguaje de programación interpretado con una filosofía basada en la legibilidad del código. Un lenguaje que gracias posee un gran ecosistema de librerías para la ciencia de datos. Por lo que es uno de los más populares en la actualidad entre los científicos de datos. Además, es uno de los lenguajes más deseados y adorados por los programadores según las encuestas de Stack Overflow.
Python es un lenguaje de programación interpretado de propósito general que obliga al uso de una sintaxis clara, gracias a la cual el código es altamente legible. Siendo un lenguaje potente y fácil de aprender. Además, permite utilizar múltiples paradigmas de programación. Lo que permite usar desde programación orientada a objetos, pasando por programación imperativa o funcional.
Los paquetes de Python más utilizados por los científicos son:
- NumPy: permite el tratamiento de datos basados en matrices,
- Pandas: ideal para la manipulación de datos heterogéneos mediante objetos DataFrame,
- SciPy: implementa tareas habituales en computación científica,
- Matplotlib: facilita la visualización de datos y scikit-learn creación de modelos de aprendizaje automático.
Las publicaciones de esta sección versan sobre estas librerías y las bases del lenguaje.
Sistemas de ecuaciones lineales con numpy
Un problema de cálculo que se puede resolver fácilmente con Python son los sistemas de ecuaciones lineales. Gracias a las matrices de numpy se puede conseguir el resultado poco más de un par de líneas. Por ejemplo, para resolver un sistema de ecuaciones lineales con numpy solamente se ha de utilizar el siguiente bloque de código:Al ejecutar el código se puede comprobar … [Leer más...] acerca de Sistemas de ecuaciones lineales con numpy
Utilización de pantallas retina en Jupyter Notebook
Las pantallas con una alta densidad de pixeles son cada vez más populares, volviéndose en muchos casos el estándar de la industria. Esto es porque la calidad en la imagen de las pantallas es considerable. Hoy en día se pueden encontrar una gran oferta de ordenadores o monitores con resolución HiDPI o Retina Display en el mundo Apple. Por defecto la calidad de las pantallas … [Leer más...] acerca de Utilización de pantallas retina en Jupyter Notebook
Creación de gráficos interactivos en Jupyter Notebook con Python
Para la exploración de datos los gráficos interactivos es una solución que facilita la tarea. Poder comprobar cómo cambian los resultados al modificar uno o varios parámetros facilitan la comprensión del efecto de estos. A continuación, se explicará cómo crear gráficos interactivos en Jupyter Notebook con Python.IntroducciónEn muchas ocasiones es interesante poder … [Leer más...] acerca de Creación de gráficos interactivos en Jupyter Notebook con Python
Unir y combinar dataframes con pandas en Python
En muchas ocasiones nos podemos encontrar con que los conjuntos de datos no se encuentran agregados en una única tabla. Por ejemplo, los datos personales de los clientes y las transacciones estos han realizado. En estas situaciones la consolidación de los datos se puede realizar tengo una base de datos con SQL. Pero esto no es necesario, la consolidación también se puede … [Leer más...] acerca de Unir y combinar dataframes con pandas en Python
Acelerar las funciones de Python con lru_cache
En esta entrada se va a ver cómo cachear los métodos para acelerar las funciones de Python con lru_cache.Al trabajar con funciones recursivas, como puede ser la sucesión de Fibonacci, es habitual llamar al mismo método con los mismos parámetros en repetidas ocasiones. Si el resultado del método se obtiene rápidamente esto no es un problema, pero si en el caso contrario. Una … [Leer más...] acerca de Acelerar las funciones de Python con lru_cache
Expansión de listas de valores en dataframes con pandas
En ciertas ocasiones, tras la importación de un conjunto de datos, puede ser que uno de los registros de un dataframe contenga listas de valores en lugar de un único valor. Generalmente, para poder trabajar con estos valores es necesario convertir las listas en series. Esta transformación es una tarea trivial cuando solamente se ha de realizar para un único registro. En el caso … [Leer más...] acerca de Expansión de listas de valores en dataframes con pandas
Manipulación básica de series temporales con pandas
Pandas es una biblioteca para la manipulación y el análisis de datos en el lenguaje de programación Python. Siendo una de las librerías mas utilizadas por los científicos de datos que trabajan con este lenguaje. Entre sus capacidades se encuentra el manejo de objetos DataFrame para la manipulación de tablas, la capacidad de importación y exportación los datos en múltiples … [Leer más...] acerca de Manipulación básica de series temporales con pandas
Guardar y leer archivos Excel en Python
Microsoft Excel es uno de los programas más utilizado para la visualización y análisis de datos en la empresa. La omnipresencia de este programa hace que muchos usuarios se decanten por el formato xlsx (o xls) para exportar sus conjuntos de datos. Por esto saber leer y escribir archivos Excel en Python es clave para trabajar de forma óptima en muchos entornos. A pesar de que … [Leer más...] acerca de Guardar y leer archivos Excel en Python
Visualización de datos en Python con Seaborn
Seaborn es una librería para Python que permite generar fácilmente elegantes gráficos. Seaborn esta basada en matplotlib y proporciona una interfaz de alto nivel que es realmente sencilla de aprender. Dada su gran popularidad se encuentra instalada por defecto en la distribución Anaconda.La representación de datos es una tarea clave del análisis de datos. La utilización de … [Leer más...] acerca de Visualización de datos en Python con Seaborn
Archivos JSON con Python: lectura y escritura
El formato de archivo JSON es uno de los más populares en los últimos años para serializar de datos. Los archivos de este formato se pueden obtener como resultados de la mayoría de las aplicaciones API REST y otras aplicaciones web. Debido a su gran popularidad es cada vez más probable que se necesite leer o escribir archivos JSON con Python.En Python el formato JSON se … [Leer más...] acerca de Archivos JSON con Python: lectura y escritura
Introducción a las pruebas unitarias en Python
Las pruebas unitarias son clave para poder garantizar la calidad del cualquier código. Al escribir pruebas unitarias se automatiza el control de calidad, al mismo tiempo que se crea una documentación viva de las funcionalidades y APIs implementadas. En esta entrada es realiza una introducción a la escritura de pruebas unitarias en Python utilizando la librería unittest.¿Por … [Leer más...] acerca de Introducción a las pruebas unitarias en Python