Seaborn es una librería para Python que permite generar fácilmente elegantes gráficos. Seaborn esta basada en matplotlib y proporciona una interfaz de alto nivel que es realmente sencilla de aprender. Dada su gran popularidad se encuentra instalada por defecto en la distribución Anaconda.La representación de datos es una tarea clave del análisis de datos. La utilización de … [Leer más...] acerca de Visualización de datos en Python con Seaborn
¿Cómo guardar las contraseñas en aplicaciones?
A la hora de crear una nueva aplicación multiusuario siempre llega el momento de manejar contraseñas para gestionar el acceso de los usuarios a la misma. En estos momentos llega la pregunta de cómo guardar las contraseñas de una forma que sea segura y confiable para los usuarios. En esta entrada se presentarán algunos de los métodos incorrectos más utilizados y se explicará una … [Leer más...] acerca de ¿Cómo guardar las contraseñas en aplicaciones?
Archivos JSON con Python: lectura y escritura
El formato de archivo JSON es uno de los más populares en los últimos años para serializar de datos. Los archivos de este formato se pueden obtener como resultados de la mayoría de las aplicaciones API REST y otras aplicaciones web. Debido a su gran popularidad es cada vez más probable que se necesite leer o escribir archivos JSON con Python.En Python el formato JSON se … [Leer más...] acerca de Archivos JSON con Python: lectura y escritura
Aprendizaje supervisado y aprendizaje no supervisado
Los modelos de aprendizaje automático se pueden dividir en dos grandes familias: aprendizaje supervisado y aprendizaje no supervisado. La principal diferencia entre estas dos familias se encuentra en los datos de entrenamiento. En el aprendizaje supervisado los resultados que se desean obtener del modelo son conocidos previamente. Siendo utilizados para guiar su entrenamiento. … [Leer más...] acerca de Aprendizaje supervisado y aprendizaje no supervisado
Publicación de nuevos conjuntos de datos de Microsoft Research
Microsoft Research acaba de publicar un nuevo conjunto de datos abiertos y los ha puesto a disposición para su descarga en Microsoft Research Open Data.Los conjuntos de datos de Microsoft Research se encuentran categorizados por área de investigación, entre las que se encuentran: física, ciencias sociales, ciencias ambientales y ciencias de la información. La mayoría de los … [Leer más...] acerca de Publicación de nuevos conjuntos de datos de Microsoft Research
Introducción a las pruebas unitarias en Python
Las pruebas unitarias son clave para poder garantizar la calidad del cualquier código. Al escribir pruebas unitarias se automatiza el control de calidad, al mismo tiempo que se crea una documentación viva de las funcionalidades y APIs implementadas. En esta entrada es realiza una introducción a la escritura de pruebas unitarias en Python utilizando la librería unittest.¿Por … [Leer más...] acerca de Introducción a las pruebas unitarias en Python
6 aplicaciones del CLV
En este blog se ha hablado en varias ocasiones del concepto de valor de ciclo de vida de cliente (CLV por siglas en inglés “Customer Lifetime Value”). Las entradas han sido principalmente técnicas, prestando menos atención a las aplicaciones del CLV. En concreto se puede encontrar una introducción técnica al concepto en la entrada "Valor de ciclo de vida de cliente". Por otro … [Leer más...] acerca de 6 aplicaciones del CLV
Agrupación de datos por fecha en pandas
A la hora de analizar conjuntos de datos es habitual encontrarse con series temporales. En estas ocasiones suele ser interesante poder obtener de una forma rápida información estadística de los registros, como puede el número de ocurrencias por mes. En Python se encuentran disponibles diferentes herramientas para poder realizar la agrupación por fecha en pandas. Conocer el … [Leer más...] acerca de Agrupación de datos por fecha en pandas
El problema de desequilibrio de clases en conjuntos de datos de entrenamiento
Al enfrentarse a la situación de crear un modelo de clasificación es habitual que las clases no se encuentran balanceadas. Esto es, el número de registros para una de las clases es inferior al resto. Cuando el desequilibrio es pequeño, uno a dos, esto no supone un problema, pero cuando es grande es un problema para la mayoría de los modelos de clasificación. Esta situación se … [Leer más...] acerca de El problema de desequilibrio de clases en conjuntos de datos de entrenamiento
GridSearchCV
GridSearchCV es una clase disponible en scikit-learn que permite evaluar y seleccionar de forma sistemática los parámetros de un modelo. Indicándole un modelo y los parámetros a probar, puede evaluar el rendimiento del primero en función de los segundos mediante validación cruzada. En caso de que se desee evaluar modelos con parámetros aleatorios existe el método … [Leer más...] acerca de GridSearchCV
Python 3.7
Después de casi un año de desarrollo el pasado 27 de junio ha sido lanzado oficialmente Python 3.7. Esta versión de Python ha estado en desarrollo desde septiembre de 2016.Python 3.7, además de incluir importantes novedades que permite simplificar ciertas tareas, es más rápido que la versión anterior. Entre las principales novedades que incluye esta versión se puede … [Leer más...] acerca de Python 3.7
Eliminar filas o columnas con valores nulos en Python
La existencia de valores nulos en cualquier conjunto de datos supone un problema a la hora de realizar cualquier análisis. Saber cómo eliminar estos valores de manera fácil es clave de cara a automatizar los procesos de análisis. En esta entrada se va a explicar la forma de eliminar las filas o columnas que contenga valores nulos en Python. En primer lugar, se explicará la … [Leer más...] acerca de Eliminar filas o columnas con valores nulos en Python









