En una entrada anterior se ha visto qué es la minería de datos y para que se utiliza. En esta entrada se van a estudiar los posibles tipos de análisis en minería de datos. Posibles análisis en minería de datos En minería de datos se pueden realizar diferentes tipos de análisis, los cuales se pueden clasificar en base a su complejidad. Estos básicamente se pueden dividir en … [Leer más...] acerca de Tipos de análisis en minería de datos
El proceso de la minería de datos
La minería de datos hace referencia a los análisis utilizados para la identificación de patrones desconocidos en grandes conjuntos de datos. Pudiendo ser los análisis tanto automáticos como semiautomáticos. Para poder implementar los análisis de la minería de datos es necesario conocer diferentes técnicas procedentes de áreas tales como la gestión de bases de datos, la … [Leer más...] acerca de El proceso de la minería de datos
La regresión logística
El algoritmo de regresión logística es uno de los más utilizados actualmente en aprendizaje automático. Siendo su principal aplicación los problemas de clasificación binaria. Es un algoritmo simple en el que se pueden interpretar fácilmente los resultados obtenidos e identificar por qué se obtiene un resultado u otro. A pesar de su simplicidad funciona realmente bien en muchas … [Leer más...] acerca de La regresión logística
Visualización de datos en Python con Seaborn
Seaborn es una librería para Python que permite generar fácilmente elegantes gráficos. Seaborn esta basada en matplotlib y proporciona una interfaz de alto nivel que es realmente sencilla de aprender. Dada su gran popularidad se encuentra instalada por defecto en la distribución Anaconda.La representación de datos es una tarea clave del análisis de datos. La utilización de … [Leer más...] acerca de Visualización de datos en Python con Seaborn
¿Cómo guardar las contraseñas en aplicaciones?
A la hora de crear una nueva aplicación multiusuario siempre llega el momento de manejar contraseñas para gestionar el acceso de los usuarios a la misma. En estos momentos llega la pregunta de cómo guardar las contraseñas de una forma que sea segura y confiable para los usuarios. En esta entrada se presentarán algunos de los métodos incorrectos más utilizados y se explicará una … [Leer más...] acerca de ¿Cómo guardar las contraseñas en aplicaciones?
Archivos JSON con Python: lectura y escritura
El formato de archivo JSON es uno de los más populares en los últimos años para serializar de datos. Los archivos de este formato se pueden obtener como resultados de la mayoría de las aplicaciones API REST y otras aplicaciones web. Debido a su gran popularidad es cada vez más probable que se necesite leer o escribir archivos JSON con Python.En Python el formato JSON se … [Leer más...] acerca de Archivos JSON con Python: lectura y escritura
Aprendizaje supervisado y aprendizaje no supervisado
Los modelos de aprendizaje automático se pueden dividir en dos grandes familias: aprendizaje supervisado y aprendizaje no supervisado. La principal diferencia entre estas dos familias se encuentra en los datos de entrenamiento. En el aprendizaje supervisado los resultados que se desean obtener del modelo son conocidos previamente. Siendo utilizados para guiar su entrenamiento. … [Leer más...] acerca de Aprendizaje supervisado y aprendizaje no supervisado
Publicación de nuevos conjuntos de datos de Microsoft Research
Microsoft Research acaba de publicar un nuevo conjunto de datos abiertos y los ha puesto a disposición para su descarga en Microsoft Research Open Data.Los conjuntos de datos de Microsoft Research se encuentran categorizados por área de investigación, entre las que se encuentran: física, ciencias sociales, ciencias ambientales y ciencias de la información. La mayoría de los … [Leer más...] acerca de Publicación de nuevos conjuntos de datos de Microsoft Research
Introducción a las pruebas unitarias en Python
Las pruebas unitarias son clave para poder garantizar la calidad del cualquier código. Al escribir pruebas unitarias se automatiza el control de calidad, al mismo tiempo que se crea una documentación viva de las funcionalidades y APIs implementadas. En esta entrada es realiza una introducción a la escritura de pruebas unitarias en Python utilizando la librería unittest.¿Por … [Leer más...] acerca de Introducción a las pruebas unitarias en Python
6 aplicaciones del CLV
En este blog se ha hablado en varias ocasiones del concepto de valor de ciclo de vida de cliente (CLV por siglas en inglés “Customer Lifetime Value”). Las entradas han sido principalmente técnicas, prestando menos atención a las aplicaciones del CLV. En concreto se puede encontrar una introducción técnica al concepto en la entrada "Valor de ciclo de vida de cliente". Por otro … [Leer más...] acerca de 6 aplicaciones del CLV
Agrupación de datos por fecha en pandas
A la hora de analizar conjuntos de datos es habitual encontrarse con series temporales. En estas ocasiones suele ser interesante poder obtener de una forma rápida información estadística de los registros, como puede el número de ocurrencias por mes. En Python se encuentran disponibles diferentes herramientas para poder realizar la agrupación por fecha en pandas. Conocer el … [Leer más...] acerca de Agrupación de datos por fecha en pandas
El problema de desequilibrio de clases en conjuntos de datos de entrenamiento
Al enfrentarse a la situación de crear un modelo de clasificación es habitual que las clases no se encuentran balanceadas. Esto es, el número de registros para una de las clases es inferior al resto. Cuando el desequilibrio es pequeño, uno a dos, esto no supone un problema, pero cuando es grande es un problema para la mayoría de los modelos de clasificación. Esta situación se … [Leer más...] acerca de El problema de desequilibrio de clases en conjuntos de datos de entrenamiento