A la hora de analizar conjuntos de datos es habitual encontrarse con series temporales. En estas ocasiones suele ser interesante poder obtener de una forma rápida información estadística de los registros, como puede el número de ocurrencias por mes. En Python se encuentran disponibles diferentes herramientas para poder realizar la agrupación por fecha en pandas. Conocer el … [Leer más...] acerca deAgrupación de datos por fecha en pandas
El problema de desequilibrio de clases en conjuntos de datos de entrenamiento
Al enfrentarse a la situación de crear un modelo de clasificación es habitual que las clases no se encuentran balanceadas. Esto es, el número de registros para una de las clases es inferior al resto. Cuando el desequilibrio es pequeño, uno a dos, esto no supone un problema, pero cuando es grande es un problema para la mayoría de los modelos de clasificación. Esta situación se … [Leer más...] acerca deEl problema de desequilibrio de clases en conjuntos de datos de entrenamiento
GridSearchCV
GridSearchCV es una clase disponible en scikit-learn que permite evaluar y seleccionar de forma sistemática los parámetros de un modelo. Indicándole un modelo y los parámetros a probar, puede evaluar el rendimiento del primero en función de los segundos mediante validación cruzada. En caso de que se desee evaluar modelos con parámetros aleatorios existe el método … [Leer más...] acerca deGridSearchCV
Python 3.7
Después de casi un año de desarrollo el pasado 27 de junio ha sido lanzado oficialmente Python 3.7. Esta versión de Python ha estado en desarrollo desde septiembre de 2016.Python 3.7, además de incluir importantes novedades que permite simplificar ciertas tareas, es más rápido que la versión anterior. Entre las principales novedades que incluye esta versión se puede … [Leer más...] acerca dePython 3.7
Eliminar filas o columnas con valores nulos en Python
La existencia de valores nulos en cualquier conjunto de datos supone un problema a la hora de realizar cualquier análisis. Saber cómo eliminar estos valores de manera fácil es clave de cara a automatizar los procesos de análisis. En esta entrada se va a explicar la forma de eliminar las filas o columnas que contenga valores nulos en Python. En primer lugar, se explicará la … [Leer más...] acerca deEliminar filas o columnas con valores nulos en Python
Procesado de cadenas de texto en Python
Los usuarios que llegan a Python desde otros lenguajes de programación a veces encuentran problemático que no existan funciones para la obtención de subcadenas de texto. Debido a que este tipo de análisis se han de realizar con cierta frecuencia. Por ejemplo, en R se dispone de la función substring con la que se puede obtener fácilmente subcadenas de texto o reemplazar estas … [Leer más...] acerca deProcesado de cadenas de texto en Python
Optimizar el precio para maximizar los beneficios
El proceso de fijación de precios es clave para el éxito de cualquier producto. Un precio alto se traduce en un gran beneficio por unidad vendida, pero el volumen de ventas se resentirá. Por otro lado, un precio bajo se suele traducir en un gran volumen de ventas, pero con poco margen. Así, para poder optimizar el precio que permita maximizar el beneficio de un product se ha de … [Leer más...] acerca deOptimizar el precio para maximizar los beneficios
Propiedades de las funciones de hash criptográficas
Las funciones de hash criptográficas son una clase especial de funciones de hash. Las cuales poseen ciertas propiedades que las hacen adecuadas para su uso en criptografía. Como se ha visto en otra entrada, las funciones de hash son algoritmos matemáticos que mapea datos de tamaño arbitrario a una cadena de tamaño fijo. Además, están diseñados para ser una función … [Leer más...] acerca dePropiedades de las funciones de hash criptográficas
Eliminar registros duplicados en pandas
Un problema habitual en los conjuntos de datos es la existencia de registros duplicados. La duplicidad puede ser del registro completo o solamente de unos elementos. Por ejemplo, se ha registrado dos veces la misma operación con diferente identificador. Saber cómo eliminar estos registros duplicados es imprescindible para evitar posibles errores en los análisis posteriores. En … [Leer más...] acerca deEliminar registros duplicados en pandas
Implementación de una criptomoneda
En las seis entradas anteriores de esta serie se ha realizado la implementación de una criptomoneda. Para realizar esto se ha escrito en Python el código de una cadena de bloques. Sobre este se han implementados el sistema de transacciones que da lugar a la criptomoneda. Todo el código utilizado durante la serie se encuentra disponible en el repositorio … [Leer más...] acerca deImplementación de una criptomoneda
Guardar y leer archivos CSV con Python
Uno de los formatos más utilizados en la actualidad para intercambio de datos es CSV ("Comma Separated Values"). Estas son básicamente archivos de texto en los que cada línea contiene una fila de datos con múltiples registros delimitados por un separador. Tradicionalmente el separador suele ser la coma, de ahí el nombre del formato. Aunque también se pueden utilizan otros … [Leer más...] acerca deGuardar y leer archivos CSV con Python
Modelos BG/NBD para CLV
Uno de los conceptos clave en marketing para medir el valor del un cliente es el CLV. En entradas anteriores se ha visto la importancia del valor de vida de cliente y un modelo para obtener la tasa de retención. En los negocios en los que no existe una relación contractual, como puede ser una tienda on-line, identificar la probabilidad de que un cliente siga activo es … [Leer más...] acerca deModelos BG/NBD para CLV
Wallet: creación de una criptomoneda (6ª Parte)
En las entradas anteriores se ha construido una cadena de bloques y sobre este una criptomoneda moneda. Para implementar la criptomoneda ha sido necesario definir unas transacciones y un proceso de validación para las mismas. Este proceso es demasiado complejo para que un usuario lo pueda realizar correctamente de forma manual. Para solucionar este problema se suelen crear las … [Leer más...] acerca deWallet: creación de una criptomoneda (6ª Parte)
Microsoft R Open 3.5.0 disponible para su descarga
Microsoft ha anunciado la disponibilidad para descarga de la última versión de Microsoft R Open 3.5.0 para Windows, Mac y Linux. Esta actualización se basa en el motor de código abierto R 3.5.0, que es una importante actualización de R con muchas nuevas capacidades y mejoras. En particular, incluye un nuevo framework para el manejo de datos en R, con importantes mejoras del … [Leer más...] acerca deMicrosoft R Open 3.5.0 disponible para su descarga