Hace un tiempo publiqué una entrada en la que comparaba las ventajas de usar el formato de archivo Apache Arrow frente al tradicional CSV. Suponiendo grandes ahorros tanto en el tamaño de los archivos como el tiempo de carga. Usando para ello la librería PyArrow. Es posible que por temas de compatibilidad entre sistemas en algunas situaciones no podamos usar Apache Arrow, … [Leer más...] acerca de Almacenar archivos CSV 10 veces más rápido en Python con PyArrow
La teoría de las ventanas rotas
Cuando en una zona se pueden observar signos visibles de delincuencia o comportamiento antisocial se fomenta en la misma la aparición de este tipo de conducta. Esta idea es lo que se conoce en el campo de la criminológica cómo *La teoría de las ventanas rotas. Una teoría que procede de la observación de que cuando en un edificio se pueden apreciar la existencia de ventanas … [Leer más...] acerca de La teoría de las ventanas rotas
Comprobar si un valor es entero en Matlab
En muchas ocasiones puede ser necesario saber si el valor que contiene una variable es entero o no. Para lo que no existe una función en Matlab y es necesario usar algunos trucos. Veamos como se puede comprobar si un valor es entero en Matlab.La función isinteger()Al buscar en las funciones que existen en Matlab se podría pensar que para saber si un valor es entero o no … [Leer más...] acerca de Comprobar si un valor es entero en Matlab
Medir el tiempo de ejecución en Python con pyinstrument
A la hora de optimizar un programa para que se ejecute de forma más rápida una información clave es cuáles son las funciones que más tiempo de procesado consumen. Para centrarnos en mejorar el rendimiento de estas. Por mucho que se mejore el rendimiento de una función que suponga una parte ínfima de la ejecución total, el efecto que se observará en el programa será casi nulo. … [Leer más...] acerca de Medir el tiempo de ejecución en Python con pyinstrument
Escalabilidad para Machine Learning
El concepto de escalabilidad es algo cada día más importante a la hora de desarrollar nuevas soluciones tecnológicas, incluidas en las que se implementan modelos de Aprendizaje Automático o Machine Learning. De poco sirve disponer del mejor modelo si cuando es necesario no es posible escalar para responder a toda la demanda. Esto es, si no se puede resolver en plazo todas las … [Leer más...] acerca de Escalabilidad para Machine Learning
Otener la cotización del Bitcoin con R
Para consultar la cotización del Bitcoin, o de cualquier otra criptomoneda, se puede usar una de las múltiples API que existen en la actualidad. La plataforma de intercambio de criptomonedas Bitmex ofrece posiblemente una de las API más sencillas de utilizar. Además de no ser necesario disponer de una clave privada para poder consultar las cotizaciones como puede suceder en … [Leer más...] acerca de Otener la cotización del Bitcoin con R
Pandas: estadísticas de subconjuntos de datos en DataFrame
A partir de un conjunto de datos en memoria puede ser interesante obtener estadísticas de subconjuntos de datos. Información que puede ser de gran utilidad para detectar patrones. Por ejemplo, si tenemos los registros de ventas con el día de la semana puede ser interesante obtener los valores medios y totales en función del día. En Python esto se puede hacer gracias al método … [Leer más...] acerca de Pandas: estadísticas de subconjuntos de datos en DataFrame
Los tipos de aprendizaje por conjuntos (Ensemble Learning)
Al evaluar y comparar el rendimiento de diferentes modelos de aprendizaje automático es habitual observar que las mejores predicciones no siempre proceden del mismo modelo. En un subconjunto de datos los mejores resultados los ofrece la regresión lineal, pero en otro funcionan mejor los árboles de decisión. Lo que indica que el mejor modelo sería una combinación de los mejores. … [Leer más...] acerca de Los tipos de aprendizaje por conjuntos (Ensemble Learning)
Eliminar filas en DataFrame Julia en base a sus valores
Una de las tareas más repetidas cuando se procesa un conjunto de datos es el filtrado de registros en base a sus valores. Eliminando aquellos que no son de interés para el análisis que se desea realizar. Por eso, en Julia existe la función filter() con la que es posible filtrar fácilmente los registros de un conjunto de datos. Veamos cómo se puede emplear esta función para … [Leer más...] acerca de Eliminar filas en DataFrame Julia en base a sus valores
Combinar dos columnas de texto en Pandas
Al trabajar con conjuntos de datos en los que algunas características son cadenas de texto es habitual encontrarse con registros que no están en el formato deseado. Tanto valores que estas juntos como separados. Para solucionar el primer problema es necesario separar el texto de una característica en varias, lo que se explicó en una entrada anterior. Por otro lado, la solución … [Leer más...] acerca de Combinar dos columnas de texto en Pandas
Integración continua para la ciencia de datos
En los grandes proyectos de ciencia de datos aparecen problemas similares a los de los grandes desarrollos de software. Uno de ellos es la necesidad de integrar en una única solución el trabajo de todos los miembros del equipo. Para ello una de las técnicas más empleadas en desarrollo de software es la integración y la entrega continuas (CI/CD). Veamos a continuación algunas de … [Leer más...] acerca de Integración continua para la ciencia de datos
Detección de anomalías en series temporales
La detección de anomalías es un campo del aprendizaje automático con múltiples aplicaciones prácticas. Poder identificar automáticamente los datos que son atípicos para una variable permite lanzar alarmas para comprobar la existencia temprana de algún problema. Pudiendo actuar en consecuencia y minimizar las posibles consecuencias. Recientemente he descubierto un paquete de R, … [Leer más...] acerca de Detección de anomalías en series temporales










