La detección de anomalías es un campo del aprendizaje automático con múltiples aplicaciones prácticas. Poder identificar automáticamente los datos que son atípicos para una variable permite lanzar alarmas para comprobar la existencia temprana de algún problema. Pudiendo actuar en consecuencia y minimizar las posibles consecuencias. Recientemente he descubierto un paquete de R, … [Leer más...] acerca de Detección de anomalías en series temporales
El nuevo switch en Python 3.10
Posiblemente una de las novedades más interesantes que ha traído la versión 3.10 de Python es la incorporación de un nuevo mecanismo de control de flujo Match-Case. Mecanismos que es habitual en otros lenguajes de alto nivel y que en la mayoría de los casos se conoce como switch-case. Un mecanismo que, a diferencia de Python, ya se encontraba implementado hace tiempo en otros … [Leer más...] acerca de El nuevo switch en Python 3.10
Diferencias entre Hard y Soft Clustering
El análisis de clustering o análisis de grupo es una de las técnicas más populares dentro del aprendizaje no supervisado. Cuando se dispone de un conjunto de datos sin etiquetar, esto es no se tiene un valor o etiqueta asociado a cada registro, se puede utilizar el análisis de clustering para agrupar los elementos que son similares entres sí y separa aquellos que son … [Leer más...] acerca de Diferencias entre Hard y Soft Clustering
Usar entornos de Python en VS Code
Al trabajar en diferentes proyectos con Python es habitual encontrarse con el problema de que tanto código como paquetes presentan problemas de compatibilidad con ciertas versiones del intérprete. Por lo que es necesario ejecutar cada proyecto en una versión del intérprete de Python diferente. Lo que se puede conseguir usando varios ordenadores, instalando en cada uno una … [Leer más...] acerca de Usar entornos de Python en VS Code
Balance de 2021 en Analytics Lane
Como ya es tradicional, en esta, la primera publicación del año, realizaré un balance de las publicaciones más visitadas durante el año pasado, así como las procedencia de las visitas por país. Un análisis que es de interés para conocer mejor a la audiencia del blog. Siendo el año 2021 excelente para Analytics Lane, en el que el número de visitas ha aumentado más de un 35% … [Leer más...] acerca de Balance de 2021 en Analytics Lane
Feliz Navidad y próspero año 2022
Como todos los años, quería dedicar esta entrada para desearos Feliz Navidad y próspero año 2022 a todos los lectores de Analytics Lane. Un año en el que he apurado la felicitación hasta el último día.Al igual que en el año anterior, durante estas fiestas no se van a publicar nuevas entradas en el blog. Retomando la rutina de publicaciones el lunes 10 de enero del 2022 con … [Leer más...] acerca de Feliz Navidad y próspero año 2022
Diferencias entre Apache Arrow y Parquet
Apache Arrow y Parquet son dos formatos modernos para con los que es posible conseguir archivos más pequeños que CSV, además de unos menores tiempos de lectura y escritura. Veamos a continuación las diferencias que existen entre Apache Arrow y Parquet.Apache ArrowApache Arrow es una biblioteca, disponible para múltiples lenguajes de programación, que proporciona … [Leer más...] acerca de Diferencias entre Apache Arrow y Parquet
El gordo del sorteo de Navidad no ha sido el 72850
El pasado sábado publiqué una entrada, básicamente en tono de humor, en el que intentaba predecir mediante el uso de series temporales el resultado del Sorteo Extraordinario de Navidad de la Lotería Nacional. Un sorteo de lotería muy popular en España que para muchos supone el comienzo de las fiestas navideñas. La idea de usar una serie temporal para predecir no tenía sentido, … [Leer más...] acerca de El gordo del sorteo de Navidad no ha sido el 72850
Archivos Parquet en Julia
En una publicación reciente se ha visto las ventajas que ofrece el uso de archivos Parquet frente a CSV o Feather en Pandas. Consiguiendo guardar un conjunto de datos aleatorios en un archivo un 10% más pequeño que CSV con compresión hasta 100 veces más rápido. Algo que, en algunos puntos, mejora el rendimiento de Feather. Veamos como se puede trabajar con archivos Parquet en … [Leer más...] acerca de Archivos Parquet en Julia
Uso de Parquet para guardar los conjuntos de datos de forma eficiente en Pandas
Los formatos de archivo para el intercambio de datos más populares actualmente son CSV y Microsoft Excel. Resultando ambos poco eficientes a la hora trabajar con grandes conjuntos de datos. CSV es un formato basado en archivos de texto plano, lo que permite su edición con cualquier editor de texto, sin la necesidad de emplear un programa específico. Aunque esto también se … [Leer más...] acerca de Uso de Parquet para guardar los conjuntos de datos de forma eficiente en Pandas
Predecir el premio en la Lotería de Navidad con series temporales
El Sorteo Extraordinario de Navidad de la Lotería Nacional es una tradición que se celebra en España desde hace más de dos siglos. Un sorteo que se celebra todos los años el 22 de diciembre y, para mucha gente, representa el comienzo de las celebraciones de Navidad. Al acercarse las fechas de Navidad, un amigo me preguntó si sería posible predecir el premio en la Lotería de … [Leer más...] acerca de Predecir el premio en la Lotería de Navidad con series temporales
Regresión de Vectores de Soporte (SVR, Support Vector Regression)
La Regresión de Vectores de Soporte (SVR, del inglés Support Vector Regression) es un algoritmo de regresión basado en los mismos algoritmos que usan las Máquinas de Vectores de Soporte (SVM, del inglés Support Vector Machines) para la creación de modelos de clasificación. Aunque existen algunas diferencias debido a que la salida de una regresión es un valor real y no una … [Leer más...] acerca de Regresión de Vectores de Soporte (SVR, Support Vector Regression)