Scikit-Learn

Cómo funciona k-means e implementación en Python

octubre 7, 2022 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 5 minutos

El algoritmo de k-means o k-medias es uno de los más utilizados dentro del análisis de clúster. Algo que se puede explicar porque este es un algoritmo sencillo, fácil de interpretar y generalmente ofrece buenos resultados en la mayoría de los conjuntos de datos. Por lo que suele estar implementado en la mayoría de las librerías estadísticas y de aprendizaje automático como … [Leer más...] acerca de Cómo funciona k-means e implementación en Python

Representar los criterios de selección en árboles de decisión

junio 3, 2022 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 3 minutos

La representación de árboles de decisión es un tema del que ya se ha publicado con antelación en el blog. En su momento de ha visto los pasos necesarios para generar representaciones gráficas y de texto con las librerías PyDotPlus y Scikit-Learn. Aunque también existen otras librerías como dtreeviz, la que veremos hoy. Una librería con la que es posible representar los … [Leer más...] acerca de Representar los criterios de selección en árboles de decisión

Importar automáticamente las dependencias en Python con una línea

abril 25, 2022 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 2 minutos

Python es uno de los mejores entornos de trabajo que existen actualmente para los científicos de datos. Existen múltiples librerías con las que realizar de una forma sencilla y eficiente una gran cantidad de tareas, como pueden ser NumPy, Pandas, Matplotlib, Seaborn o Scikit-Learn. Aunque la importación de todas las dependencias necesarias en un proyecto puede llegar a ser una … [Leer más...] acerca de Importar automáticamente las dependencias en Python con una línea

Solucionar el problema: Recall is ill-defined and being set to 0.0 in labels

abril 8, 2022 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 2 minutos

Al trabajar con modelos de clasificación multiclase es posible que al intentar medir la exhaustividad (recal) en Scikit-learn nos aparezca un mensaje de advertencia del estilo: Recall is ill-defined and being set to 0.0 in labels with no true samples. Este es un problema que aparece porque entre los valores predichos existe una clase que no se observa en el conjunto de valores … [Leer más...] acerca de Solucionar el problema: Recall is ill-defined and being set to 0.0 in labels

Seleccionar las mejores características para un modelo con Scikit-learn

abril 1, 2022 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 4 minutos

Cuando trabajamos con conjuntos de datos es habitual que no todas las características sean significativas, por lo que incluirlas puede ser más perjudicial que beneficioso para un modelo de aprendizaje automático. Por eso es importante seleccionar las mejores características. En Scikit-learn existen varias herramientas para ello, siendo una de las más sencillas de utilizar … [Leer más...] acerca de Seleccionar las mejores características para un modelo con Scikit-learn

Representar árboles de decisiones con Scikit-Learn

marzo 14, 2022 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 3 minutos

Los árboles de decisión son una familia de algoritmos de aprendizaje supervisados ampliamente utilizados debido a que, a pesar de su simplicidad, pueden realizan buenas predicciones en una amplia variedad de problemas. Además, la simplicidad de su planteamiento hace que sus resultados sean fácilmente interpretables. Permitiendo no solo obtener predicciones relevantes, sino … [Leer más...] acerca de Representar árboles de decisiones con Scikit-Learn

Guardar los modelos de Scikit-learn en disco e importarlo en otra sesión

noviembre 22, 2021 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 3 minutos

Una vez entrenado un modelo de aprendizaje automático con Scikit-learn puede surgir la necesidad de guardar este para usar en otra sesión. Posiblemente durante el proceso ha sido necesario cargar los datos, seleccionar las carteristas más relevantes, ajustar los hiperparámetros y comparar varios algoritmos de aprendizaje. Algo que no querremos repetir cada vez que necesitemos … [Leer más...] acerca de Guardar los modelos de Scikit-learn en disco e importarlo en otra sesión

Imputación de valores nulos en Python

marzo 22, 2021 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 4 minutos

Uno de los problemas más habituales con el que podemos encontrarnos a la hora de trabajar con un conjunto de datos es la existencia de registros con valores nulos. Pudiendo ser necesario imputar un valor a estos registros para poder usarlos en un posterior análisis. Por eso en Scikit-learn existen varias clases con las que se puede realizar la imputación de valores nulos en … [Leer más...] acerca de Imputación de valores nulos en Python

Solucionar la multicolinealidad con VIF

abril 22, 2020 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 4 minutos

La multicolinealidad es un problema que afecta negativamente a los modelos de regresión. Cuando existe una relación entre algunas de las variables independientes tanto el proceso de entrenamiento como la interpretación de los modelos se hace más complicado. Por un lado, en el entrenamiento existe más de un parámetro que mejorar las predicciones en el mismo sentido, ya que sus … [Leer más...] acerca de Solucionar la multicolinealidad con VIF

Entrenamiento, validación y test con Scikit-learn

abril 20, 2020 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 3 minutos

Entre las herramientas para la selección de modelos de Scikit-learn nos podemos encontrar con la función train_test_split. Una función que nos permite dividir un conjunto de datos en uno de entrenamiento y otro de test. En la bibliografía es habitual encontrar que se tiene que dividir los conjuntos de datos para el entrenamiento de los modelos en tres: entrenamiento, validación … [Leer más...] acerca de Entrenamiento, validación y test con Scikit-learn

Usar Python desde Matlab

noviembre 29, 2019 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 2 minutos

Una de las capacidades menos conocidas de Matlab es la posibilidad de ejecutar directamente código Python desde la consola o un script. Accediendo a ellas de una forma completamente transparente. Lo que permite ampliar rápidamente las capacidades de Matlab con todas las funciones o librerías que existen en Python. En esta entrada se va a mostrar cómo hacer para llamar funciones … [Leer más...] acerca de Usar Python desde Matlab

CatBoost

octubre 28, 2019 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 4 minutos

CatBoost es un algoritmo de aprendizaje automático basado en potenciación del gradiente (“Gradient boosting”) desarrollado por los investigadores de Yandex que es adecuado en múltiples aplicaciones. Actualmente se pueden encontrar paquetes para Python y R, siendo posible integrarlo fácilmente en los frameworks más populares de aprendizaje automático como … [Leer más...] acerca de CatBoost