La multicolinealidad es un problema que afecta negativamente a los modelos de regresión. Cuando existe una relación entre algunas de las variables independientes tanto el proceso de entrenamiento como la interpretación de los modelos se hace más complicado. Por un lado, en el entrenamiento existe más de un parámetro que mejorar las predicciones en el mismo sentido, ya que sus … [Leer más...] acerca de Solucionar la multicolinealidad con VIF
Machine learning
Machine Learning (Aprendizaje Automático o Aprendizaje Máquina) es la rama de la inteligencia artificial que estudia cómo construir sistemas que puedan aprender automáticamente de la experiencia. Esto es, sistemas que puedan realizar mejores predicciones o tomar mejores decisiones a medida que aumenta su experiencia.
Los algoritmos de Machine Learning se dividen en tres categorías en función de los datos utilizados: aprendizaje supervisado, aprendizaje no supervisado y aprendizaje por refuerzo. En aprendizaje supervisado se utilizan conjuntos de datos, durante el proceso de entrenamiento, en los que se conoce el valor que debe reproducir el modelo. Pudiéndose medir el desempeño de los modelos en base a lo bien que reproduce posteriormente estos valores en otros conjuntos de datos. Tal como se puede intuir del nombre, en el caso de aprendizaje no supervisado, no se busca que los modelos reproducen un valor concreto. Siendo el objetivo de estos modelos identificar patrones que permitan separar y clasificar los datos en diferentes grupos. Por otro lado, en aprendizaje por refuerzo se busca la creación de agentes que pueden realizar acciones sobre un entorno. Siendo este un aprendizaje completamente diferente a los dos anteriores.
Entrenamiento, validación y test con Scikit-learn
Entre las herramientas para la selección de modelos de Scikit-learn nos podemos encontrar con la función train_test_split. Una función que nos permite dividir un conjunto de datos en uno de entrenamiento y otro de test. En la bibliografía es habitual encontrar que se tiene que dividir los conjuntos de datos para el entrenamiento de los modelos en tres: entrenamiento, validación … [Leer más...] acerca de Entrenamiento, validación y test con Scikit-learn
Multicolinealidad
La multicolinealidad es un problema que puede afectar negativamente al rendimiento de los modelos de regresión. Afectando tanto a modelos de regresión lineal como logísticos. El problema aparece cuando existe relación entre las variables independientes empleadas en los modelos. Siendo esta correlación un problema porque las variables independientes deberían de ser … [Leer más...] acerca de Multicolinealidad
¿Cuál es la diferencia entre parámetro e hiperparámetro?
En aprendizaje automático hay dos conceptos que parecen similares, aunque son completamente diferentes: parámetro e hiperparámetro. Ambos con unos conjuntos de valores que se tienen que afinar a la hora de crear un modelo para un problema dado. Tanto si este es de aprendizaje supervisado como no supervisado. A continuación, se explicará las diferencias entre los parámetros e … [Leer más...] acerca de ¿Cuál es la diferencia entre parámetro e hiperparámetro?
CatBoost
CatBoost es un algoritmo de aprendizaje automático basado en potenciación del gradiente (“Gradient boosting”) desarrollado por los investigadores de Yandex que es adecuado en múltiples aplicaciones. Actualmente se pueden encontrar paquetes para Python y R, siendo posible integrarlo fácilmente en los frameworks más populares de aprendizaje automático como … [Leer más...] acerca de CatBoost
Aprendizaje ensemble por votación mayoritaria
A la hora de crear un modelo de aprendizaje automático para clasificar las clases en una tarea dada existen múltiples familias de algoritmo. Se puede utilizar una regresión logística, unos árboles de decisión, unas máquinas de vectores de soporte (SVM), unos k-vecinos o redes neuronales. Pero no siempre se obtiene los resultados deseosos. En estas situaciones una solución puede … [Leer más...] acerca de Aprendizaje ensemble por votación mayoritaria
Los conceptos de sesgo y varianza en aprendizaje automáticos
El sesgo y varianza son dos conceptos importantes a la hora de medir el error en los modelos de aprendizaje automático. Por eso es necesario comprender su significado para evaluar correctamente lo que nos dicen.Sesgo y varianza en estadísticaLa estadística es un área en la que se intenta extraer conclusiones de las poblaciones utilizando únicamente los datos de una … [Leer más...] acerca de Los conceptos de sesgo y varianza en aprendizaje automáticos
Random Forest
El algoritmo de Random Forest (también conocido como Bosques Aleatorios) es ampliamente utilizado para la creación de modelos supervisados. Basado en una idea simple: combinar diferentes árboles de decisión. Permite obtener modelos con menor propensión al sobreajuste que un árbol de decisión.El fundamento de Random ForestRandom Forest es básicamente un algoritmo de … [Leer más...] acerca de Random Forest
¿Qué es el sesgo en aprendizaje automático?
En los procesos de toma de decisiones el término sesgo tiene generalmente connotaciones negativas. No es deseable que un proceso automático lo tenga de ningún tipo. La palabra sesgo procede de sesgar, un verbo que hace referencia a torcer o atravesar algo hacia uno de sus lados. Por lo que una decisión sesgada, que se tuerce en algún sentido, no es deseable. Los modelos de … [Leer más...] acerca de ¿Qué es el sesgo en aprendizaje automático?
Seleccionar automáticamente los modelos en Python con GridSearchCV
Las clases GridSearchCV y RandomizedSearchCV de Scikit-learn pueden ser utilizadas para automatizar la selección de los parámetros de un modelo. Aplicando para ello la técnica de validación cruzada. Partiendo de un modelo y un conjunto de sus parámetros prueba múltiples combinaciones para identificar aquella que ofrece mayor rendimiento. Proceso que se ha visto en una entrada … [Leer más...] acerca de Seleccionar automáticamente los modelos en Python con GridSearchCV
Comparación entre la regresión logística y SVM (máquinas de vectores de soporte)
Unos de los problemas más habituales en aprendizaje automático son los problemas de clasificación. El objetivo en este tipo de problemas es asignar la clase correcta a cada uno de los registros de un conjunto de datos. Un caso particular de estos es la clasificación binaria, en el que solamente existen dos clases que suelen etiquetadas como verdadero y falso. Los algoritmos de … [Leer más...] acerca de Comparación entre la regresión logística y SVM (máquinas de vectores de soporte)
Regresión lineal en JavaScript con ml.js
JavaScript es uno de los lenguajes más populares actualmente. Esto se puede observar en el ranking de la encuesta anual que realiza a los desarrolladores Stack Overflow. En 2018, por sexto año consecutivo, JavaScript se ha situado como el lenguaje más popular. Dada su popularidad no es de extrañar que existan múltiples librerías para el desarrollo de modelos de aprendizaje … [Leer más...] acerca de Regresión lineal en JavaScript con ml.js











