Entre las herramientas para la selección de modelos de Scikit-learn nos podemos encontrar con la función train_test_split. Una función que nos permite dividir un conjunto de datos en uno de entrenamiento y otro de test. En la bibliografía es habitual encontrar que se tiene que dividir los conjuntos de datos para el entrenamiento de los modelos en tres: entrenamiento, validación … [Leer más...] acerca de Entrenamiento, validación y test con Scikit-learn
Ciencia de datos
La ciencia de datos es un área de conocimiento interdisciplinar en el cual se utilizan procesos para recopilar, preparar, analizar, visualizar y modelar datos para extraer todo su valor. Pudiéndose emplear tanto con conjuntos de datos estructurados como no estructurados. Los científicos de datos, los profesionales de esta área deben poseer grandes conocimientos de estadística e informática. Además de conocimiento de los procesos que están modelando.
Con la ciencia de datos es posible revelar tendencias y obtener información para que tanto las empresas como las instituciones puedan tomar mejores decisiones. Basando estas así en conocimiento validado no en intuiciones.
Las publicaciones de esta sección abarca diferentes temas de áreas como la estadística, la minería de datos, el aprendizaje automático y la analítica predictiva.
Multicolinealidad
La multicolinealidad es un problema que puede afectar negativamente al rendimiento de los modelos de regresión. Afectando tanto a modelos de regresión lineal como logísticos. El problema aparece cuando existe relación entre las variables independientes empleadas en los modelos. Siendo esta correlación un problema porque las variables independientes deberían de ser … [Leer más...] acerca de Multicolinealidad
Medir la similitud de archivos con Python
Una de las grandes ventajas de los sistemas informáticos es la facilidad con la que se puede copiar y modificar los archivos. Cuando tenemos que repetir un análisis que ya hemos realizado previamente, sea este en una hoja de cálculo, un Jupyter Notebook o con cualquier otra herramienta, podemos partir de este y modificar adecuadamente los datos. Esto que nos no reinventar los … [Leer más...] acerca de Medir la similitud de archivos con Python
SequenceMatcher
Comparar dos documentos es una tarea relativamente compleja, especialmente si buscamos coincidencias parciales entre los mismos. Para esta tarea en el módulo difflib de Python podemos encontrar la clase SequenceMatcher con la que realizar esta tarea. Una clase con la que localizar las coincidencias existentes en las subsecuencia, al mismo tiempo que se puede obtener un grado de … [Leer más...] acerca de SequenceMatcher
¿Cuál es la diferencia entre parámetro e hiperparámetro?
En aprendizaje automático hay dos conceptos que parecen similares, aunque son completamente diferentes: parámetro e hiperparámetro. Ambos con unos conjuntos de valores que se tienen que afinar a la hora de crear un modelo para un problema dado. Tanto si este es de aprendizaje supervisado como no supervisado. A continuación, se explicará las diferencias entre los parámetros e … [Leer más...] acerca de ¿Cuál es la diferencia entre parámetro e hiperparámetro?
Test de causalidad de Wiener-Granger
El test de causalidad de Wiener-Granger, o causalidad de Granger, es una prueba estadística empleada para determinar si una serie temporal puede predecir a otra. Para ello se basa en la idea de que si una serie temporal X causa otra Y, los modelos de Y en los que se emplean datos retrasados de X e Y deben funcionar mejor los basados únicamente en datos retrasados de Y. … [Leer más...] acerca de Test de causalidad de Wiener-Granger
CatBoost
CatBoost es un algoritmo de aprendizaje automático basado en potenciación del gradiente (“Gradient boosting”) desarrollado por los investigadores de Yandex que es adecuado en múltiples aplicaciones. Actualmente se pueden encontrar paquetes para Python y R, siendo posible integrarlo fácilmente en los frameworks más populares de aprendizaje automático como … [Leer más...] acerca de CatBoost
Matrices dispersas (“Sparse Matrix”)
En función de la densidad de ceros en una matriz estas se pueden clasificar como dispersas (“sparse”), en las que valores igual a cero son dominantes, o densas (“dense”), en las que hay pocos registros iguales a cero. En aprendizaje automático es habitual encontrar matrices dispersas. Por ejemplo, en características que representan propiedades binarias o recuentos de … [Leer más...] acerca de Matrices dispersas (“Sparse Matrix”)
Ley potencial y visitas Analytics Lane
La ley potencial es una relación entre magnitudes que se puede observar en diferentes fenómenos de carácter físico, biológico o debidos a la actividad humana. Los cuales se caracterizan por tener distribuciones sesgadas de los valores en los que un pequeño número de registros tienen valores más elevados. Además de tener invariancia de escala. Algunos fenómenos que siguen esta … [Leer más...] acerca de Ley potencial y visitas Analytics Lane
Aprendizaje ensemble por votación mayoritaria
A la hora de crear un modelo de aprendizaje automático para clasificar las clases en una tarea dada existen múltiples familias de algoritmo. Se puede utilizar una regresión logística, unos árboles de decisión, unas máquinas de vectores de soporte (SVM), unos k-vecinos o redes neuronales. Pero no siempre se obtiene los resultados deseosos. En estas situaciones una solución puede … [Leer más...] acerca de Aprendizaje ensemble por votación mayoritaria
Los conceptos de sesgo y varianza en aprendizaje automáticos
El sesgo y varianza son dos conceptos importantes a la hora de medir el error en los modelos de aprendizaje automático. Por eso es necesario comprender su significado para evaluar correctamente lo que nos dicen.Sesgo y varianza en estadísticaLa estadística es un área en la que se intenta extraer conclusiones de las poblaciones utilizando únicamente los datos de una … [Leer más...] acerca de Los conceptos de sesgo y varianza en aprendizaje automáticos
Random Forest
El algoritmo de Random Forest (también conocido como Bosques Aleatorios) es ampliamente utilizado para la creación de modelos supervisados. Basado en una idea simple: combinar diferentes árboles de decisión. Permite obtener modelos con menor propensión al sobreajuste que un árbol de decisión.El fundamento de Random ForestRandom Forest es básicamente un algoritmo de … [Leer más...] acerca de Random Forest