Entre las herramientas para la selección de modelos de Scikit-learn nos podemos encontrar con la función train_test_split. Una función que nos permite dividir un conjunto de datos en uno de entrenamiento y otro de test. En la bibliografía es habitual encontrar que se tiene que dividir los conjuntos de datos para el entrenamiento de los modelos en tres: entrenamiento, validación … [Leer más...] acerca de Entrenamiento, validación y test con Scikit-learn
Formatos condicionales en Pandas
Una característica bastante desconocida de Pandas es la posibilidad de cambiar el formato de los DataFrame. Incluso de forma condicional. Lo que se puede hacer utilizando los diferentes métodos que se encuentran dentro de la propiedad style de los DataFrame. Siendo esta una opción que resulta interesante a la hora de la creación de informes ya hace innecesario salir de Python … [Leer más...] acerca de Formatos condicionales en Pandas
Multicolinealidad
La multicolinealidad es un problema que puede afectar negativamente al rendimiento de los modelos de regresión. Afectando tanto a modelos de regresión lineal como logísticos. El problema aparece cuando existe relación entre las variables independientes empleadas en los modelos. Siendo esta correlación un problema porque las variables independientes deberían de ser … [Leer más...] acerca de Multicolinealidad
Elementos aleatorios con y sin repetición en Python
La selección de elementos aleatorios a partir de una lista es una tare clave para múltiples situaciones. Siendo una de las primeras fases en algunos de los análisis de datos más habituales. Por eso en la librería estándar de Python existen funciones con las que se puede obtener elementos aleatorios con y sin repetición. Existiendo incluso para barajar las listas. Funciones que … [Leer más...] acerca de Elementos aleatorios con y sin repetición en Python
Tres métodos de Pandas que posiblemente no conocías
Pandas es una de librería de Python que más usamos en el día a día, siendo una herramienta clave en la mayoría de los proyectos de aprendizaje automático y ciencia de datos. Aún así, con un uso tan intensivo, no solemos conocer todas los métodos y funciones que esta librería nos ofrece. Hoy vamos a repasar tres métodos de Pandas poco conocidos que son muy interesantes: … [Leer más...] acerca de Tres métodos de Pandas que posiblemente no conocías
Tablas dinámicas en Matlab
Las tablas dinámicas son una herramienta de las hojas de cálculo muy populares, con las que se puede resumir los conjuntos de datos de una forma rápida. Una funcionalidad que se puede replicar fácilmente en Python como R, pero hasta hace poco no en Matlab. En a versión 2018a de Matlab se introdujo la función groupsummary con la que es posible obtener fácilmente resúmenes de … [Leer más...] acerca de Tablas dinámicas en Matlab
300 publicaciones en Analytics Lane
Recientemente hemos alcanzado un nuevo hito en Analytics Lane al alcanzar la publicación número 300. Lo que se ha conseguido en menos de 2 años. Esperemos que esto no sea más que el principio de un proyecto que en este tiempo se ha consolidado como un lugar donde se publica regularmente recursos sobre ciencia de datos, lenguajes de programación, herramientas y sus aplicaciones … [Leer más...] acerca de 300 publicaciones en Analytics Lane
Distribución de paquetes de Python (Creación de paquetes de Python 7ª y última parte)
En las entradas anteriores de esta serie hemos visto cómo crear un paquete Python a partir de las plantillas que ofrece Cookiecutter. Una vez hecho esto creamos pruebas, gestionamos las dependencias y documentamos el paquete. Al terminar es necesarios distribuirlo. Quizás el método más conocido para la distribución de paquetes de Python es mediante PyPi, aunque no es el único. … [Leer más...] acerca de Distribución de paquetes de Python (Creación de paquetes de Python 7ª y última parte)
Buscar diferencias en archivos de Excel
Uno de los problemas más habituales dentro de lo equipos que trabajan con archivos Excel es poder identificar los cambios que se han producido entre dos versiones de un documento. Una opción que no ofrece de forma nativa Microsoft Excel. Por lo que es necesario utilizar herramientas de terceros. Por lo que en esta entrada vamos a analizar dos complementos de Excel para buscar … [Leer más...] acerca de Buscar diferencias en archivos de Excel
Medir la similitud de archivos con Python
Una de las grandes ventajas de los sistemas informáticos es la facilidad con la que se puede copiar y modificar los archivos. Cuando tenemos que repetir un análisis que ya hemos realizado previamente, sea este en una hoja de cálculo, un Jupyter Notebook o con cualquier otra herramienta, podemos partir de este y modificar adecuadamente los datos. Esto que nos no reinventar los … [Leer más...] acerca de Medir la similitud de archivos con Python
Documentar paquetes de Python (Creación de paquetes de Python 6ª parte)
Una vez creadas las funciones y las clases de nuestro paquete es necesario escribir la documentación para que otros usuarios puedan saber cómo usarlas. Documentación que debe ofrecer información concisa sobre el funcionamiento de los componentes. En esta sexta entrada de la serie “Creación de un paquete de Python” vamos a ver cómo documentar paquetes de Python, escribiendo la … [Leer más...] acerca de Documentar paquetes de Python (Creación de paquetes de Python 6ª parte)
Truco Jupyter: Ignorar errores en las celdas de Jupyter Notebook
En un notebook de Jupyter cuando se están ejecutando las celdas en modo y una de estas contiene un error el proceso de ejecución se para. Ignorando el resto de las celdas a partir de aquella en la que produjo el error. Generalmente este es el comportamiento que esperaríamos. Si una celda tiene un error, posiblemente el resto tampoco puedan funcionar. Pero qué pasaría si … [Leer más...] acerca de Truco Jupyter: Ignorar errores en las celdas de Jupyter Notebook