Seguimos con nuestra serie en la que explicamos cómo crear un paquete R en la que se realizará una introducción a las pruebas automáticas. Incluir pruebas automáticas en nuestro código es clave para poder mantener a medida que crece. Las pruebas no solo permiten garantizar que el código funciona correctamente hoy en día, sino que permite garantizar que continuará funcionando … [Leer más...] acerca de Pruebas automáticas en R con testthat (Creación de paquetes en R 3ª parte)
Prueba de independencia de Chi-cuadrado
En unas entradas anteriores hemos visto los efectos de la multicolinealidad en las variables cuantitativas y como identificar la relación mediante el uso de VIF. Para las variables categóricas también existen pruebas para comprobar si existe relación entre dos, es decir, si los valores de una variable cualitativa dependen de otra. Uno de la prueba más populares es la prueba de … [Leer más...] acerca de Prueba de independencia de Chi-cuadrado
Creación de gráficos animados con Python
Una de las herramientas más eficaces para la presentación de los resultados son los gráficos. Eficacia que se puede aumentar al animarlos. La creación de gráficos animados en Python es una tarea realmente sencilla gracias a MoviePy. Un módulo para la edición de video que se puede usar tanto para operaciones básicas, como para el procesamiento y la creación de efectos avanzados … [Leer más...] acerca de Creación de gráficos animados con Python
Segundo aniversario de Analytics Lane
Hoy se cumple el segundo aniversario de Analytics Lane. Un día como hoy de 2018 se publicó una entrada de presentación y la primera entrada del blog en la que explicamos cómo importar los conjuntos de datos desde archivos CSV comprimidos en R. Dos años más tarde este proyecto ha madurado y parece que va encontrando su camino. Un camino que no sería nada sin vosotros, por lo que … [Leer más...] acerca de Segundo aniversario de Analytics Lane
El archivo DESCRIPTION (Creación de paquetes en R 2ª parte)
En la entrada de la semana pasada hemos creado la estructura de un paquete R con la ayuda de RStudio y el paquete devtools. En la entrada de esta semana vamos a ver como configurar el paquete modificando el archivo DESCRIPTION e incluir las primeras funciones.Esta entrada forma parte de la serie “Creación de paquetes en R” cuyo código se puede encontrar en el repositorio y … [Leer más...] acerca de El archivo DESCRIPTION (Creación de paquetes en R 2ª parte)
Cursos on-line para comenzar en ciencia de datos
Ahora que medio mundo se encuentra confinado por el coronavirus puede ser el momento para realizar cursos con el que aprender nuevas habilidades o reforzar otras. En la situación actual una de las posibles soluciones es realizar un MOOC ya que no requiere asistir a clase y, en una gran cantidad de los casos, se pueden realizar de forma completamente gratuita. Aunque acceder a … [Leer más...] acerca de Cursos on-line para comenzar en ciencia de datos
Cómo conseguir que Pandas itere más rápido, hasta 375 veces
A pesar de que Python se uno de los lenguajes más populares para el tratamiento de datos no es el más rápido. Tanto Julia como JavaScript puede llegar a ser órdenes de magnitud más rápido. Por eso, cualquier truco que nos permita reducir el tiempo de ejecución de nuestro código es de agradecer. En esta entrada vamos a comparar diferentes métodos de iteración en dataframe Pandas … [Leer más...] acerca de Cómo conseguir que Pandas itere más rápido, hasta 375 veces
Creación de paquetes en R
Los paquetes de R son la mejor opción para distribuir y reutilizar de el código que escribimos es este lenguaje. Lo que nos permite aumentar nuestra productividad. Por eso hoy vamos a iniciar una serie de entradas en las que explicaremos los pasos para la creación de paquetes en R. Análoga a la serie publicada para el lenguaje Python. Una vez creados los paquetes podremos … [Leer más...] acerca de Creación de paquetes en R
Solucionar la multicolinealidad con VIF
La multicolinealidad es un problema que afecta negativamente a los modelos de regresión. Cuando existe una relación entre algunas de las variables independientes tanto el proceso de entrenamiento como la interpretación de los modelos se hace más complicado. Por un lado, en el entrenamiento existe más de un parámetro que mejorar las predicciones en el mismo sentido, ya que sus … [Leer más...] acerca de Solucionar la multicolinealidad con VIF
Entrenamiento, validación y test con Scikit-learn
Entre las herramientas para la selección de modelos de Scikit-learn nos podemos encontrar con la función train_test_split. Una función que nos permite dividir un conjunto de datos en uno de entrenamiento y otro de test. En la bibliografía es habitual encontrar que se tiene que dividir los conjuntos de datos para el entrenamiento de los modelos en tres: entrenamiento, validación … [Leer más...] acerca de Entrenamiento, validación y test con Scikit-learn
Formatos condicionales en Pandas
Una característica bastante desconocida de Pandas es la posibilidad de cambiar el formato de los DataFrame. Incluso de forma condicional. Lo que se puede hacer utilizando los diferentes métodos que se encuentran dentro de la propiedad style de los DataFrame. Siendo esta una opción que resulta interesante a la hora de la creación de informes ya hace innecesario salir de Python … [Leer más...] acerca de Formatos condicionales en Pandas
Multicolinealidad
La multicolinealidad es un problema que puede afectar negativamente al rendimiento de los modelos de regresión. Afectando tanto a modelos de regresión lineal como logísticos. El problema aparece cuando existe relación entre las variables independientes empleadas en los modelos. Siendo esta correlación un problema porque las variables independientes deberían de ser … [Leer más...] acerca de Multicolinealidad









