La semana pasada se ha visto una pequeña introducción a la creación de pruebas automáticas en un paquete de R. Esta semana vamos a ver unos conceptos para crear pruebas avanzadas con testthat cómo son las funciones setup y teardown. En esta entrada no hablaremos de mocks ya que es un tema del que hemos hablado anteriormente en el blog. Si necesitamos probar servicios externos … [Leer más...] acerca de Pruebas avanzadas con testthat (Creación de paquetes en R 4ª parte)
Prueba exacta de Fisher
La semana pasada hemos vistos la prueba de independencia de Chi-cuadrado, con la que se puede comprobar la independencia de dos variables cuantitativas. En dicha entrada se comentó que cuando la frecuencia de alguna de las categorías de las variables es pequeña no es aconsejable emplear esta prueba, sino que se debería usar la prueba exacta de Fisher. La cual vamos a explicar … [Leer más...] acerca de Prueba exacta de Fisher
Convertir archivos CSV a XLSX con Python
Los archivos de Excel y CSV son los formatos más utilizados para el intercambio de datos tabulados. En algunas situaciones puede ser necesario convertir los archivos de un formato a otro, cuando los usuarios que reciben los datos lo quieren en un formato concreto o cuando el programa no admite más que uno de tipos de archivo. En esta entrada vamos a ver se pueden convertir … [Leer más...] acerca de Convertir archivos CSV a XLSX con Python
Pruebas automáticas en R con testthat (Creación de paquetes en R 3ª parte)
Seguimos con nuestra serie en la que explicamos cómo crear un paquete R en la que se realizará una introducción a las pruebas automáticas. Incluir pruebas automáticas en nuestro código es clave para poder mantener a medida que crece. Las pruebas no solo permiten garantizar que el código funciona correctamente hoy en día, sino que permite garantizar que continuará funcionando … [Leer más...] acerca de Pruebas automáticas en R con testthat (Creación de paquetes en R 3ª parte)
Prueba de independencia de Chi-cuadrado
En unas entradas anteriores hemos visto los efectos de la multicolinealidad en las variables cuantitativas y como identificar la relación mediante el uso de VIF. Para las variables categóricas también existen pruebas para comprobar si existe relación entre dos, es decir, si los valores de una variable cualitativa dependen de otra. Uno de la prueba más populares es la prueba de … [Leer más...] acerca de Prueba de independencia de Chi-cuadrado
Creación de gráficos animados con Python
Una de las herramientas más eficaces para la presentación de los resultados son los gráficos. Eficacia que se puede aumentar al animarlos. La creación de gráficos animados en Python es una tarea realmente sencilla gracias a MoviePy. Un módulo para la edición de video que se puede usar tanto para operaciones básicas, como para el procesamiento y la creación de efectos avanzados … [Leer más...] acerca de Creación de gráficos animados con Python
Segundo aniversario de Analytics Lane
Hoy se cumple el segundo aniversario de Analytics Lane. Un día como hoy de 2018 se publicó una entrada de presentación y la primera entrada del blog en la que explicamos cómo importar los conjuntos de datos desde archivos CSV comprimidos en R. Dos años más tarde este proyecto ha madurado y parece que va encontrando su camino. Un camino que no sería nada sin vosotros, por lo que … [Leer más...] acerca de Segundo aniversario de Analytics Lane
El archivo DESCRIPTION (Creación de paquetes en R 2ª parte)
En la entrada de la semana pasada hemos creado la estructura de un paquete R con la ayuda de RStudio y el paquete devtools. En la entrada de esta semana vamos a ver como configurar el paquete modificando el archivo DESCRIPTION e incluir las primeras funciones.Esta entrada forma parte de la serie “Creación de paquetes en R” cuyo código se puede encontrar en el repositorio y … [Leer más...] acerca de El archivo DESCRIPTION (Creación de paquetes en R 2ª parte)
Cursos on-line para comenzar en ciencia de datos
Ahora que medio mundo se encuentra confinado por el coronavirus puede ser el momento para realizar cursos con el que aprender nuevas habilidades o reforzar otras. En la situación actual una de las posibles soluciones es realizar un MOOC ya que no requiere asistir a clase y, en una gran cantidad de los casos, se pueden realizar de forma completamente gratuita. Aunque acceder a … [Leer más...] acerca de Cursos on-line para comenzar en ciencia de datos
Cómo conseguir que Pandas itere más rápido, hasta 375 veces
A pesar de que Python se uno de los lenguajes más populares para el tratamiento de datos no es el más rápido. Tanto Julia como JavaScript puede llegar a ser órdenes de magnitud más rápido. Por eso, cualquier truco que nos permita reducir el tiempo de ejecución de nuestro código es de agradecer. En esta entrada vamos a comparar diferentes métodos de iteración en dataframe Pandas … [Leer más...] acerca de Cómo conseguir que Pandas itere más rápido, hasta 375 veces
Creación de paquetes en R
Los paquetes de R son la mejor opción para distribuir y reutilizar de el código que escribimos es este lenguaje. Lo que nos permite aumentar nuestra productividad. Por eso hoy vamos a iniciar una serie de entradas en las que explicaremos los pasos para la creación de paquetes en R. Análoga a la serie publicada para el lenguaje Python. Una vez creados los paquetes podremos … [Leer más...] acerca de Creación de paquetes en R
Solucionar la multicolinealidad con VIF
La multicolinealidad es un problema que afecta negativamente a los modelos de regresión. Cuando existe una relación entre algunas de las variables independientes tanto el proceso de entrenamiento como la interpretación de los modelos se hace más complicado. Por un lado, en el entrenamiento existe más de un parámetro que mejorar las predicciones en el mismo sentido, ya que sus … [Leer más...] acerca de Solucionar la multicolinealidad con VIF