En los entornos intensivos en datos es habitual tener que aplicar una misma función a grandes conjuntos de datos. Los cuales pueden estar almacenados en listas o tuplas. Lo que puede ser necesario desde para la creación de los datos de una gráfica hasta para obtener los valores de una simulación de tipo Montecarlo. Para lo que no existe una única forma de realizar esta tarea, … [Leer más...] acerca de Mejores aproximaciones para iterar en Python
Python
Python es un lenguaje de programación interpretado con una filosofía basada en la legibilidad del código. Un lenguaje que gracias posee un gran ecosistema de librerías para la ciencia de datos. Por lo que es uno de los más populares en la actualidad entre los científicos de datos. Además, es uno de los lenguajes más deseados y adorados por los programadores según las encuestas de Stack Overflow.
Python es un lenguaje de programación interpretado de propósito general que obliga al uso de una sintaxis clara, gracias a la cual el código es altamente legible. Siendo un lenguaje potente y fácil de aprender. Además, permite utilizar múltiples paradigmas de programación. Lo que permite usar desde programación orientada a objetos, pasando por programación imperativa o funcional.
Los paquetes de Python más utilizados por los científicos son:
- NumPy: permite el tratamiento de datos basados en matrices,
- Pandas: ideal para la manipulación de datos heterogéneos mediante objetos DataFrame,
- SciPy: implementa tareas habituales en computación científica,
- Matplotlib: facilita la visualización de datos y scikit-learn creación de modelos de aprendizaje automático.
Las publicaciones de esta sección versan sobre estas librerías y las bases del lenguaje.
Mapas de calor y diagramas de araña en Python
En una entrada anterior se ha visto algunos de los gráficos más importantes disponibles en la librería de Python Seaborn. En esta ocasión se va a ver cómo construir en Python dos tipos de gráficos que pueden ser muy útiles: los mapas de calor y los diagramas de araña. Para construir el primero de ellos se utilizará Seaborn, mientras que para el segundo se utilizará matplotlib. … [Leer más...] acerca de Mapas de calor y diagramas de araña en Python
Seleccionar automáticamente los modelos en Python con GridSearchCV
Las clases GridSearchCV y RandomizedSearchCV de Scikit-learn pueden ser utilizadas para automatizar la selección de los parámetros de un modelo. Aplicando para ello la técnica de validación cruzada. Partiendo de un modelo y un conjunto de sus parámetros prueba múltiples combinaciones para identificar aquella que ofrece mayor rendimiento. Proceso que se ha visto en una entrada … [Leer más...] acerca de Seleccionar automáticamente los modelos en Python con GridSearchCV
Fijar la semilla de números aleatorios en Python
Los números aleatorios son importantes en muchas aplicaciones. Desde las más básicas como puede ser seleccionar una carta al azar hasta para la creación de simulaciones de Montecarlo. La generación de números aleatorios se basa en una semilla a partir de la cual se crear una serie. En Python, como en otros lenguajes de programación, es posible fijar el valor para obtener los … [Leer más...] acerca de Fijar la semilla de números aleatorios en Python
Automatización del procesado de datos en Scikit-learn con Pipeline
En aprendizaje automático la creación de un modelo es un proceso complejo que requiere llevar a cabo múltiples pasos. Siendo la preparación de los datos uno de los que más tiempo requiere. Tras la obtención de un conjunto de datos es necesario aplicarle a este diferentes operaciones antes de poder utilizar un estimador. A modo de ejemplo algunas de las operaciones más … [Leer más...] acerca de Automatización del procesado de datos en Scikit-learn con Pipeline
Instalación de PySpark en Anaconda y primeros pasos
Apache Spark es una solución de código abierto desarrollado para analizar y procesar datos a gran escala. Para utilizar esta herramienta en Python es necesario utilizar el API PySpark. En esta entrada se explicará cómo realizar la instalación de PySpark en Anaconda y cómo utilizar este desde un Notebook.¿Qué es Apache Spark y PySpark?Apache Spark es un motor de código … [Leer más...] acerca de Instalación de PySpark en Anaconda y primeros pasos
Ejemplo de uso: regresión lineal con rpy2
En una entrada reciente se ha realizado una introducción a la librería de Python rpy2 con la que es posible utilizar R en Python. La integración de R con Python permite acceder a todos los paquetes disponibles en R sin salir de Python. Obteniendo así un entorno mucho más productivo. En esta ocasión se va a ver un ejemplo de uso de rpy2. Realizando una regresión lineal con rpy2. … [Leer más...] acerca de Ejemplo de uso: regresión lineal con rpy2
Ordenación de diccionarios en Python mediante clave o valor
Los diccionarios son una estructura de datos muy utilizada en Python debido a gran flexibilidad que ofrecen. A diferencia de las listas o tuplas en las que se accede a los valores mediante un índice, en esta se utiliza una clave. La clave puede ser básicamente cualquier tipo de dato inmutable: enteros, reales, cadenas de texto, tuplas, etc. Lo que permite representar fácilmente … [Leer más...] acerca de Ordenación de diccionarios en Python mediante clave o valor
Utilizar R desde Python con rpy2
Python dispone de un gran ecosistema para el cálculo numérico, el análisis estadístico y el aprendizaje automático. Siendo el entorno favorito de muchos científicos de datos. Por otro lado, R es también un gran entorno para el análisis estadístico que dispone de una amplia colección de paquetes. A pesar de ellos, cada uno tiene sus ventajas e inconvenientes. Por este motivo … [Leer más...] acerca de Utilizar R desde Python con rpy2
Implementación del método descenso del gradiente en Python
Una de las fases clave en los proyectos de aprendizaje automático es el entrenamiento de los modelos. El futuro rendimiento de los modelos dependerá en gran medida del éxito en esta fase. En esta es necesario identificar los parámetros de un modelo o método de aprendizaje automático con los que se consigue el máximo rendimiento sobre el conjunto de datos de entrenamiento. … [Leer más...] acerca de Implementación del método descenso del gradiente en Python
Algunas librerías interesantes de Python para ciencia de datos
En una entrada anterior se recopilaron las cuatro librerías más importantes de Python para los científicos de datos. En esta entrada se van a ver otras seis librerías también interesantes de Python para ciencia de datos. Cada una de ellas permite trabajar en un tipo de problema concreto.imbalanced-learnEl entrenamiento de los algoritmos de clasificación funciona mejor … [Leer más...] acerca de Algunas librerías interesantes de Python para ciencia de datos
Selección de una submuestra en Python con pandas
La generación de muestras aleatorias a partir de conjunto de datos es una tarea bastante habitual. Al realizar el entrenamiento de un modelo supervisado es habitual dejar un conjunto de datos para una validación posterior. También en algunos estudios estadísticos pueden realizarse únicamente con un conjunto de los datos originales. Por este motivo los objetos DataFrame de … [Leer más...] acerca de Selección de una submuestra en Python con pandas











