A la hora de analizar conjuntos de datos es habitual encontrarse con series temporales. En estas ocasiones suele ser interesante poder obtener de una forma rápida información estadística de los registros, como puede el número de ocurrencias por mes. En Python se encuentran disponibles diferentes herramientas para poder realizar la agrupación por fecha en pandas. Conocer el … [Leer más...] acerca de Agrupación de datos por fecha en pandas
Python
Python es un lenguaje de programación interpretado con una filosofía basada en la legibilidad del código. Un lenguaje que gracias posee un gran ecosistema de librerías para la ciencia de datos. Por lo que es uno de los más populares en la actualidad entre los científicos de datos. Además, es uno de los lenguajes más deseados y adorados por los programadores según las encuestas de Stack Overflow.
Python es un lenguaje de programación interpretado de propósito general que obliga al uso de una sintaxis clara, gracias a la cual el código es altamente legible. Siendo un lenguaje potente y fácil de aprender. Además, permite utilizar múltiples paradigmas de programación. Lo que permite usar desde programación orientada a objetos, pasando por programación imperativa o funcional.
Los paquetes de Python más utilizados por los científicos son:
- NumPy: permite el tratamiento de datos basados en matrices,
- Pandas: ideal para la manipulación de datos heterogéneos mediante objetos DataFrame,
- SciPy: implementa tareas habituales en computación científica,
- Matplotlib: facilita la visualización de datos y scikit-learn creación de modelos de aprendizaje automático.
Las publicaciones de esta sección versan sobre estas librerías y las bases del lenguaje.
GridSearchCV
GridSearchCV es una clase disponible en scikit-learn que permite evaluar y seleccionar de forma sistemática los parámetros de un modelo. Indicándole un modelo y los parámetros a probar, puede evaluar el rendimiento del primero en función de los segundos mediante validación cruzada. En caso de que se desee evaluar modelos con parámetros aleatorios existe el método … [Leer más...] acerca de GridSearchCV
Eliminar filas o columnas con valores nulos en Python
La existencia de valores nulos en cualquier conjunto de datos supone un problema a la hora de realizar cualquier análisis. Saber cómo eliminar estos valores de manera fácil es clave de cara a automatizar los procesos de análisis. En esta entrada se va a explicar la forma de eliminar las filas o columnas que contenga valores nulos en Python. En primer lugar, se explicará la … [Leer más...] acerca de Eliminar filas o columnas con valores nulos en Python
Procesado de cadenas de texto en Python
Los usuarios que llegan a Python desde otros lenguajes de programación a veces encuentran problemático que no existan funciones para la obtención de subcadenas de texto. Debido a que este tipo de análisis se han de realizar con cierta frecuencia. Por ejemplo, en R se dispone de la función substring con la que se puede obtener fácilmente subcadenas de texto o reemplazar estas … [Leer más...] acerca de Procesado de cadenas de texto en Python
Eliminar registros duplicados en pandas
Un problema habitual en los conjuntos de datos es la existencia de registros duplicados. La duplicidad puede ser del registro completo o solamente de unos elementos. Por ejemplo, se ha registrado dos veces la misma operación con diferente identificador. Saber cómo eliminar estos registros duplicados es imprescindible para evitar posibles errores en los análisis posteriores. En … [Leer más...] acerca de Eliminar registros duplicados en pandas
Guardar y leer archivos CSV con Python
Uno de los formatos más utilizados en la actualidad para intercambio de datos es CSV ("Comma Separated Values"). Estas son básicamente archivos de texto en los que cada línea contiene una fila de datos con múltiples registros delimitados por un separador. Tradicionalmente el separador suele ser la coma, de ahí el nombre del formato. Aunque también se pueden utilizan otros … [Leer más...] acerca de Guardar y leer archivos CSV con Python
Instalación de varias versiones de Python en Anaconda
La existencia de dos versiones de Python, la 2.x y la 3.x, incompatibles entre sí genera que muchas veces no encontremos con librerías que no son compatibles con nuestra versión. En caso de que tengamos este problema es una buena idea instalar más de una versión en nuestros ordenadores.Anaconda posiblemente sea la distribución de Python por excelencia para los que … [Leer más...] acerca de Instalación de varias versiones de Python en Anaconda
Archivos comprimidos en Python
El otro día hablamos de la posibilidad de importar los datos directamente desde archivos comprimidos en R, permitiendo ahorrar un espacio importante a la hora de almacenar nuestros proyectos o recuperarlos de la red. Esta funcionalidad también se puede encontrar en la librería pandas de Python. La función pd.read_csv realiza esta tarea de forma automática al importar un archivo … [Leer más...] acerca de Archivos comprimidos en Python