A la hora de crear código en Python es habitual utilizar un paradigma imperativo. Indicando de forma detallada la secuencia de tareas que el ordenador debe de ejecutar. Otro paradigma que con el que se puede escribir código en Python es la programación funcional. Un paradigma que se basa en la utilización de funciones, que permite obtener código más fácil de probar y entender. … [Leer más...] acerca de Introducción a la programación funcional en Python
Python
Python es un lenguaje de programación interpretado con una filosofía basada en la legibilidad del código. Un lenguaje que gracias posee un gran ecosistema de librerías para la ciencia de datos. Por lo que es uno de los más populares en la actualidad entre los científicos de datos. Además, es uno de los lenguajes más deseados y adorados por los programadores según las encuestas de Stack Overflow.
Python es un lenguaje de programación interpretado de propósito general que obliga al uso de una sintaxis clara, gracias a la cual el código es altamente legible. Siendo un lenguaje potente y fácil de aprender. Además, permite utilizar múltiples paradigmas de programación. Lo que permite usar desde programación orientada a objetos, pasando por programación imperativa o funcional.
Los paquetes de Python más utilizados por los científicos son:
- NumPy: permite el tratamiento de datos basados en matrices,
- Pandas: ideal para la manipulación de datos heterogéneos mediante objetos DataFrame,
- SciPy: implementa tareas habituales en computación científica,
- Matplotlib: facilita la visualización de datos y scikit-learn creación de modelos de aprendizaje automático.
Las publicaciones de esta sección versan sobre estas librerías y las bases del lenguaje.
5 libros de Python para ciencia de datos
A continuación, se muestra una recopilación de cinco libros de Python para ciencia de datos. Cualquiera de ellos es una excelente referencia, dependiendo del área y el nivel del lector.Hands-On Machine Learning with Scikit-Learn and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent SystemsEste es un excelente libro para introducirse en Aprendizaje … [Leer más...] acerca de 5 libros de Python para ciencia de datos
Procesado de archivos CSV enormes en Python
La librearía pandas de Python ofrece una colección de fantásticas herramientas para la manipulación y análisis de datos. Siendo una de las piezas clave de la enorme popularidad de Python entre los científicos de datos. Pero los objetos de pandas se manejan en memoria y, por lo tanto, cuando el tamaño de los datos crece es complicado poder trabajar con ellos. Por ejemplo, cuando … [Leer más...] acerca de Procesado de archivos CSV enormes en Python
Operaciones de filtrado de DataFrame con Pandas en base a los valores de las columnas
Los objetos DataFrame de Pandas son una herramienta fantástica para trabajar con datos. Permitiendo realizar múltiples tareas de una forma rápida y sencilla. Una de las más habituales es filtrar, poder seleccionar un subconjunto de los datos en base a los valores de uno o varias columnas. En esta entrada se explicarán diferentes formas de realizar el filtrado de DataFrame con … [Leer más...] acerca de Operaciones de filtrado de DataFrame con Pandas en base a los valores de las columnas
Obtención de valores únicos de una columna con Pandas
En muchas ocasiones al trabajar con un DataFrame de Pandas puede que una de las columnas contenta los valores de una etiqueta. La que posiblemente tendrá muchos registros repetidos. Por lo que puede ser interesante obtener el listado de valores únicos de la columna. Afortunadamente los objetos DataFrame de la librería Pandas cuentan con un método para obtener estos. A … [Leer más...] acerca de Obtención de valores únicos de una columna con Pandas
¿Cómo cambiar el nombre de las columnas en Pandas?
En los DataFrame de Pandas los nombres de las columnas permiten identificar rápidamente el contenido de estas. Por eso saber como cambiar el nombre de las columnas en Pandas puede ser importante ya que en muchas ocasiones puede que se incluyan en el archivo de datos. O simplemente sean nombres crípticos que se desea cambiar. Además de las columnas también se puede asignar un … [Leer más...] acerca de ¿Cómo cambiar el nombre de las columnas en Pandas?
Diferentes formas de ordenar dataframes en pandas
Una vez importado un conjunto de datos en pandas puede ser interesante ordenar el contenido de estos. Lo más habitual es ordenarlo en base a los valores de una o varias columnas. Para ordenar dataframes en pandas se pueden utilizar los métodos nativos de estos objetos. Lo que permite hacer esta tarea de un forma sencilla y eficiente.En esta entrada se va a utilizar el … [Leer más...] acerca de Diferentes formas de ordenar dataframes en pandas
Cómo leer y escribir archivos en Python
La importación y exportación de datos desde archivos son tareas que se realizan con bastante asiduidad. Por ello, en Python, librerías como pandas incorporan herramientas para el manejo de archivos CSV o en formato Microsoft Excel. Pero, si los datos no se encuentran en un formato estándar, estas herramientas pueden no ser las adecuadas. Por lo tanto, puede ser necesario … [Leer más...] acerca de Cómo leer y escribir archivos en Python
Seis comandos mágicos de Jupyter Notebooks
Los Jupyter Notebooks son una herramienta web con la que se puede ejecutar código de forma interactiva, almacenar los resultados y documentar el proceso. Actualmente es muy popular para explicar las técnicas y los procedimientos empleados en tareas de análisis de datos. Una de las características más poderosas de Jupyter Notebooks son los comandos mágicos. Los que son accesos … [Leer más...] acerca de Seis comandos mágicos de Jupyter Notebooks
5 extensiones para Jupyter Notebook con los que mejorar la productividad
Jupyter Notebook es una excelente herramienta en la que es posible integrar código interactivo con ecuaciones, gráficas y documentación. Por lo que es una solución ampliamente utilizada en entornos educativos, para tareas de exploración de datos y la documentación de algoritmos. Aún así es posible que falten algunas funcionalidades con las que mejorar nuestra productividad a la … [Leer más...] acerca de 5 extensiones para Jupyter Notebook con los que mejorar la productividad
Mejora del rendimiento de pandas con Modin
Una de las bibliotecas más utilizada para la manipulación y análisis de datos en Python es pandas. Con ella es posible manipular tablas y series temporales. Además, ofrece la posibilidad de importar datos desde archivos CSV o Excel para su posterior manipulación. Al trabajar con grandes conjuntos de datos el tiempo de procesado puede ser un problema. Por lo que cualquier mejora … [Leer más...] acerca de Mejora del rendimiento de pandas con Modin
¿Cómo eliminar columnas y filas en un dataframe pandas?
Al trabajar con grandes conjuntos de datos es habitual tener que eliminar registros para eliminar su tamaño. Por ejemplo, al importar los datos se un archivo CSV puede ser que los registros de algunas columnas no sean necesarios. En esta entrada vamos a explicar cómo eliminar columnas y filas en un dataframe pandas.Para poder eliminar datos de un dataframe es necesario … [Leer más...] acerca de ¿Cómo eliminar columnas y filas en un dataframe pandas?