Python

Python es un lenguaje de programación interpretado con una filosofía basada en la legibilidad del código. Un lenguaje que gracias posee un gran ecosistema de librerías para la ciencia de datos. Por lo que es uno de los más populares en la actualidad entre los científicos de datos. Además, es uno de los lenguajes más deseados y adorados por los programadores según las encuestas de Stack Overflow.

Python es un lenguaje de programación interpretado de propósito general que obliga al uso de una sintaxis clara, gracias a la cual el código es altamente legible. Siendo un lenguaje potente y fácil de aprender. Además, permite utilizar múltiples paradigmas de programación. Lo que permite usar desde programación orientada a objetos, pasando por programación imperativa o funcional.

Los paquetes de Python más utilizados por los científicos son:

NumPy: permite el tratamiento de datos basados en matrices,
Pandas: ideal para la manipulación de datos heterogéneos mediante objetos DataFrame,
SciPy: implementa tareas habituales en computación científica,
Matplotlib: facilita la visualización de datos y scikit-learn creación de modelos de aprendizaje automático.

Las publicaciones de esta sección versan sobre estas librerías y las bases del lenguaje.

Medir la similitud de archivos con Python

marzo 30, 2020 Por Daniel Rodríguez 3 comentarios
Tiempo de lectura: 3 minutos

Una de las grandes ventajas de los sistemas informáticos es la facilidad con la que se puede copiar y modificar los archivos. Cuando tenemos que repetir un análisis que ya hemos realizado previamente, sea este en una hoja de cálculo, un Jupyter Notebook o con cualquier otra herramienta, podemos partir de este y modificar adecuadamente los datos. Esto que nos no reinventar los … [Leer más...] acerca de Medir la similitud de archivos con Python

Documentar paquetes de Python (Creación de paquetes de Python 6ª parte)

marzo 27, 2020 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 5 minutos

Una vez creadas las funciones y las clases de nuestro paquete es necesario escribir la documentación para que otros usuarios puedan saber cómo usarlas. Documentación que debe ofrecer información concisa sobre el funcionamiento de los componentes. En esta sexta entrada de la serie “Creación de un paquete de Python” vamos a ver cómo documentar paquetes de Python, escribiendo la … [Leer más...] acerca de Documentar paquetes de Python (Creación de paquetes de Python 6ª parte)

Truco Jupyter: Ignorar errores en las celdas de Jupyter Notebook

marzo 25, 2020 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 2 minutos

En un notebook de Jupyter cuando se están ejecutando las celdas en modo y una de estas contiene un error el proceso de ejecución se para. Ignorando el resto de las celdas a partir de aquella en la que produjo el error. Generalmente este es el comportamiento que esperaríamos. Si una celda tiene un error, posiblemente el resto tampoco puedan funcionar. Pero qué pasaría si … [Leer más...] acerca de Truco Jupyter: Ignorar errores en las celdas de Jupyter Notebook

SequenceMatcher

marzo 23, 2020 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 3 minutos

Comparar dos documentos es una tarea relativamente compleja, especialmente si buscamos coincidencias parciales entre los mismos. Para esta tarea en el módulo difflib de Python podemos encontrar la clase SequenceMatcher con la que realizar esta tarea. Una clase con la que localizar las coincidencias existentes en las subsecuencia, al mismo tiempo que se puede obtener un grado de … [Leer más...] acerca de SequenceMatcher

Gestionar las dependencias de paquetes Python (Creación de paquetes de Python 5ª parte)

marzo 20, 2020 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 3 minutos

En las entradas anteriores de la serie “Creación de paquetes de Python” hemos visto cómo añadir código al paquete, pero no como incluir otros paquetes que podemos necesitar. Por ejemplo, puede ser necesario tener instalado Pandas o scikit-learn. En esta quinta entrada de la serie vamos a ver los pasos para gestionar las dependencias de los paquetes Python e indicar qué … [Leer más...] acerca de Gestionar las dependencias de paquetes Python (Creación de paquetes de Python 5ª parte)

Comparar los valores con tolerancia en Python.

marzo 18, 2020 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 3 minutos

Al trabajar con números reales no es una buena idea comparar dos valores después de operar con ellos con el operador ==. El mínimo error numérico es las operaciones puede hacer que dos valores que deberían ser iguales no lo sean. Algo que se puede comprobar fácilmente evaluando la expresión 0.1 + 0.2 == 0.3 en Python, la comparación devuelve False cuando esperaríamos todo lo … [Leer más...] acerca de Comparar los valores con tolerancia en Python.

Ordenar listas de objetos en Python

marzo 16, 2020 Por Daniel Rodríguez 1 comentario
Tiempo de lectura: 3 minutos

Cuando queremos ordenar una lista en Python se puede utilizar el método sorted(). Un método que nos devuelve una lista con los objetos ordenados. Aunque si el contenido de la lista no es no son datos primitivos, como por ejemplo tuplas, diccionarios u objetos el método no funcionará. Para ello es necesario pasar una función con la que sorted() pueda ordenar los datos. Siendo … [Leer más...] acerca de Ordenar listas de objetos en Python

Cobertura de las pruebas unitarias en Python (Creación de paquetes de Python 4ª parte)

marzo 13, 2020 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 5 minutos

En las entradas anteriores hemos visto cómo definir pruebas unitarias con pytest, así como ejecutarlas en diferentes versiones de Python con tox. Un dato importante de las pruebas es el nivel de cobertura, el porcentaje de código que se prueba. Para así poder identificar qué partes del código tienen pruebas asociadas y cuáles no. Con lo que se puede definir nuevas pruebas para … [Leer más...] acerca de Cobertura de las pruebas unitarias en Python (Creación de paquetes de Python 4ª parte)

Probar en múltiples versiones de Python (Creación de paquetes de Python 3ª parte)

marzo 6, 2020 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 3 minutos

Hasta ahora las pruebas se ha ejecutado únicamente en la configuración del ordenador de trabajo. Es decir, en la versión de Python con la que estamos trabajando. Pero puede ser interesante probar que el paquete funciona con diferentes versiones de Python a la que tenemos instalada. Para probar en múltiples versiones de Python el código del paquete vamos a utilizar tox.Esta … [Leer más...] acerca de Probar en múltiples versiones de Python (Creación de paquetes de Python 3ª parte)

Comparar el contenido de dos Jupyter celda a celda.

marzo 2, 2020 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 3 minutos

Uno de los problemas que pueden existir a la hora de trabajar con documentos Jupyter es el control de cambios en los documentos. Es decir, saber qué celdas han cambiado y cuales son iguales. Incluso pequeños cambios que pueden cambiar completamente el resultado del documento. Algo, que a medida que el tamaño de los documentos crecer, es más necesario poder hacer de forma … [Leer más...] acerca de Comparar el contenido de dos Jupyter celda a celda.

Pruebas unitarias en Python (Creación de paquetes de Python 2ª parte)

febrero 28, 2020 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 4 minutos

La semana pasada hemos visto los primeros pasos para crear un paquete de Python básico utilizando Cookiecutter e instalarlo en nuestro ordenador. Una de las piezas claves a la hora de garantizar que el código de un proyecto evoluciona sin alterar las funcionalidades existentes son las pruebas unitarias. Con las que podemos evaluar cada una de las funciones y clases … [Leer más...] acerca de Pruebas unitarias en Python (Creación de paquetes de Python 2ª parte)

Máximos de un subconjunto en un dataframe pandas

febrero 24, 2020 Por Daniel Rodríguez 6 comentarios
Tiempo de lectura: 2 minutos

Una tarea que se puede hacer fácilmente en SQL agrupar una tabla por una columna, seleccionar los registros que tengan el valor máximo en otra columna, junto al resto de campos de los registros. Es decir, buscar los valores máximos de un subconjunto. Una tarea que también se puede hacer en pandas con un poco de trabajo.Planteamiento del problemaSi tenemos una tabla … [Leer más...] acerca de Máximos de un subconjunto en un dataframe pandas