Una de las formas más habituales para importar los datos para un análisis es mediante el uso de archivos. Los cuales, debido a que los conjuntos de datos no se generan específicamente para un análisis en concreto, generalmente contienen más información de la que es necesaria para el estudio que se necesita realizar. Siendo necesaria más memoria para trabajar con ellos. En … [Leer más...] acerca de Importar solamente algunas columnas de un archivo con Pandas
Python
Python es un lenguaje de programación interpretado con una filosofía basada en la legibilidad del código. Un lenguaje que gracias posee un gran ecosistema de librerías para la ciencia de datos. Por lo que es uno de los más populares en la actualidad entre los científicos de datos. Además, es uno de los lenguajes más deseados y adorados por los programadores según las encuestas de Stack Overflow.
Python es un lenguaje de programación interpretado de propósito general que obliga al uso de una sintaxis clara, gracias a la cual el código es altamente legible. Siendo un lenguaje potente y fácil de aprender. Además, permite utilizar múltiples paradigmas de programación. Lo que permite usar desde programación orientada a objetos, pasando por programación imperativa o funcional.
Los paquetes de Python más utilizados por los científicos son:
- NumPy: permite el tratamiento de datos basados en matrices,
- Pandas: ideal para la manipulación de datos heterogéneos mediante objetos DataFrame,
- SciPy: implementa tareas habituales en computación científica,
- Matplotlib: facilita la visualización de datos y scikit-learn creación de modelos de aprendizaje automático.
Las publicaciones de esta sección versan sobre estas librerías y las bases del lenguaje.
Truco: identificar el sistema operativo en Python
Cuando en nuestro programa de Python se usan llamadas al sistema operativo, como ejecutar un comando de terminal, puede ser necesario saber sobre qué sistema operativo se está ejecutando el programa. Pudiendo de esta manera adaptar el código a cada uno de los casos. Para lo que se puede recurrir al módulo platform, un componente con el que se puede obtener el sistema operativo … [Leer más...] acerca de Truco: identificar el sistema operativo en Python
Calcular la moda en un vector de NumPy
La moda de un conjunto de datos es el valor que más se repite. Siendo una medida de la tendencia central que indica cuál es el valor que aparece con mayor frecuencia en una muestra o estudio. A pesar de su importancia, este no es uno de los estadísticos implementados de forma nativa en NumPy, posiblemente porque se puede calcular fácilmente. Veamos cómo se puede obtener la moda … [Leer más...] acerca de Calcular la moda en un vector de NumPy
Enviar correos electrónicos desde Python
Notificar mediante correo electrónico la finalización de una tarea es algo que puede simplificar nuestros flujos de trabajo. Por ejemplo, una tarea periódica que se realiza en un servidor nos podría enviar un informe completo con los resultados por lo que solamente tendríamos que revisar este para comprobar que todo es correcto. Una de las formas más sencillas para enviar … [Leer más...] acerca de Enviar correos electrónicos desde Python
Desempaquetado en Python de una tupla o lista
En algunas ocasiones, como puede ser los valores que devuelve una función, nos podemos encontrar con una tupla, o lista, que contiene varios valores de los cuales solamente nos interesan unos pocos. Por lo que extraer solamente estos valores y quedarnos con los necesarios puede simplificar los posteriores análisis. Algo que se puede conseguir mediante el desempaquetado en … [Leer más...] acerca de Desempaquetado en Python de una tupla o lista
Obtener los primeros registros ordenados de un DataFrame Pandas
Los objetos DataFrame de Pandas cuentan con un par de métodos mediante los cuales se puede ordenar los registros en base a los valores de una o varias columnas y obtener como resultado los n primeros. Una funcionalidad con la que se puede simplificar algunos análisis. En concreto, el método df.nlargest() ordena de mayor a menor los registros de un conjunto de datos y devuelve … [Leer más...] acerca de Obtener los primeros registros ordenados de un DataFrame Pandas
Agregar líneas a las figuras de Matplotlib
Incluir una o varias líneas en una gráfica puede ser una herramienta sencilla, pero muy útil, para señalar al lector algunos valores que pueden ser de interés. Tales como los cambios de tendencia de una serie. Por eso en la mayoría de las librerías gráficas existen funciones para ello. Veamos algunas de las funciones disponibles para agregar líneas a las figuras de … [Leer más...] acerca de Agregar líneas a las figuras de Matplotlib
Trazar ejes logarítmicos en Matplotlib
La escala que se usa en las figuras creadas con Matplotlib es lineal. Generalmente esta es la mejor opción debido a que, en la mayoría de los casos, las relaciones que existen entre las variables que se muestran son lineales. Pero no siempre es así. Otras veces la relación entre las variables puede ser exponencial y al emplear una escala lineal puede quedar oculta mucha … [Leer más...] acerca de Trazar ejes logarítmicos en Matplotlib
Creación de histogramas con Matplotlib en Python
Los histogramas permiten obtener una visión general de la distribución existente en una muestra de datos. Para lo que dibuja barras asociadas a un rango de valores, siendo la altura de estas proporcional a la frecuencia de aparición de estos. Siendo una representación gráfica muy popular. Existiendo una función para dibujar histogramas con Matplotlib en Python a partir de … [Leer más...] acerca de Creación de histogramas con Matplotlib en Python
Cambiar el tamaño de los puntos en Matplotlib
En las gráficas de dispersión creadas con Matplotlib existe la posibilidad de modificar el tamaño de los puntos. Siendo incluso posible asignar un valor diferente a cada uno. Por un lado, el hecho de poder cambiar el tamaño de los puntos en Matplotlib, permite adaptar este a la cantidad de valores que se necesita mostrar. Por otro, poder asignar un valor diferente a cada uno se … [Leer más...] acerca de Cambiar el tamaño de los puntos en Matplotlib
Agregar etiquetas a los puntos en Matplotlib
En los gráficos de dispersión una manera de ayudar a los lectores a identificar valores especiales es incluir una etiqueta. Asignando un nombre a ese punto específico. La forma más sencilla para agregar etiquetas a los puntos en Matplotlib es mediante el uso de la función annotate(). Una función sencilla que solamente requiere la cadena de texto con el mensaje y la posición en … [Leer más...] acerca de Agregar etiquetas a los puntos en Matplotlib
Invertir los ejes en Matplotlib
En las gráficas es habitual que los valores representados en el eje de abscisas crezcan al desplazarse en este de izquierda a derecha. Mientras que los valores mostrados en el eje de ordenadas crecen al moverse de abajo a arriba. Aunque esta es la convención que se sigue habitualmente a la hora de crear figuras, en ciertas ocasiones puede ser mejor no adoptarla. Para conseguir … [Leer más...] acerca de Invertir los ejes en Matplotlib





