Searbon es una de las bibliotecas para la visualización de datos más popular en Python porque ofrece una amplia gama de gráficos predefinidos y la capacidad de personalizarlos para adaptarlos a las necesidades de cada usuario. Lo que permite crear las visualizaciones al gusto y preferencia de los diferentes usuarios. En esta entrada, se explorarán algunas de las algunas de las … [Leer más...] acerca de Personalización de gráficos en Seaborn: Cambiar colores, estilos y etiquetas
Python
Python es un lenguaje de programación interpretado con una filosofía basada en la legibilidad del código. Un lenguaje que gracias posee un gran ecosistema de librerías para la ciencia de datos. Por lo que es uno de los más populares en la actualidad entre los científicos de datos. Además, es uno de los lenguajes más deseados y adorados por los programadores según las encuestas de Stack Overflow.
Python es un lenguaje de programación interpretado de propósito general que obliga al uso de una sintaxis clara, gracias a la cual el código es altamente legible. Siendo un lenguaje potente y fácil de aprender. Además, permite utilizar múltiples paradigmas de programación. Lo que permite usar desde programación orientada a objetos, pasando por programación imperativa o funcional.
Los paquetes de Python más utilizados por los científicos son:
- NumPy: permite el tratamiento de datos basados en matrices,
- Pandas: ideal para la manipulación de datos heterogéneos mediante objetos DataFrame,
- SciPy: implementa tareas habituales en computación científica,
- Matplotlib: facilita la visualización de datos y scikit-learn creación de modelos de aprendizaje automático.
Las publicaciones de esta sección versan sobre estas librerías y las bases del lenguaje.
Diagramas de dispersión y gráficos de regresión con Seaborn: Visualización de relaciones entre variables numéricas
La visualización de las relaciones existentes entre las variables numéricas de un conjunto de datos es clave para poder comprender los patrones y tendencias existentes. Seaborn, una biblioteca de visualización de datos en Python, ofrece varias funciones para representar estas relaciones. En esta entrada, se mostrará cómo se pueden crear diagramas de dispersión y gráficos de … [Leer más...] acerca de Diagramas de dispersión y gráficos de regresión con Seaborn: Visualización de relaciones entre variables numéricas
Creación de gráficos de barras y gráficos de columnas con Seaborn
Los gráficos de barras y los gráficos de columnas son una forma altamente efectiva de visualizar datos categóricos. Permitiendo comparar los valores asociados a cada categoría. Seaborn, una de las principales bibliotecas de visualización de datos en Python, ofrece varias funciones para crear este tipo de gráficos. En esta entrada, se mostrará las principales opciones que … [Leer más...] acerca de Creación de gráficos de barras y gráficos de columnas con Seaborn
Visualización de distribuciones de datos con Seaborn: Histogramas, gráficos de densidad y boxplots
La visualización de la distribución de datos es una parte fundamental a la hora de realizar análisis exploratorios. Seaborn, una biblioteca de visualización de datos en Python cuenta con múltiples herramientas para ello. Tales como histogramas, gráficos de densidad y diagramas de caja (también llamados boxplots). En esta entrada, continuando la serie de publicaciones sobre esta … [Leer más...] acerca de Visualización de distribuciones de datos con Seaborn: Histogramas, gráficos de densidad y boxplots
Introducción a Seaborn: Una visión general de la biblioteca
Seaborn es una biblioteca de visualización de datos para Python basada en Matplotlib. La principal característica de Seaborn es una interfaz de alto nivel con la que es fácil crear gráficos elegantes de una forma sencilla. Siendo una excelente opción para analizar datos en Python. En esta entrada, una introducción a Seaborn, comienza una serie de publicaciones sobre Seaborn en … [Leer más...] acerca de Introducción a Seaborn: Una visión general de la biblioteca
Ordenar un DataFrame en base a dos o más columnas
Los DataFrames de Pandas cuentan con el método sort_values() para ordenar los registros de un conjunto de datos en base a sus valores. Siendo una herramienta que ofrece múltiples opciones. En su uso básico permite ordenar los datos en base a los valores de una columna, pero también es posible ordenar un DataFrame en base a dos o más columnas. Pudiendo llegar a combinar unas en … [Leer más...] acerca de Ordenar un DataFrame en base a dos o más columnas
Creación de variables dummies con Pandas (variables binarias para aprendizaje automático)
La mayoría de los algoritmos de aprendizaje automático solamente pueden trabajar con datos numéricos. Pero, en muchas ocasiones, lo que se tienen son datos de tipo categórico. Debido a que los algoritmos no pueden realizar las operaciones matemáticas sobre estos, es necesario transformarlos antes de poder emplearlos en el entrenamiento de cualquier modelo de aprendizaje … [Leer más...] acerca de Creación de variables dummies con Pandas (variables binarias para aprendizaje automático)
Reemplazo condicional de valores en Pandas
Los objetos DataFrame de Pandas son unas estructuras de datos fantásticas para el análisis y manipulación de los datos. Facilitando muchas tareas en el día a día. Por ejemplo, cuando se necesita reemplazar ciertos registros en función de los valores de estos u otros, esto es, cuando se desea realizar un reemplazo condicional de valores.Conjunto de datos de ejemploEn … [Leer más...] acerca de Reemplazo condicional de valores en Pandas
Calcular diferencia entre elementos de un DataFrame con diff
En los objetos DataFrame de Pandas existe un método con el que se puede obtener la diferencia entre un elemento y el anterior, o cualquier otra posición. Este método es diff(). Su uso permite obtener la diferencia entre los elementos de un DataFrame, lo que se puede usar para ver de una forma rápida cómo crece o decrece una magnitud.El método diff() en PandasEl … [Leer más...] acerca de Calcular diferencia entre elementos de un DataFrame con diff
Acotar los valores en un DataFrame de Pandas
Existen diferentes motivos por los que puede ser necesario limitar o acotar los valores en un DataFrame. Por ejemplo, eliminar valores atípicos o garantizar la consistencia de los datos. Esto es algo que se puede conseguir mediante asignaciones condicionales de valores, aunque también existe el método clip() que lo permite hacer de una manera más legible y con la que es más … [Leer más...] acerca de Acotar los valores en un DataFrame de Pandas
Análisis de sentimientos en español con spaCy en Python
La semana pasada se vio cómo se puede realizar análisis se sentimientos en inglés con NLTK. A pesar de que NLTK es una librería muy potente, no cuenta con un lematizador para español, por lo que no es adecuado para trabajar en nuestro idioma. Una alternativa que sí permite realizar análisis de sentimientos en español en Python es spaCy, la cual también es bastante fácil de … [Leer más...] acerca de Análisis de sentimientos en español con spaCy en Python
Análisis de sentimientos con NLTK en Python
La librería de referencia el Python para realizar procesado del lenguaje natural (PLN) es NLTK (Natural Language Toolkit). Lo que se debe a que prácticamente incluye todas las herramientas necesarias para trabajar con PLN, entre las que se incluyen tokenización, lematización, etiquetado gramatical, análisis sintáctico y análisis de sentimientos. Facilitando de esta manera el … [Leer más...] acerca de Análisis de sentimientos con NLTK en Python