Ciencia de datos

La ciencia de datos es un área de conocimiento interdisciplinar en el cual se utilizan procesos para recopilar, preparar, analizar, visualizar y modelar datos para extraer todo su valor. Pudiéndose emplear tanto con conjuntos de datos estructurados como no estructurados. Los científicos de datos, los profesionales de esta área deben poseer grandes conocimientos de estadística e informática. Además de conocimiento de los procesos que están modelando.

Con la ciencia de datos es posible revelar tendencias y obtener información para que tanto las empresas como las instituciones puedan tomar mejores decisiones. Basando estas así en conocimiento validado no en intuiciones.

Las publicaciones de esta sección abarca diferentes temas de áreas como la estadística, la minería de datos, el aprendizaje automático y la analítica predictiva.

Procesadores cuánticos en Machine Learning e Inteligencia Artificial: Transformando el futuro de la tecnología

febrero 12, 2025 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 10 minutos

La computación cuántica es uno de los campos de estudio con mayor potencial para revolucionar la ciencia de la computación, especialmente al permitir abordar problemas que los ordenadores actuales no pueden resolver en tiempo razonable. Los procesadores cuánticos están llamados a una nueva era dentro del campo de la computación. Pero ¿qué hace que esta tecnología sea tan … [Leer más...] acerca de Procesadores cuánticos en Machine Learning e Inteligencia Artificial: Transformando el futuro de la tecnología

Diferencia entre población y muestra: La clave para entender la estadística sin complicaciones

febrero 7, 2025 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 7 minutos

En estadística, existen dos términos que aparecen constantemente, pueden parecer lo mismo, aunque no lo son, y son esenciales para interpretar los resultados: población y muestra. Es importante saber distinguir lo que significa cada uno. Aunque pueden parecer conceptos simples, comprender cada uno es fundamental para interpretar correctamente los resultados de los análisis. … [Leer más...] acerca de Diferencia entre población y muestra: La clave para entender la estadística sin complicaciones

Cómo determinar el número de componentes en PCA usando la varianza explicada acumulada

enero 31, 2025 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 5 minutos

El análisis de componentes principales (PCA, por sus siglas en inglés) es una técnica ampliamente utilizada para reducir la dimensionalidad en conjuntos de datos. Una de las decisiones clave al aplicar PCA es determinar el número de componentes que se deben seleccionar, logrando un equilibrio entre capturar la mayor cantidad de información posible y evitar redundancias … [Leer más...] acerca de Cómo determinar el número de componentes en PCA usando la varianza explicada acumulada

Evaluar similitudes entre señales: Cómo calcular la correlación cruzada con np.correlate() en NumPy

enero 24, 2025 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 9 minutos

En el análisis de señales y series temporales, una de las tareas más comunes es medir la similitud entre dos conjuntos de datos. Este proceso, conocido como correlación cruzada, es fundamental para identificar patrones recurrentes, determinar retrasos entre señales o realizar comparaciones en áreas como el procesamiento de audio, meteorología y finanzas. Sin embargo, calcular … [Leer más...] acerca de Evaluar similitudes entre señales: Cómo calcular la correlación cruzada con np.correlate() en NumPy

Inteligencia artificial generativa en banca: Cinco aplicaciones que están transformando el sector bancario

diciembre 20, 2024 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 16 minutos

La revolución tecnológica impulsada por la inteligencia artificial (IA) está remodelando industrias enteras, y el sector bancario no es una excepción. En el corazón de esta transformación se encuentran los Modelos Avanzados de Lenguaje (LLM, por sus siglas en inglés, Large Language Models). Estas herramientas, como GPT (Generative Pre-trained Transformer), representan una … [Leer más...] acerca de Inteligencia artificial generativa en banca: Cinco aplicaciones que están transformando el sector bancario

Entendiendo el margen de error de las encuestas: Cálculo, interpretación y limitaciones

noviembre 15, 2024 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 5 minutos

Las encuestas son posiblemente la mejor herramienta que existe para obtener información sobre las opiniones, preocupaciones y características de la población. Evitando tener que preguntar a toda la población sobre los diferentes temas de interés, lo que no es práctico. Por eso, son ampliamente utilizadas en investigaciones de mercado, estudios de opinión pública y elecciones, … [Leer más...] acerca de Entendiendo el margen de error de las encuestas: Cálculo, interpretación y limitaciones

Aprendizaje Semisupervisado

noviembre 8, 2024 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 7 minutos

En el campo del Aprendizaje Automático (Machine Learning) los enfoques de aprendizaje se suelen dividir en tres: aprendizaje supervisado, aprendizaje no supervisado y aprendizaje por refuerzo. Siendo los dos primeros los más utilizados. En el aprendizaje supervisado se usan conjuntos de datos etiquetados para entrenar modelos que buscan identificar estas etiquetas. Mientras que … [Leer más...] acerca de Aprendizaje Semisupervisado

Mejores extensiones de VS Code para científicos de datos

octubre 9, 2024 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 6 minutos

Visual Studio Code (VS Code) es uno de los editores de código más populares en la actualidad tanto entre los desarrolladores como científicos de datos. Lo que es debido a que es gratuito, su flexibilidad y capacidad de personalización. Pero si algo se puede destacar de VS Code es su marketplace de extensiones, con las que se puede adaptar el editor para casi cualquier … [Leer más...] acerca de Mejores extensiones de VS Code para científicos de datos

Entendiendo la validación cruzada: Selección de la profundidad óptima en un árbol de decisión

septiembre 13, 2024 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 6 minutos

En aprendizaje automático uno de los mayores desafíos es entrenar modelos que funcionen bien sobre datos nuevos. Evitando que el sobreajuste que un modelo es bueno cuando en realidad solo está memorizado las predicciones. En este punto es cuando entra en juego la técnica de la validación cruzada. En esta entrada, se explicará por qué la validación cruzada es importante, y cómo … [Leer más...] acerca de Entendiendo la validación cruzada: Selección de la profundidad óptima en un árbol de decisión

Los mejores conjuntos de datos para Machine Learning

septiembre 11, 2024 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 5 minutos

Disponer de conjuntos de datos de calidad es crucial para poder construir modelos de aprendizaje automático (Machine Learning) robustos, precisos y funcionales. Como se suele decir “Basura entra, basura sale” (Garbage In-Garbage Out). Esto es algo que se nota especialmente cuando se está aprendiendo a crear modelos de aprendizaje automático, cuando no se dispone de datos reales … [Leer más...] acerca de Los mejores conjuntos de datos para Machine Learning

Detectando anomalías con Angle-Based Outlier Detection (ABOD)

junio 21, 2024 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 6 minutos

La detección de anomalías (también conocidos por su nombre en inglés outliers) son métodos de aprendizaje automático claves en múltiples sectores. Facilitando la identificación de eventos como fraudes, errores en los datos o eventos raros. Entre los métodos existentes para ello, Angle-Based Outlier Detection (ABOD) destaca con un enfoque único al usar los ángulos entre los … [Leer más...] acerca de Detectando anomalías con Angle-Based Outlier Detection (ABOD)

Eliminación de la multicolinealidad con PCA en modelos de regresión

junio 14, 2024 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 7 minutos

En aprendizaje automático, la multicolinealidad es un problema habitual que suele afectar a la precisión y la interpretabilidad de los modelos de regresión. Lo que reduce la utilidad de estos. La multicolinealidad aparece cuando dos o más variables independientes están altamente correlacionadas, dificultando determinar el impacto individual de cada una de estas variables en la … [Leer más...] acerca de Eliminación de la multicolinealidad con PCA en modelos de regresión