Ciencia de datos

La ciencia de datos es un área de conocimiento interdisciplinar en el cual se utilizan procesos para recopilar, preparar, analizar, visualizar y modelar datos para extraer todo su valor. Pudiéndose emplear tanto con conjuntos de datos estructurados como no estructurados. Los científicos de datos, los profesionales de esta área deben poseer grandes conocimientos de estadística e informática. Además de conocimiento de los procesos que están modelando.

Con la ciencia de datos es posible revelar tendencias y obtener información para que tanto las empresas como las instituciones puedan tomar mejores decisiones. Basando estas así en conocimiento validado no en intuiciones.

Las publicaciones de esta sección abarca diferentes temas de áreas como la estadística, la minería de datos, el aprendizaje automático y la analítica predictiva.

Cómo Interpretar las Métricas de Fondos de Inversión y ETFs: Guía Completa para Tomar Decisiones Informadas

noviembre 25, 2025 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 15 minutos

La industria de los fondos de inversión y los ETFs genera una enorme cantidad de datos: rentabilidad anualizada, volatilidad, beta, alpha, ratio de Sharpe, R², tracking error… Valores que ya hemos explicado desde un punto de vista estadístico en una guía publicada anteriormente sobre la interpretación de estadísticas para evaluar el rendimiento de fondos y ETFs, así como en la … [Leer más...] acerca de Cómo Interpretar las Métricas de Fondos de Inversión y ETFs: Guía Completa para Tomar Decisiones Informadas

Curiosidad: ¿Por qué se llama “regresión” lineal?

noviembre 20, 2025 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 3 minutos

Un nombre que suena a retroceso… pero que usamos para predecir el futuro: la regresión lineal.Es una de las herramientas más conocidas en estadística y ciencia de datos. Sirve para modelar relaciones entre variables, anticipar resultados y entender tendencias. Pero si te detienes un momento… su nombre parece contradictorio.¿Por qué se llama “regresión”? ¿No se supone … [Leer más...] acerca de Curiosidad: ¿Por qué se llama “regresión” lineal?

Cómo crear un Data Lake en Azure paso a paso

noviembre 13, 2025 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 9 minutos

El volumen de datos que las organizaciones generan y deben manejar crece día a día: transacciones, registros de acceso, dispositivos IoT, interacciones en redes sociales o simplemente los logs de las aplicaciones. Para poder extraer valor de toda esta información es necesario contar con sistemas capaces de almacenar, organizar y procesar grandes volúmenes de datos de forma … [Leer más...] acerca de Cómo crear un Data Lake en Azure paso a paso

Curiosidad: ¿Por qué los datos “raros” son tan valiosos?

noviembre 6, 2025 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 3 minutos

En estadística, los valores atípicos —también llamados outliers— son esos datos que se alejan “demasiado” del resto. Son los números que no encajan, los casos extremos, los que te hacen fruncir el ceño y preguntarte: ¿esto estará mal medido?Durante años se nos ha enseñado a sospechar de los outliers. A corregirlos, suavizarlos o, directamente, eliminarlos del … [Leer más...] acerca de Curiosidad: ¿Por qué los datos “raros” son tan valiosos?

¿Media, mediana o moda en variables ordinales? Guía práctica para el análisis de datos

octubre 28, 2025 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 7 minutos

Cuando comenzamos un análisis de datos, uno de los primeros pasos suele ser resumir las variables mediante medidas de tendencia central: la media, la mediana y la moda. Estas estadísticas nos ayudan a identificar el valor "típico" o más representativo de un conjunto de datos. Sin embargo, no todas las variables son iguales, y la elección de la medida más adecuada depende de la … [Leer más...] acerca de ¿Media, mediana o moda en variables ordinales? Guía práctica para el análisis de datos

Data Lake y Data Warehouse: diferencias, usos y cómo se complementan en la era del dato

octubre 23, 2025 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 10 minutos

Los datos se han convertido en uno de los activos más valiosos para las organizaciones. Su correcta gestión, custodia y acceso son factores clave para mantener la competitividad. Cada interacción digital, cada transacción y cada sensor conectado a Internet generan cantidades ingentes de información. Este fenómeno, conocido como Big Data, ha transformado la forma en que las … [Leer más...] acerca de Data Lake y Data Warehouse: diferencias, usos y cómo se complementan en la era del dato

Curiosidad: ¿Por qué usamos p < 0.05? Un umbral que cambió la historia de la ciencia

octubre 2, 2025 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 3 minutos

En casi cualquier análisis estadístico —ya sea en medicina, psicología, economía o ciencia de datos— hay un valor que aparece como juez supremo: el famoso p < 0.05.Si el valor p es menor que 0.05, decimos que el resultado es ”estadísticamente significativo”. Pero… ¿por qué ese número y no otro como 0.01 o 0.10? ¿Tiene algún fundamento teórico o fue elegido al azar?La … [Leer más...] acerca de Curiosidad: ¿Por qué usamos p < 0.05? Un umbral que cambió la historia de la ciencia

¿Está concentrado el MSCI World? Un análisis con Gini, Lorenz y leyes de potencia

septiembre 30, 2025 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 8 minutos

El MSCI World Index suele presentarse como “la ventana al mundo” para quienes invierten en bolsa. Es uno de los índices más seguidos por inversores y gestores de fondos porque, en teoría, ofrece una exposición global a los mercados desarrollados. Reúne en torno a 1500 empresas de gran y mediana capitalización repartidas en 23 países, desde Estados Unidos hasta Europa y … [Leer más...] acerca de ¿Está concentrado el MSCI World? Un análisis con Gini, Lorenz y leyes de potencia

Curiosidad: La maldición de la dimensionalidad, o por qué añadir más datos puede empeorar tu modelo

septiembre 25, 2025 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 3 minutos

En el mundo del análisis de datos solemos escuchar una idea poderosa: cuantos más datos, mejor. Más variables, más columnas, más información… ¿qué podría salir mal?Pues bien, existe un fenómeno conocido como la maldición de la dimensionalidad que demuestra que añadir más dimensiones (variables) a un conjunto de datos puede complicarlo todo: desde la visualización hasta el … [Leer más...] acerca de Curiosidad: La maldición de la dimensionalidad, o por qué añadir más datos puede empeorar tu modelo

Curiosidad: La Paradoja de Simpson, o por qué no siempre debes fiarte de los promedios

septiembre 18, 2025 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 3 minutos

En ciencia de datos y estadística, los promedios y porcentajes son herramientas fundamentales para resumir información… pero a veces pueden jugarte una mala pasada. La Paradoja de Simpson es uno de esos casos fascinantes donde los datos nos muestran una verdad a medias, o incluso directamente equivocada, dependiendo de cómo los agrupamos.Se trata de un fenómeno en el que … [Leer más...] acerca de Curiosidad: La Paradoja de Simpson, o por qué no siempre debes fiarte de los promedios

Curiosidad: La Ley de Twyman y la trampa de los datos “interesantes”

septiembre 11, 2025 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 3 minutos

En ciencia de datos, pocas cosas llaman más la atención de los científicos de datos que un valor inesperado, un pico extraño o una correlación sorprendente. Pero cuidado: según la Ley de Twyman (Twyman's law), esos datos que parecen más interesantes… ¡suelen estar mal!Formulada de manera informal por el experto en visualización Tony Twyman, esta regla no escrita … [Leer más...] acerca de Curiosidad: La Ley de Twyman y la trampa de los datos “interesantes”

Cómo calcular el tamaño de la muestra para encuestas

septiembre 9, 2025 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 10 minutos

Calcular adecuadamente el tamaño de la muestra es una parte esencial en el diseño de cualquier encuesta seria. Este paso es fundamental para garantizar que los resultados obtenidos no solo reflejan de forma representativa la realidad de la población, sino que también sean estadísticamente significativos y confiables. Una muestra bien calculada permite optimizar el uso de … [Leer más...] acerca de Cómo calcular el tamaño de la muestra para encuestas