Al leer las conclusiones de un estudio científico, es común encontrarse con afirmaciones como “el resultado fue estadísticamente significativo” o “no se encontraron diferencias significativas”. Pero, ¿qué significan realmente estas expresiones? Y, quizá más importante, ¿cómo se llega a esa conclusión? Detrás de estas frases, presentes en estudios de medicina, economía y muchos … [Leer más...] acerca de Comprender las pruebas de hipótesis para no especialistas
Ciencia de datos
La ciencia de datos es un área de conocimiento interdisciplinar en el cual se utilizan procesos para recopilar, preparar, analizar, visualizar y modelar datos para extraer todo su valor. Pudiéndose emplear tanto con conjuntos de datos estructurados como no estructurados. Los científicos de datos, los profesionales de esta área deben poseer grandes conocimientos de estadística e informática. Además de conocimiento de los procesos que están modelando.
Con la ciencia de datos es posible revelar tendencias y obtener información para que tanto las empresas como las instituciones puedan tomar mejores decisiones. Basando estas así en conocimiento validado no en intuiciones.
Las publicaciones de esta sección abarca diferentes temas de áreas como la estadística, la minería de datos, el aprendizaje automático y la analítica predictiva.
El promedio engañoso: cuando la media no cuenta toda la historia
Al escuchar frases como “el salario promedio es de 2000 €” o “la nota media del alumnado fue de 7”, solemos imaginar que la mayoría de las personas está cerca de ese valor. Pero la realidad rara vez es tan simple. El promedio —o media— puede ocultar grandes desigualdades y dar una imagen distorsionada de la realidad que pretender resumir.En estadística existen varias … [Leer más...] acerca de El promedio engañoso: cuando la media no cuenta toda la historia
El sesgo en las encuestas: cómo y por qué ocurre, y qué podemos hacer para detectarlo
Las encuestas son una herramienta fundamental para conocer la opinión de la población, entender su comportamiento o analizar fenómenos sociales. Sin embargo, aunque se utilizan ampliamente en investigación, política o marketing, no siempre reflejan fielmente la realidad. En ocasiones, los resultados están distorsionados por sesgos introducidos en su diseño o ejecución: errores … [Leer más...] acerca de El sesgo en las encuestas: cómo y por qué ocurre, y qué podemos hacer para detectarlo
Poka-Yoke para Ciencia de Datos: Cómo prevenir errores antes de que ocurran
En ciencia de datos, muchos errores no se ven hasta que es demasiado tarde: modelos que predicen absurdos, notebooks que se rompen por una entrada inesperada, APIs que fallan en producción por un simple None. ¿Y si te dijera que hay una filosofía japonesa, nacida en las fábricas de Toyota, pensada justamente para prevenir errores antes de que ocurran?Esa filosofía se llama … [Leer más...] acerca de Poka-Yoke para Ciencia de Datos: Cómo prevenir errores antes de que ocurran
Curiosidad: ¿Por qué los test estadísticos siempre parten de que no pasa nada?
Si has leído sobre estadística, seguro has notado que casi todos los tests parten de la idea de que no ocurre nada especial. A esta suposición se le llama hipótesis nula (H₀). Es decir, se comienza asumiendo que no hay ningún efecto, ningún cambio, ninguna diferencia. Y solo si los datos lo contradicen con suficiente fuerza, consideramos que quizá sí está pasando algo.A … [Leer más...] acerca de Curiosidad: ¿Por qué los test estadísticos siempre parten de que no pasa nada?
Cargar datos desde Python a Azure Data Lake
En una entrada anterior vimos cómo crear paso a paso un Data Lake en Azure, configurando los permisos y contenedores necesarios. En esta ocasión, vamos a dar el siguiente paso natural: cargar datos desde Python a Azure Data Lake Storage Gen2, utilizando las librerías oficiales de Microsoft.El objetivo de este tutorial es mostrar cómo un servicio o script en Python puede … [Leer más...] acerca de Cargar datos desde Python a Azure Data Lake
Cómo Interpretar las Métricas de Fondos de Inversión y ETFs: Guía Completa para Tomar Decisiones Informadas
La industria de los fondos de inversión y los ETFs genera una enorme cantidad de datos: rentabilidad anualizada, volatilidad, beta, alpha, ratio de Sharpe, R², tracking error… Valores que ya hemos explicado desde un punto de vista estadístico en una guía publicada anteriormente sobre la interpretación de estadísticas para evaluar el rendimiento de fondos y ETFs, así como en la … [Leer más...] acerca de Cómo Interpretar las Métricas de Fondos de Inversión y ETFs: Guía Completa para Tomar Decisiones Informadas
Curiosidad: ¿Por qué se llama “regresión” lineal?
Un nombre que suena a retroceso… pero que usamos para predecir el futuro: la regresión lineal.Es una de las herramientas más conocidas en estadística y ciencia de datos. Sirve para modelar relaciones entre variables, anticipar resultados y entender tendencias. Pero si te detienes un momento… su nombre parece contradictorio.¿Por qué se llama “regresión”? ¿No se supone … [Leer más...] acerca de Curiosidad: ¿Por qué se llama “regresión” lineal?
Cómo crear un Data Lake en Azure paso a paso
El volumen de datos que las organizaciones generan y deben manejar crece día a día: transacciones, registros de acceso, dispositivos IoT, interacciones en redes sociales o simplemente los logs de las aplicaciones. Para poder extraer valor de toda esta información es necesario contar con sistemas capaces de almacenar, organizar y procesar grandes volúmenes de datos de forma … [Leer más...] acerca de Cómo crear un Data Lake en Azure paso a paso
Curiosidad: ¿Por qué los datos “raros” son tan valiosos?
En estadística, los valores atípicos —también llamados outliers— son esos datos que se alejan “demasiado” del resto. Son los números que no encajan, los casos extremos, los que te hacen fruncir el ceño y preguntarte: ¿esto estará mal medido?Durante años se nos ha enseñado a sospechar de los outliers. A corregirlos, suavizarlos o, directamente, eliminarlos del … [Leer más...] acerca de Curiosidad: ¿Por qué los datos “raros” son tan valiosos?
¿Media, mediana o moda en variables ordinales? Guía práctica para el análisis de datos
Cuando comenzamos un análisis de datos, uno de los primeros pasos suele ser resumir las variables mediante medidas de tendencia central: la media, la mediana y la moda. Estas estadísticas nos ayudan a identificar el valor "típico" o más representativo de un conjunto de datos. Sin embargo, no todas las variables son iguales, y la elección de la medida más adecuada depende de la … [Leer más...] acerca de ¿Media, mediana o moda en variables ordinales? Guía práctica para el análisis de datos
Data Lake y Data Warehouse: diferencias, usos y cómo se complementan en la era del dato
Los datos se han convertido en uno de los activos más valiosos para las organizaciones. Su correcta gestión, custodia y acceso son factores clave para mantener la competitividad. Cada interacción digital, cada transacción y cada sensor conectado a Internet generan cantidades ingentes de información. Este fenómeno, conocido como Big Data, ha transformado la forma en que las … [Leer más...] acerca de Data Lake y Data Warehouse: diferencias, usos y cómo se complementan en la era del dato











