Cuando empezamos a trabajar con modelos de clasificación, una de las primeras cosas que aprendemos es a evaluarlos. Necesitamos saber qué bien funcionan. Y casi siempre lo hacemos mirando números. Porcentajes. Métricas con nombres que suenan técnicos y fiables: exactitud, precisión, recall, F1…Pero aquí surge un problema: no el uso de métricas, sino creer que todas miden lo … [Leer más...] acerca de Exactitud, precisión, recall… qué mide realmente cada métrica (y qué no)
Ciencia de datos
La ciencia de datos es un área de conocimiento interdisciplinar en el cual se utilizan procesos para recopilar, preparar, analizar, visualizar y modelar datos para extraer todo su valor. Pudiéndose emplear tanto con conjuntos de datos estructurados como no estructurados. Los científicos de datos, los profesionales de esta área deben poseer grandes conocimientos de estadística e informática. Además de conocimiento de los procesos que están modelando.
Con la ciencia de datos es posible revelar tendencias y obtener información para que tanto las empresas como las instituciones puedan tomar mejores decisiones. Basando estas así en conocimiento validado no en intuiciones.
Las publicaciones de esta sección abarca diferentes temas de áreas como la estadística, la minería de datos, el aprendizaje automático y la analítica predictiva.
Roles en ciencia de datos: Guía completa de perfiles técnicos
En la era digital, los datos se han convertido en uno de los activos más valiosos para cualquier organización. Desde pequeñas startups hasta grandes corporaciones, las empresas buscan transformar sus datos en conocimiento para tomar decisiones más inteligentes, entender mejor a sus clientes y obtener ventajas competitivas. De hecho, en muchas compañías, los datos pueden ser tan … [Leer más...] acerca de Roles en ciencia de datos: Guía completa de perfiles técnicos
JSON en bases de datos: cuándo es buena idea y cuándo no
En los últimos años, el uso de campos JSON en bases de datos ha pasado de ser una rareza técnica a convertirse en una práctica habitual. Prácticamente todos los grandes sistemas gestores de bases de datos relacionales —PostgreSQL, MySQL, SQL Server u Oracle— incorporan hoy tipos de datos específicos para JSON, junto con funciones avanzadas de consulta, indexación y manipulación … [Leer más...] acerca de JSON en bases de datos: cuándo es buena idea y cuándo no
Probabilidad y decisiones: cómo evitar caer en trampas estadísticas del día a día
La probabilidad está presente en casi todas las decisiones que tomamos, aunque no siempre seamos conscientes de ello. Desde contratar un seguro hasta interpretar un resultado médico, pasando por valorar si una oferta realmente compensa o si un riesgo es tan grande como parece. Sin embargo, nuestra intuición sobre el azar suele fallar y esos fallos pueden llevarnos a cometer … [Leer más...] acerca de Probabilidad y decisiones: cómo evitar caer en trampas estadísticas del día a día
El valor esperado: la mejor herramienta que casi nadie usa
Todos los días tomamos decisiones: contratar un seguro, jugar o no a la lotería, aceptar un tratamiento médico, invertir nuestros ahorros, seguir la ruta habitual o buscar una alternativa para evitar el tráfico… Todas estas decisiones tienen algo en común: implican riesgos, posibles beneficios y, en todos los casos, aparece la probabilidad. Para decidir bien existe una … [Leer más...] acerca de El valor esperado: la mejor herramienta que casi nadie usa
Comprender las pruebas de hipótesis para no especialistas
Al leer las conclusiones de un estudio científico, es común encontrarse con afirmaciones como “el resultado fue estadísticamente significativo” o “no se encontraron diferencias significativas”. Pero, ¿qué significan realmente estas expresiones? Y, quizá más importante, ¿cómo se llega a esa conclusión? Detrás de estas frases, presentes en estudios de medicina, economía y muchos … [Leer más...] acerca de Comprender las pruebas de hipótesis para no especialistas
El promedio engañoso: cuando la media no cuenta toda la historia
Al escuchar frases como “el salario promedio es de 2000 €” o “la nota media del alumnado fue de 7”, solemos imaginar que la mayoría de las personas está cerca de ese valor. Pero la realidad rara vez es tan simple. El promedio —o media— puede ocultar grandes desigualdades y dar una imagen distorsionada de la realidad que pretender resumir.En estadística existen varias … [Leer más...] acerca de El promedio engañoso: cuando la media no cuenta toda la historia
El sesgo en las encuestas: cómo y por qué ocurre, y qué podemos hacer para detectarlo
Las encuestas son una herramienta fundamental para conocer la opinión de la población, entender su comportamiento o analizar fenómenos sociales. Sin embargo, aunque se utilizan ampliamente en investigación, política o marketing, no siempre reflejan fielmente la realidad. En ocasiones, los resultados están distorsionados por sesgos introducidos en su diseño o ejecución: errores … [Leer más...] acerca de El sesgo en las encuestas: cómo y por qué ocurre, y qué podemos hacer para detectarlo
Poka-Yoke para Ciencia de Datos: Cómo prevenir errores antes de que ocurran
En ciencia de datos, muchos errores no se ven hasta que es demasiado tarde: modelos que predicen absurdos, notebooks que se rompen por una entrada inesperada, APIs que fallan en producción por un simple None. ¿Y si te dijera que hay una filosofía japonesa, nacida en las fábricas de Toyota, pensada justamente para prevenir errores antes de que ocurran?Esa filosofía se llama … [Leer más...] acerca de Poka-Yoke para Ciencia de Datos: Cómo prevenir errores antes de que ocurran
Curiosidad: ¿Por qué los test estadísticos siempre parten de que no pasa nada?
Si has leído sobre estadística, seguro has notado que casi todos los tests parten de la idea de que no ocurre nada especial. A esta suposición se le llama hipótesis nula (H₀). Es decir, se comienza asumiendo que no hay ningún efecto, ningún cambio, ninguna diferencia. Y solo si los datos lo contradicen con suficiente fuerza, consideramos que quizá sí está pasando algo.A … [Leer más...] acerca de Curiosidad: ¿Por qué los test estadísticos siempre parten de que no pasa nada?
Cargar datos desde Python a Azure Data Lake
En una entrada anterior vimos cómo crear paso a paso un Data Lake en Azure, configurando los permisos y contenedores necesarios. En esta ocasión, vamos a dar el siguiente paso natural: cargar datos desde Python a Azure Data Lake Storage Gen2, utilizando las librerías oficiales de Microsoft.El objetivo de este tutorial es mostrar cómo un servicio o script en Python puede … [Leer más...] acerca de Cargar datos desde Python a Azure Data Lake
Cómo Interpretar las Métricas de Fondos de Inversión y ETFs: Guía Completa para Tomar Decisiones Informadas
La industria de los fondos de inversión y los ETFs genera una enorme cantidad de datos: rentabilidad anualizada, volatilidad, beta, alpha, ratio de Sharpe, R², tracking error… Valores que ya hemos explicado desde un punto de vista estadístico en una guía publicada anteriormente sobre la interpretación de estadísticas para evaluar el rendimiento de fondos y ETFs, así como en la … [Leer más...] acerca de Cómo Interpretar las Métricas de Fondos de Inversión y ETFs: Guía Completa para Tomar Decisiones Informadas











