En casi cualquier análisis estadístico —ya sea en medicina, psicología, economía o ciencia de datos— hay un valor que aparece como juez supremo: el famoso p < 0.05.Si el valor p es menor que 0.05, decimos que el resultado es ”estadísticamente significativo”. Pero… ¿por qué ese número y no otro como 0.01 o 0.10? ¿Tiene algún fundamento teórico o fue elegido al azar?La … [Leer más...] acerca de Curiosidad: ¿Por qué usamos p < 0.05? Un umbral que cambió la historia de la ciencia
Ciencia de datos
La ciencia de datos es un área de conocimiento interdisciplinar en el cual se utilizan procesos para recopilar, preparar, analizar, visualizar y modelar datos para extraer todo su valor. Pudiéndose emplear tanto con conjuntos de datos estructurados como no estructurados. Los científicos de datos, los profesionales de esta área deben poseer grandes conocimientos de estadística e informática. Además de conocimiento de los procesos que están modelando.
Con la ciencia de datos es posible revelar tendencias y obtener información para que tanto las empresas como las instituciones puedan tomar mejores decisiones. Basando estas así en conocimiento validado no en intuiciones.
Las publicaciones de esta sección abarca diferentes temas de áreas como la estadística, la minería de datos, el aprendizaje automático y la analítica predictiva.
¿Está concentrado el MSCI World? Un análisis con Gini, Lorenz y leyes de potencia
El MSCI World Index suele presentarse como “la ventana al mundo” para quienes invierten en bolsa. Es uno de los índices más seguidos por inversores y gestores de fondos porque, en teoría, ofrece una exposición global a los mercados desarrollados. Reúne en torno a 1500 empresas de gran y mediana capitalización repartidas en 23 países, desde Estados Unidos hasta Europa y … [Leer más...] acerca de ¿Está concentrado el MSCI World? Un análisis con Gini, Lorenz y leyes de potencia
Curiosidad: La maldición de la dimensionalidad, o por qué añadir más datos puede empeorar tu modelo
En el mundo del análisis de datos solemos escuchar una idea poderosa: cuantos más datos, mejor. Más variables, más columnas, más información… ¿qué podría salir mal?Pues bien, existe un fenómeno conocido como la maldición de la dimensionalidad que demuestra que añadir más dimensiones (variables) a un conjunto de datos puede complicarlo todo: desde la visualización hasta el … [Leer más...] acerca de Curiosidad: La maldición de la dimensionalidad, o por qué añadir más datos puede empeorar tu modelo
Curiosidad: La Paradoja de Simpson, o por qué no siempre debes fiarte de los promedios
En ciencia de datos y estadística, los promedios y porcentajes son herramientas fundamentales para resumir información… pero a veces pueden jugarte una mala pasada. La Paradoja de Simpson es uno de esos casos fascinantes donde los datos nos muestran una verdad a medias, o incluso directamente equivocada, dependiendo de cómo los agrupamos.Se trata de un fenómeno en el que … [Leer más...] acerca de Curiosidad: La Paradoja de Simpson, o por qué no siempre debes fiarte de los promedios
Curiosidad: La Ley de Twyman y la trampa de los datos “interesantes”
En ciencia de datos, pocas cosas llaman más la atención de los científicos de datos que un valor inesperado, un pico extraño o una correlación sorprendente. Pero cuidado: según la Ley de Twyman (Twyman's law), esos datos que parecen más interesantes… ¡suelen estar mal!Formulada de manera informal por el experto en visualización Tony Twyman, esta regla no escrita … [Leer más...] acerca de Curiosidad: La Ley de Twyman y la trampa de los datos “interesantes”
Cómo calcular el tamaño de la muestra para encuestas
Calcular adecuadamente el tamaño de la muestra es una parte esencial en el diseño de cualquier encuesta seria. Este paso es fundamental para garantizar que los resultados obtenidos no solo reflejan de forma representativa la realidad de la población, sino que también sean estadísticamente significativos y confiables. Una muestra bien calculada permite optimizar el uso de … [Leer más...] acerca de Cómo calcular el tamaño de la muestra para encuestas
Curiosidad: El origen del análisis exploratorio de datos y el papel de John Tukey
Hoy en día, cuando pensamos en ciencia de datos, lo primero que nos viene a la mente suelen ser modelos predictivos complejos, redes neuronales o algoritmos de machine learning que toman decisiones casi mágicas. Sin embargo, uno de los pilares más importantes de esta disciplina moderna tiene raíces mucho más sencillas y humanas: observar, explorar y dejar que los datos hablen … [Leer más...] acerca de Curiosidad: El origen del análisis exploratorio de datos y el papel de John Tukey
Probabilidad básica: cómo entender el azar en nuestra vida diaria
Vivimos en un mundo lleno de incertidumbre. Cada día tomamos decisiones sin saber con certeza qué ocurrirá. ¿Lloverá esta tarde? ¿Llegaré a tiempo si salgo ahora? ¿Me tocará la lotería alguna vez? Todas estas preguntas tienen algo en común: están relacionadas con la probabilidad. Sin embargo, muchas personas no comprenden bien el concepto de probabilidad ni su relación con el … [Leer más...] acerca de Probabilidad básica: cómo entender el azar en nuestra vida diaria
Correlación y causalidad: no es lo mismo
Vivimos en un mundo saturado de datos, estadísticas, informes y gráficos. Cada día, en los medios de comunicación, las redes sociales o conversaciones cotidianas, escuchamos frases como: "Las personas que hacen ejercicio viven más" o "Los países con mayor consumo de chocolate tienden a tener más premios Nobel". Estas afirmaciones, aunque pueden estar basadas en datos reales y … [Leer más...] acerca de Correlación y causalidad: no es lo mismo
¿Qué es el margen de error en una encuesta y por qué es importante?
Vivimos en una sociedad saturada de datos: encuestas electorales, estudios de mercado, sondeos de opinión y análisis científicos forman parte de nuestro día a día. Sin embargo, muchas veces escuchamos afirmaciones como “el 52% de la población apoya esta propuesta, con un margen de error del ±3%” sin detenernos a pensar qué significa realmente ese margen de error y qué … [Leer más...] acerca de ¿Qué es el margen de error en una encuesta y por qué es importante?
Media, mediana y moda: Descubre cómo interpretar las medidas de tendencia central con ejemplos claros y sin complicaciones
Vivimos en una era de datos. Cada día, tomamos decisiones basadas en cifras: el promedio de notas de una clase, el salario típico en una ciudad, el alquiler promedio, hasta el número de pasos que caminamos según nuestro reloj inteligente. Pero ¿cómo podemos entender y resumir toda esa información de manera clara y útil? Aquí es donde entran las medidas de tendencia central: … [Leer más...] acerca de Media, mediana y moda: Descubre cómo interpretar las medidas de tendencia central con ejemplos claros y sin complicaciones
Los valores numéricos en los ordenadores: Entendiendo enteros, flotantes y más
Los valores numéricos están en el corazón de los ordenadores. Desde los cálculos más simples hasta los modelos más complejos de inteligencia artificial, todo depende de la representación y manipulación de datos numéricos. Sin embargo, lo que a simple vista parece una cuestión trivial es, en realidad, el resultado de décadas de evolución y estandarización.¿Por qué los … [Leer más...] acerca de Los valores numéricos en los ordenadores: Entendiendo enteros, flotantes y más