Hoy en día, cuando pensamos en ciencia de datos, lo primero que nos viene a la mente suelen ser modelos predictivos complejos, redes neuronales o algoritmos de machine learning que toman decisiones casi mágicas. Sin embargo, uno de los pilares más importantes de esta disciplina moderna tiene raíces mucho más sencillas y humanas: observar, explorar y dejar que los datos hablen por sí mismos.
En los años 60 y 70, el estadístico estadounidense John Tukey —sí, el mismo que inventó el boxplot— comenzó a defender un enfoque innovador para su época: lo que hoy conocemos como análisis exploratorio de datos o EDA (Exploratory Data Analysis). Frente a la rigidez del enfoque estadístico clásico, que se centraba casi exclusivamente en probar hipótesis formales, Tukey proponía algo mucho más visual, intuitivo y abierto: explorar los datos primero, sin ideas preconcebidas.
Una idea revolucionaria para su época
Tukey entendía que, antes de lanzarse a modelar o probar hipótesis, era fundamental mirar los datos: representarlos gráficamente, buscar patrones, detectar valores atípicos, errores o relaciones ocultas. En otras palabras, conocía el poder de simplemente “mirar” y “jugar” con los datos. Su enfoque era una especie de conversación entre el analista y la información.
Este planteamiento quedó plasmado en su libro de 1977, Exploratory Data Analysis, que todavía hoy es considerado una lectura esencial en la estadística moderna. En él, Tukey presentaba herramientas como los histogramas, los diagramas de caja (boxplots), los gráficos de dispersión o los gráficos de tallo y hoja (stem-and-leaf plots), que hoy usamos casi sin pensarlo en cualquier análisis preliminar.

¿El primer científico de datos?
Lo curioso es que, aunque el término “ciencia de datos” no se empezó a popularizar hasta los años 2000, ya en 1962 Tukey escribió un artículo titulado The Future of Data Analysis, en el que anticipaba la transformación de la estadística con la llegada de los ordenadores. Allí decía:
“Los métodos estadísticos deben ser reformulados y adaptados a las nuevas formas de trabajar con datos en el contexto computacional.”
Muchos consideran que ese artículo fue uno de los primeros manifiestos de lo que más tarde conoceríamos como data science. Por eso, hay quien lo llama “el primer científico de datos” de la historia, aunque él nunca se autodenominó así.
Más que una técnica: una actitud
Lo más importante del EDA no son las herramientas en sí, sino la actitud exploratoria. Tukey nos enseñó que los datos no deben forzarse a encajar en un modelo desde el principio, sino que hay que tratarlos con curiosidad, con mente abierta y con una buena dosis de escepticismo.
Así que la próxima vez que abras una hoja de cálculo, traces un gráfico o filtres columnas para “ver qué hay”, recuerda: estás practicando una de las tradiciones más fundamentales —y revolucionarias— de la ciencia de datos. Y todo empezó con un estadístico curioso que decidió mirar los datos antes de juzgarlos.
Nota: La imagen de este artículo fue generada utilizando un modelo de inteligencia artificial.
Deja una respuesta