Opinión

Curiosidad: El origen del análisis exploratorio de datos y el papel de John Tukey

Hoy en día, cuando pensamos en ciencia de datos, lo primero que nos viene a la mente suelen ser modelos predictivos complejos, redes neuronales o algoritmos de machine learning que toman decisiones casi mágicas. Sin embargo, uno de los pilares más importantes de esta disciplina moderna tiene raíces mucho más sencillas y humanas: observar, explorar y dejar que los datos hablen por sí mismos.

En los años 60 y 70, el estadístico estadounidense John Tukey —sí, el mismo que inventó el boxplot— comenzó a defender un enfoque innovador para su época: lo que hoy conocemos como análisis exploratorio de datos o EDA (Exploratory Data Analysis). Frente a la rigidez del enfoque estadístico clásico, que se centraba casi exclusivamente en probar hipótesis formales, Tukey proponía algo mucho más visual, intuitivo y abierto: explorar los datos primero, sin ideas preconcebidas.

Una idea revolucionaria para su época

Tukey entendía que, antes de lanzarse a modelar o probar hipótesis, era fundamental mirar los datos: representarlos gráficamente, buscar patrones, detectar valores atípicos, errores o relaciones ocultas. En otras palabras, conocía el poder de simplemente “mirar” y “jugar” con los datos. Su enfoque era una especie de conversación entre el analista y la información.

Este planteamiento quedó plasmado en su libro de 1977, Exploratory Data Analysis, que todavía hoy es considerado una lectura esencial en la estadística moderna. En él, Tukey presentaba herramientas como los histogramas, los diagramas de caja (boxplots), los gráficos de dispersión o los gráficos de tallo y hoja (stem-and-leaf plots), que hoy usamos casi sin pensarlo en cualquier análisis preliminar.

¿El primer científico de datos?

Lo curioso es que, aunque el término “ciencia de datos” no se empezó a popularizar hasta los años 2000, ya en 1962 Tukey escribió un artículo titulado The Future of Data Analysis, en el que anticipaba la transformación de la estadística con la llegada de los ordenadores. Allí decía:

“Los métodos estadísticos deben ser reformulados y adaptados a las nuevas formas de trabajar con datos en el contexto computacional.”

Muchos consideran que ese artículo fue uno de los primeros manifiestos de lo que más tarde conoceríamos como data science. Por eso, hay quien lo llama “el primer científico de datos” de la historia, aunque él nunca se autodenominó así.

Más que una técnica: una actitud

Lo más importante del EDA no son las herramientas en sí, sino la actitud exploratoria. Tukey nos enseñó que los datos no deben forzarse a encajar en un modelo desde el principio, sino que hay que tratarlos con curiosidad, con mente abierta y con una buena dosis de escepticismo.

Así que la próxima vez que abras una hoja de cálculo, traces un gráfico o filtres columnas para “ver qué hay”, recuerda: estás practicando una de las tradiciones más fundamentales —y revolucionarias— de la ciencia de datos. Y todo empezó con un estadístico curioso que decidió mirar los datos antes de juzgarlos.

Nota: La imagen de este artículo fue generada utilizando un modelo de inteligencia artificial.

¿Te ha parecido de utilidad el contenido?

Daniel Rodríguez

Share
Published by
Daniel Rodríguez
Tags: Curiosidades

Recent Posts

El bestiario de los indicadores económicos absurdos: El zoo patrio

Cualquier país desarrollado tiene sus propios indicadores folclóricos. España, por motivos que tienen mucho que…

4 horas ago

Por qué el banco te ofrece un 3% TAE y no es lo que parece

Entras a la web de tu banco. En la página principal, un banner llamativo: “Depósito…

2 días ago

Analytics Lane lanza la versión 1.3 del laboratorio con nuevas herramientas de evaluación de modelos y utilidades prácticas

Seguimos ampliando el laboratorio de Analytics Lane con el lanzamiento de la versión 1.3, disponible…

6 días ago

Augurios deportivos y portadas malditas, o cuando The Economist predice mejor al revés – El bestiario de los indicadores económicos absurdos (parte 3)

Cerramos la serie internacional con la categoría más estrambótica de todas: indicadores que predicen el…

1 semana ago

El Binning en Credit Scoring: El Arte de Discretizar Variables

Si el WOE y el IV son la base matemática del credit scoring, el binning…

1 semana ago

Analytics Lane lanza la versión 1.2 del laboratorio con nuevas herramientas de ajuste de curvas y cálculo matricial

Seguimos iterando sobre el laboratorio de Analytics Lane y lanzamos la versión 1.2, disponible en:https://www.analyticslane.com/lab/es…

2 semanas ago

This website uses cookies.