Opinión

Probabilidades y tests: por qué un resultado positivo no significa lo que crees

Hoy en día es habitual someterse a múltiples pruebas o tests y, por tanto, recibir con frecuencia una confirmación como esta: «Tu test ha dado positivo». En ese momento, da igual el tipo de prueba: la detección de un contaminante, un sensor de seguridad o una prueba médica rutinaria. Nuestra atención se fija inmediatamente en esa palabra: positivo.

Y entonces la mente empieza a rellenar los huecos: «¿Significa esto que realmente tengo el problema? ¿Hasta qué punto puedo confiar en este resultado? ¿Puede estar equivocándose?»

Estos pensamientos son completamente normales. Vivimos rodeados de tests y sistemas de detección. No solo los que se realizan en laboratorios o centros de salud, sino también sensores que deciden si debe sonar una alarma, sistemas automáticos que clasifican paquetes, detectores de billetes falsos, filtros de spam en el correo electrónico, algoritmos que marcan una transacción como sospechosa o radares que detectan excesos de velocidad.

Todos estos sistemas tienen algo en común: se equivocan. Ninguno ofrece certezas del 100 %. Sin embargo, en nuestra vida cotidiana solemos interpretar sus resultados como si fueran definitivos: positivo igual a verdadero, negativo igual a falso.

La realidad, sin embargo, es mucho más compleja… y también más fascinante.

En esta entrada te guiaré por ese territorio. Veremos por qué un resultado no es un simple “sí” o “no”, qué factores influyen realmente en la fiabilidad de un test, cómo la prevalencia cambia por completo la interpretación de un resultado y por qué un sistema con un 99 % de precisión puede decirnos una cosa… aunque la realidad sea la contraria.

Prepárate para descubrir cómo funcionan realmente los tests y, sobre todo, cómo interpretarlos sin caer en trampas intuitivas.

Tabla de contenidos

1 El pensamiento intuitivo frente al pensamiento probabilístico
2 Empecemos por lo básico: ¿qué errores puede cometer un test?
- 2.1 Falso positivo (FP)
- 2.2 Falso negativo (FN)
3 Sensibilidad y especificidad: dos conceptos que se parecen, pero no son lo mismo
- 3.1 Sensibilidad: detectar lo que realmente está ahí
- 3.2 Especificidad: ignorar lo que no es un caso positivo
4 La trampa intuitiva: creer que estos valores bastan
5 Prevalencia: la reina silenciosa de los tests
- 5.1 Ejemplo numérico 1: una condición muy rara (1 % de prevalencia)
- 5.2 Ejemplo numérico 2: una condición más frecuente (10 % de prevalencia)
6 Conclusión: los tests no dan certezas, dan información

El pensamiento intuitivo frente al pensamiento probabilístico

Nuestro cerebro no está diseñado para pensar en términos probabilísticos. Requiere entrenamiento y, aun así, incluso la intuición de un estadístico experimentado puede fallar. El cerebro prefiere historias simples: blanco o negro, sí o no, funciona o no funciona. Cuando vemos una luz roja en una máquina, asumimos que hay un fallo. Cuando una alarma no suena, damos por hecho que todo está bien.

La estadística, en cambio, habita en una zona gris. Habla de porcentajes, errores e incertidumbre. Puede resultar incómoda, pero también es liberadora: entender la naturaleza probabilística de los tests nos permite tomar mejores decisiones.

Aquí aparece una idea clave: no basta con conocer la precisión del test. También importa el contexto en el que se aplica. Y ahí entra en juego uno de los conceptos más importantes —y menos conocidos— para el público general: la prevalencia.

Antes de llegar a ella, necesitamos sentar las bases: falsos positivos, falsos negativos, sensibilidad y especificidad. No te preocupes: lo haremos de forma intuitiva.

Empecemos por lo básico: ¿qué errores puede cometer un test?

Cualquier prueba que clasifica algo como “positivo” o “negativo” puede equivocarse de dos maneras.

Falso positivo (FP)

El test dice “positivo”, pero la realidad dice “no”.

Ejemplos cotidianos:

Un detector de humo que se activa mientras cocinas.
Un filtro de spam que marca como sospechoso un correo legítimo.
Un sensor de vibración que dispara una alarma por un golpe accidental.

El problema aquí es que el test ve peligro donde no lo hay.

Falso negativo (FN)

El test dice “negativo”, pero la realidad dice “sí”.

Ejemplos:

Un detector de metales que deja pasar un objeto peligroso.
Una alarma que no se activa ante un fallo real.
Un sistema de control de calidad que no detecta una pieza defectuosa.

Este error suele ser más peligroso: no detectar algo que sí está presente.

Sensibilidad y especificidad: dos conceptos que se parecen, pero no son lo mismo

El error es algo inherente a cualquier proceso de medición o predicción. Siempre que intentamos clasificar, detectar o anticipar un fenómeno, existe la posibilidad de equivocarnos. Ahora bien, la probabilidad de que ese error ocurra no es aleatoria: depende directamente de las características del test que estemos utilizando.

En particular, hay dos conceptos fundamentales que determinan hasta qué punto un test es fiable y nos permiten anticipar cómo y cuándo puede fallar: la sensibilidad y la especificidad. Aunque estos términos suenen técnicos, en realidad son fáciles de comprender si pensamos con claridad qué mide cada uno y en qué situaciones entran en juego.

Sensibilidad: detectar lo que realmente está ahí

La sensibilidad mide la capacidad del test para detectar los casos reales.

Sensibilidad = Probabilidad de que el test dé positivo si la condición está presente.

En términos simples:

Alta sensibilidad → pocos falsos negativos.
Baja sensibilidad → muchos casos reales pasan desapercibidos.

Una analogía útil es la de un dispositivo que debe detectar objetos peligrosos en una cinta transportadora. Si este es muy sensible detectará casi todo. Puede ser algo exagerado, pero rara vez dejará pasar un objeto peligroso.

Especificidad: ignorar lo que no es un caso positivo

La especificidad mide la capacidad del test para no generar falsos positivos.

Especificidad = Probabilidad de que el test dé negativo si la condición NO está presente.

En palabras sencillas:

Alta especificidad → pocos falsos positivos.
Baja especificidad → muchas falsas alarmas.

Piensa en un detector de billetes falsos: si tiene buena especificidad, solo marcará como sospechosos los billetes realmente falsos y no “acusará” a billetes auténticos por pequeños defectos.

La trampa intuitiva: creer que estos valores bastan

Aquí aparece uno de los errores más comunes:

«Si un test tiene un 99 % de sensibilidad y un 99 % de especificidad, entonces un resultado positivo significa que tengo un 99 % de probabilidad de que sea cierto».

Esto no es correcto. De hecho, puede ser completamente falso. Falta una pieza clave: la frecuencia real del fenómeno, es decir, su prevalencia.

Prevalencia: la reina silenciosa de los tests

La prevalencia es la proporción real de casos en una población.

Por ejemplo:

Si solo 1 de cada 1.000 piezas es defectuosa, la prevalencia es del 0,1 %.
Si 10 de cada 100 semáforos fallan, la prevalencia es del 10 %.
Si un tipo de error aparece en el 0,5 % de las máquinas, esa es su prevalencia.

¿Por qué es tan importante? Porque determina cuántos casos reales existen antes de aplicar el test.

Aquí aparece una idea contraintuitiva:

Cuando la prevalencia es muy baja, incluso un test excelente puede generar tantos falsos positivos como verdaderos positivos.

Veámoslo con números.

Ejemplo numérico 1: una condición muy rara (1 % de prevalencia)

Supongamos una condición X que aparece en el 1 % de la población y un test con:

Sensibilidad: 99 %
Especificidad: 99 %

En una población de 10.000 personas:

Con la condición: 100
Sin la condición: 9.900

Resultados del test:

Entre quienes sí tienen la condición:

Verdaderos positivos: 99
Falsos negativos: 1

Entre quienes no la tienen:

Falsos positivos: 99
Verdaderos negativos: 9.801

Resultado final:

Positivos reales: 99
Positivos falsos: 99

La probabilidad real de que un positivo sea verdadero es del 50 %.

Ejemplo numérico 2: una condición más frecuente (10 % de prevalencia)

Ahora la condición aparece en el 10 %:

Con la condición: 1000
Sin la condición: 9000

Resultados:

Verdaderos positivos: 990
Falsos negativos: 10
Falsos positivos: 90

Ahora, de 1080 positivos totales:

990 son reales

La probabilidad de que un positivo sea verdadero es aproximadamente del 91,7 %.

Conclusión: los tests no dan certezas, dan información

Los tests son linternas que iluminan la realidad, pero no la muestran completa. Un resultado positivo no equivale a un diagnóstico, ni uno negativo garantiza seguridad absoluta.

Interpretar correctamente un test requiere entender qué sabíamos antes de realizarlo.

Aceptar que vivimos en un mundo probabilístico no nos debilita: nos permite tomar decisiones más razonables, más informadas y, en última instancia, más humanas.

Nota: Las imágenes de este artículo fueron generadas utilizando un modelo de inteligencia artificial.

Daniel Rodríguez

Next JSON en bases de datos: cuándo es buena idea y cuándo no »

Previous « Faker en Python: qué es, para qué sirve y cómo generar datos sintéticos realistas

Published by

Daniel Rodríguez

Tags: Estadística

5 meses ago

Las fórmulas con DNI, o cómo dividir cualquier cosa entre cualquier otra cosa puede acabar publicado en un titular serio – El bestiario de los indicadores económicos absurdos (parte 5)
En las cuatro entregas anteriores recorrimos los disparates más folclóricos del género: faldas que predicen…
El bestiario de los indicadores económicos absurdos: El zoo patrio
Cualquier país desarrollado tiene sus propios indicadores folclóricos. España, por motivos que tienen mucho que…
Augurios deportivos y portadas malditas, o cuando The Economist predice mejor al revés – El bestiario de los indicadores económicos absurdos (parte 3)
Cerramos la serie internacional con la categoría más estrambótica de todas: indicadores que predicen el…

Lanzamos el video de ScoreFlow: crea scorecards de crédito de forma ágil y sin IT

En Analytics Lane seguimos apostando por desarrollar herramientas que simplifiquen el trabajo de analistas y…

23 horas ago

Ciencia de datos

Data Leakage en Credit Scoring: El Error que Invalida tu Modelo

Imagina que construyes un scorecard con un Gini de 0,85. Un resultado extraordinario, muy por…

2 días ago

Opinión

Las fórmulas con DNI, o cómo dividir cualquier cosa entre cualquier otra cosa puede acabar publicado en un titular serio – El bestiario de los indicadores económicos absurdos (parte 5)

En las cuatro entregas anteriores recorrimos los disparates más folclóricos del género: faldas que predicen…

7 días ago

Noticias

Analytics Lane lanza ScoreFlow, un SaaS para construir y desplegar scorecards de crédito

En Analytics Lane seguimos evolucionando nuestras herramientas y damos un paso más con el lanzamiento…

1 semana ago

Ciencia de datos

DBSCAN y la selección de ε: teoría, intuición y aplicación práctica

Cuando hablamos de clustering, lo primero que viene a la mente suele ser k-means. Pero…