Imagina que construyes un modelo de credit scoring y obtienes un Gini de 0,65. Un resultado excelente por cualquier estándar de la industria. Lo validas en el conjunto de test y el Gini se mantiene en 0,62. Publicas el modelo, lo pones en producción y empiezas a usarlo para tomar decisiones de crédito.Seis meses después el departamento de riesgo detecta un problema: las … [Leer más...] acerca de Calibración vs Discriminación en Credit Scoring: diferencias clave y cómo evaluarlas
Ciencia de datos
La ciencia de datos es un área de conocimiento interdisciplinar en el cual se utilizan procesos para recopilar, preparar, analizar, visualizar y modelar datos para extraer todo su valor. Pudiéndose emplear tanto con conjuntos de datos estructurados como no estructurados. Los científicos de datos, los profesionales de esta área deben poseer grandes conocimientos de estadística e informática. Además de conocimiento de los procesos que están modelando.
Con la ciencia de datos es posible revelar tendencias y obtener información para que tanto las empresas como las instituciones puedan tomar mejores decisiones. Basando estas así en conocimiento validado no en intuiciones.
Las publicaciones de esta sección abarca diferentes temas de áreas como la estadística, la minería de datos, el aprendizaje automático y la analítica predictiva.
Ley de Benford: cómo detectar datos manipulados con ejemplos reales
En un mundo donde los datos se han convertido en el lenguaje dominante de la toma de decisiones, surge una pregunta inevitable: ¿cómo podemos saber si esos datos son realmente fiables?Más allá de técnicas complejas de auditoría o análisis forense, existe una herramienta sorprendentemente simple, elegante y poderosa que permite detectar posibles manipulaciones en conjuntos … [Leer más...] acerca de Ley de Benford: cómo detectar datos manipulados con ejemplos reales
Síndrome del objeto brillante en ciencia de datos: el error simétrico a los costes hundidos
Hace poco publiqué una entrada en la que trataba de un sesgo bien documentado: aferrarse a sistemas existentes porque el esfuerzo pasado pesa más de lo que debería en la toma de decisión. La falacia del coste hundido aplicada a modelos de aprendizaje automático en producción produce inercia técnica, deuda acumulada, y decisiones de mantenimiento que se justifican con argumentos … [Leer más...] acerca de Síndrome del objeto brillante en ciencia de datos: el error simétrico a los costes hundidos
De la Regresión Logística al Scorecard: La Transformación Matemática
En un entrada previa explicamos qué son el WOE y el IV y por qué son la base matemática del credit scoring. En esta entrada vamos un paso más alla: una vez que tenemos las variables transformadas a WOE y hemos ajustado la regresión logística, ¿cómo convertimos los coeficientes estadísticos en una tabla de puntos que cualquier analista puede aplicar con una hoja de … [Leer más...] acerca de De la Regresión Logística al Scorecard: La Transformación Matemática
Interés compuesto: la fuerza que multiplica tu dinero (y los errores que la anulan)
“El interés compuesto es la octava maravilla del mundo. El que lo entiende lo gana y el que no lo paga.” La cita se atribuye a Einstein, aunque probablemente nunca la dijo. No importa, la idea es correcta y el hecho de que se le atribuya a Einstein dice algo sobre cómo percibimos este concepto: como algo casi mágico, reservado para los genios.No es magia. Es aritmética. … [Leer más...] acerca de Interés compuesto: la fuerza que multiplica tu dinero (y los errores que la anulan)
Costes hundidos en ciencia de datos: cuándo mantener un modelo y cuándo migrar
Imagina la situación. Tu equipo lleva tres años con un modelo en producción. No es el estado del arte, pero funciona: predice razonablemente bien, el pipeline de datos está estabilizado, el sistema de monitorización detecta la mayoría de las derivas, y todo el mundo sabe cómo tocarlo sin romper nada. Es el tipo de sistema que genera confianza silenciosa — nadie habla de él … [Leer más...] acerca de Costes hundidos en ciencia de datos: cuándo mantener un modelo y cuándo migrar
WOE e IV: La Base Matemática del Credit Scoring
Cuando un banco evalúa una solicitud de crédito necesita responder a una pregunta aparentemente simple: ¿cuál es la probabilidad de que este cliente no pague? Para responderla dispone de decenas de variables sobre el solicitante — sus ingresos, su edad, el importe que solicita — pero esas variables tienen escalas, unidades y distribuciones completamente distintas. ¿Cómo … [Leer más...] acerca de WOE e IV: La Base Matemática del Credit Scoring
Exactitud, precisión, recall… y los errores que cometemos al interpretarlas en proyectos reales
En dos artículos anteriores hemos intentado explicar qué mide cada métrica de clasificación desde una perspectiva conceptual e intuitiva y cuál deberíamos usar para el problema que queremos resolver en cada caso, viendo a qué pregunta responde cada una de las métricas. En concreto, se han visto los siguientes puntos:Como se puede apreciar, son preguntas distintas. Y, por … [Leer más...] acerca de Exactitud, precisión, recall… y los errores que cometemos al interpretarlas en proyectos reales
¿Qué métrica deberías mirar: exactitud, precisión o recall? Elegir bien empieza por entender el problema
En una entrada anterior vimos que no existen métricas buenas o malas para los modelos de clasificación, sino preguntas mal planteadas. Cada métrica mide algo distinto: el promedio de aciertos, la fiabilidad al predecir, la capacidad para no dejar escapar casos importantes…Pero, una vez entendido eso, a la hora de evaluar un modelo de clasificación, surge la siguiente … [Leer más...] acerca de ¿Qué métrica deberías mirar: exactitud, precisión o recall? Elegir bien empieza por entender el problema
Exactitud, precisión, recall… qué mide realmente cada métrica (y qué no)
Cuando empezamos a trabajar con modelos de clasificación, una de las primeras cosas que aprendemos es a evaluarlos. Necesitamos saber qué bien funcionan. Y casi siempre lo hacemos mirando números. Porcentajes. Métricas con nombres que suenan técnicos y fiables: exactitud, precisión, recall, F1…Pero aquí surge un problema: no el uso de métricas, sino creer que todas miden lo … [Leer más...] acerca de Exactitud, precisión, recall… qué mide realmente cada métrica (y qué no)
Roles en ciencia de datos: Guía completa de perfiles técnicos
En la era digital, los datos se han convertido en uno de los activos más valiosos para cualquier organización. Desde pequeñas startups hasta grandes corporaciones, las empresas buscan transformar sus datos en conocimiento para tomar decisiones más inteligentes, entender mejor a sus clientes y obtener ventajas competitivas. De hecho, en muchas compañías, los datos pueden ser tan … [Leer más...] acerca de Roles en ciencia de datos: Guía completa de perfiles técnicos
JSON en bases de datos: cuándo es buena idea y cuándo no
En los últimos años, el uso de campos JSON en bases de datos ha pasado de ser una rareza técnica a convertirse en una práctica habitual. Prácticamente todos los grandes sistemas gestores de bases de datos relacionales —PostgreSQL, MySQL, SQL Server u Oracle— incorporan hoy tipos de datos específicos para JSON, junto con funciones avanzadas de consulta, indexación y manipulación … [Leer más...] acerca de JSON en bases de datos: cuándo es buena idea y cuándo no











