El problema de Monty Hall debe su nombre al presentador del popular concurso de televisión "Let's Make a Deal" en el que apareció este juego. Un concursante tiene que escoger entre tres puertas detrás de las que se esconde el premio, en dos de ellas hay una cabra y en la otra un coche. Tras seleccionar una de las puertas Monty Hall, el presentador del programa, abre una de las … [Leer más...] acerca deEl problema de Monty Hall (o de las tres puertas)
Ciencia de datos
La ciencia de datos es un área de conocimiento interdisciplinar en el cual se utilizan procesos para recopilar, preparar, analizar, visualizar y modelar datos para extraer todo su valor. Pudiéndose emplear tanto con conjuntos de datos estructurados como no estructurados. Los científicos de datos, los profesionales de esta área deben poseer grandes conocimientos de estadística e informática. Además de conocimiento de los procesos que están modelando.
Con la ciencia de datos es posible revelar tendencias y obtener información para que tanto las empresas como las instituciones puedan tomar mejores decisiones. Basando estas así en conocimiento validado no en intuiciones.
Las publicaciones de esta sección abarca diferentes temas de áreas como la estadística, la minería de datos, el aprendizaje automático y la analítica predictiva.
La paradoja del cumpleaños
Si tenemos 23 personas en una habitación, ¿cuales son las probabilidades de que por lo menos dos cumplan años el mismo día? Aunque parezca increíble la probabilidad es de un 50%. Siendo este un resultado que se conoce como la paradoja del cumpleaños. De hecho, para obtener una probabilidad del 99,9% solamente es necesario reunir a 75 personas.Calculado las probabilidades en … [Leer más...] acerca deLa paradoja del cumpleaños
La similitud de Jaro–Winkler
La similitud de Jaro–WinklerLa semana pasada hemos se ha visto cómo medir la diferencia entre dos cadenas de texto con la distancia de Levenshtein. Una distancia que mide el número de operaciones necesarias para convertir una cadena de caracteres en otra. Otra distancia que se puede utilizar para medir la similitud entre dos cadenas de texto es la de Jaro–Winkler. Una … [Leer más...] acerca deLa similitud de Jaro–Winkler
La distancia de Levenshtein
Un problema con el que podemos enfrentarnos de forma relativamente habitual es medir el grado de similitud de dos registros. Cuando los registros con los que trabajamos contienen valores numéricos una de las primeras opciones es la distancia euclídea. Pero cuando trabajamos con cadenas de texto deberemos usar otros algoritmos como puede ser el caso de la distancia de … [Leer más...] acerca deLa distancia de Levenshtein
Muestreo en Python
Al trabajar con datos puede que sea necesario realizar una muestra de un conjunto de datos. Esto puede ser porque la totalidad de los datos disponibles sea inmanejable o porque exista un desequilibrio en las clases de los datos. En estos es necesario recurrir al muestreo de los datos. Algunas de las técnicas más utilizadas de muestreo en Python se muestran a … [Leer más...] acerca deMuestreo en Python
Aprendizaje automático para la detección del fraude en seguros
La industria de seguros es un sector muy atractivo para el crimen especializado en fraude. Debido a que, al igual que el caso de banca, las empresas aseguradoras gestionan grandes cantidades de dinero y datos confidenciales de sus asegurados. En este sector, los clientes siempre pueden simular siniestros para acceder al pago de los seguros, lo que puede llevar a grandes … [Leer más...] acerca deAprendizaje automático para la detección del fraude en seguros
Aprendizaje automático para la detección del fraude en comercio electrónico
El comercio electrónico es un área en el que el fraude es cada vez más habitual. Tanto los clientes como los ciberdelincuentes pueden intentar obtener de forma fraudulenta los bienes o servicios comercializados. Afortunadamente este es un sector en el que los datos son abundantes y, por lo tanto, es posible utilizar sistemas de aprendizaje automático para la detección del … [Leer más...] acerca deAprendizaje automático para la detección del fraude en comercio electrónico
Aprendizaje automático para la detección del fraude en banca
Una de las áreas más atractivas para los criminales es el sector bancario, debido a que gestiona grandes cantidades de dinero y datos privados de los clientes. La disponibilidad de datos permite que el aprendizaje automático sea una herramienta clave para la detección del fraude en banca. Ayudando a evitar pérdidas financieras y de reputación tanto para las entidades … [Leer más...] acerca deAprendizaje automático para la detección del fraude en banca
Prueba exacta de Fisher
La semana pasada hemos vistos la prueba de independencia de Chi-cuadrado, con la que se puede comprobar la independencia de dos variables cuantitativas. En dicha entrada se comentó que cuando la frecuencia de alguna de las categorías de las variables es pequeña no es aconsejable emplear esta prueba, sino que se debería usar la prueba exacta de Fisher. La cual vamos a explicar … [Leer más...] acerca dePrueba exacta de Fisher
Prueba de independencia de Chi-cuadrado
En unas entradas anteriores hemos visto los efectos de la multicolinealidad en las variables cuantitativas y como identificar la relación mediante el uso de VIF. Para las variables categóricas también existen pruebas para comprobar si existe relación entre dos, es decir, si los valores de una variable cualitativa dependen de otra. Uno de la prueba más populares es la prueba de … [Leer más...] acerca dePrueba de independencia de Chi-cuadrado
Cursos on-line para comenzar en ciencia de datos
Ahora que medio mundo se encuentra confinado por el coronavirus puede ser el momento para realizar cursos con el que aprender nuevas habilidades o reforzar otras. En la situación actual una de las posibles soluciones es realizar un MOOC ya que no requiere asistir a clase y, en una gran cantidad de los casos, se pueden realizar de forma completamente gratuita. Aunque acceder a … [Leer más...] acerca deCursos on-line para comenzar en ciencia de datos
Solucionar la multicolinealidad con VIF
La multicolinealidad es un problema que afecta negativamente a los modelos de regresión. Cuando existe una relación entre algunas de las variables independientes tanto el proceso de entrenamiento como la interpretación de los modelos se hace más complicado. Por un lado, en el entrenamiento existe más de un parámetro que mejorar las predicciones en el mismo sentido, ya que sus … [Leer más...] acerca deSolucionar la multicolinealidad con VIF
Multicolinealidad
La multicolinealidad es un problema que puede afectar negativamente al rendimiento de los modelos de regresión. Afectando tanto a modelos de regresión lineal como logísticos. El problema aparece cuando existe relación entre las variables independientes empleadas en los modelos. Siendo esta correlación un problema porque las variables independientes deberían de ser … [Leer más...] acerca deMulticolinealidad
Medir la similitud de archivos con Python
Una de las grandes ventajas de los sistemas informáticos es la facilidad con la que se puede copiar y modificar los archivos. Cuando tenemos que repetir un análisis que ya hemos realizado previamente, sea este en una hoja de cálculo, un Jupyter Notebook o con cualquier otra herramienta, podemos partir de este y modificar adecuadamente los datos. Esto que nos no reinventar los … [Leer más...] acerca deMedir la similitud de archivos con Python