• Saltar al contenido principal
  • Skip to secondary menu
  • Saltar a la barra lateral principal
  • Saltar al pie de página
  • Inicio
  • Secciones
    • Ciencia de datos
    • Criptografía
    • Herramientas
    • Machine Learning
    • Noticias
    • Opinión
    • Productividad
    • Programación
      • JavaScript
      • Julia
      • Matlab
      • Python
      • R
  • Programación
    • JavaScript
    • Julia
    • Matlab
    • Python
    • R
  • Laboratorio
    • Estadística
      • Calculadora del Tamaño Muestral en Encuestas
      • Calculadora de estadísticos descriptivos
      • Test de normalidad
      • Calculadora de contrastes de hipotesis
      • Calculadora de tamano del efecto
      • Simulador de Regresión Lineal con Ruido
      • Visualizador de PCA
      • Visualizador de Series Temporales
      • Simulador de Regresión Logística
      • Simulador de K-Means
      • Simulador de DBSCAN
      • Detector de la Ley de Benford
    • Probabilidad
      • Calculadora de Probabilidad de Distribuciones
      • Calculadora de Probabilidades de Lotería
      • Simulador del Problema de Monty Hall
      • Simulador de la Estrategia Martingala
    • Finanzas
      • Calculadora de Préstamos e Hipotecas
      • Conversor TIN ↔ TAE
      • Calculadora DCA con ajuste por inflación
      • Calculadora XIRR con Flujos Irregulares
      • Simulador FIRE (Financial Independence, Retire Early)
    • Negocios
      • CLV
      • Scoring
    • Herramientas
      • Formateador / Minificador de JSON
      • Conversor CSV ↔ JSON
      • Comparador y Formateador de Texto y JSON
      • Formateador y Tester de Expresiones Regulares
      • Inspector de JWT
      • Generador y verificador de hashes
      • Codificador / Decodificador Base64 y URL
      • Conversor de bases numericas
      • Conversor de Timestamp Unix
      • Conversor de colores
      • Generador de UUIDs
    • Juegos
      • Tres en Raya
      • Nim con Q-Learning
    • Más
      • Método D’Hondt
      • Generador de Contraseñas Seguras
  • Noticias
  • Boletín
  • Contacto
  • Tienda
    • Libros
    • Equipamiento de oficina
    • Equipamiento en movilidad

Analytics Lane

Ciencia e ingeniería de datos aplicada

  • Ciencia de datos
  • Machine Learning
  • IA Generativa
  • Python
  • Pandas
  • NumPy
  • R
  • Excel

Reglas de asociación y market-basket analysis

agosto 31, 2018 Por Daniel Rodríguez 2 comentarios
Tiempo de lectura: 5 minutos

Las reglas de asociación permiten encontrar patrones comunes en los elementos de grandes conjuntos de datos. Una de las principales aplicaciones de esta técnica es el análisis de la cesta de la compra (market-basket analysis). Mediante el cual se pude identificar los productos que se compra de forma conjunta en una tienda.

Uno de los ejemplos más citado sobre los resultados de los análisis de la cesta de la compra es caso “cerveza y pañales”. La historia es que una gran cadena observo que los clientes que compraban cerveza y pañales al mismo tiempo. Posiblemente no sea más que una leyenda urbana de la ciencia de datos. Sin embargo es uno de los ejemplos más reconocidos de los resultados que se pueden obtener con este tipo de análisis.

Tabla de contenidos

  • 1 Introducción a las reglas de asociación
    • 1.1 Soporte
    • 1.2 Confianza
    • 1.3 Mejora de la confianza
  • 2 Implementación en Python: MLxtend
    • 2.1 Importación de los datos
    • 2.2 Obtención de la reglas de asociación
    • 2.3 Interpretación de los resultados
  • 3 Conclusiones

Introducción a las reglas de asociación

Las reglas de asociación generalmente se escriben de la forma:

\{Antecedente\} \implies \{Consecuente\}

Esto indica que existe una relación entre los clientes que compran el antecedente y el consecuente en la misma transacción. La fuerza y el sentido de la relación se mide con diferentes indicadores: el soporte, la confianza y la mejora de la confianza.

Soporte

El soporte es la frecuencia relativa con la que se observa la regla. Es decir, un soporte de 0.15 indica que el antecedente y el consecuente se observan a la vez en el 15% de las transacciones. Este indicado mide la fuerza de la regla. Al ser un porcentaje, los posibles valores del soporte se encuentran entre 0 y 1.

Nuevo test de normalidad interactivo en el laboratorio de Analytics Lane
En Analytics Lane
Nuevo test de normalidad interactivo en el laboratorio de Analytics Lane

Publicidad


Confianza

La confianza es el porcentaje de las transacciones en las que aparece el antecedente en la que también aparece el consecuente. Lo que mide este indicador es la fiabilidad de la regla. Matemáticamente se puede obtener utilizando la expresión

conf(\{Antecedente\} \implies \{Consecuente\}) = \frac{conf(\{Antecedente, Consecuente\})}{conf(\{Antecedente\})}

En donde conf(\{Antecedente\} \implies \{Consecuente\}) es la confianza de los registros en los que aparece a la vez el antecedente y consecuente. En un ejemplo en el que se tenga 100 registros con el antecedente, 200 con el consecuente y 80 con ambos se obtiene una confianza de 0,8 para la regla \{Antecedente\} \implies \{Consecuente\}. Por otro lado, la regla \{Consecuente\} \implies \{Antecedente\} tiene el mismo soporte, pero una confianza de 0,4. Lo que indica que la primera regla tiene más fuerza que la segunda. Siendo el antecedente el que induce la aparición del consecuente y no al revés. Al igual que el soporte, el valor de la confianza solamente puede tener valores entre 0 y 1.

Mejora de la confianza

Finalmente, la mejora de la confianza es la fracción de soporte de la regla respecto al que se observaría en caso de independía. Matemáticamente se puede obtener utilizando la expresión

conf(\{Antecedente\} \implies \{Consecuente\}) = \frac{conf(\{Antecedente, Consecuente\})}{conf(\{Antecedente\}) \times conf(\{Consecuente\})}

Valores cercanos a 1 indica que la regla no se puede diferenciar del azar. A medida que aumenta el valor la regla es más interesante ya que no se puede justificar únicamente por el azar.

Implementación en Python: MLxtend

A la hora de implementar un algoritmo de aprendizaje automático en Python generalmente la primera idea suele ser buscarlo en scikit-learn. Desgraciadamente la librería no contiene este tipo de algoritmos. Afortunadamente, la biblioteca MLxtend de Sebastian Raschka tiene una implementación del algoritmo Apriori para obtener reglas de asociación a partir de los datos. Para poder utilizarlo simplemente se ha de instalar la libraría empleando pip:

pip install mlxtend

Publicidad


Importación de los datos

Para trabajar se puede importa datos desde el repositorio de datos para aprendizaje automático de la Universidad de California, Irvine. El conjunto de datos se encuentra en formato de Microsoft Excel, por lo que se puede cargar utilizando las funciones de pandas para archivos xls.

import pandas as pd

df = pd.read_excel('http://archive.ics.uci.edu/ml/machine-learning-databases/00352/Online%20Retail.xlsx')
df.head()
Registros Online Retail

El conjunto de datos no se puede utilizar tal como esta. Por ejemplo, las descripciones contienen espacios que ha de ser eliminados. Las filas que no tienen número de facturas no se pueden utilizar ya que no se identifica la transacción.

df['Description'] = df['Description'].str.strip()
df.dropna(axis=0, subset=['InvoiceNo'], inplace=True)
df['InvoiceNo'] = df['InvoiceNo'].astype('str')

Para acelerar los cálculos se van a utilizar únicamente los datos correspondientes a España. La implementación del método apriori requiere que los datos se encuentren en un dataframe. Cada una de las filas representa una factura y cada una de las columnas un producto. Esto se puede conseguir utilizando el siguiente código:

basket = (df[df['Country']=="Spain"]
          .groupby(['InvoiceNo', 'Description'])['Quantity']
          .sum().unstack().reset_index().fillna(0)
          .set_index('InvoiceNo'))

basket.drop('POSTAGE', inplace=True, axis=1)

Puede observase que se ha eliminado la columna ` POSTAGE` ya que prácticamente es un ítem que aparece en todas las facturas.

Obtención de la reglas de asociación

Ahora se pude utilizar la función `apriori` para obtener los productos con un mínimo de soporte.

from mlxtend.frequent_patterns import apriori

frequent_itemsets = apriori(basket > 0, min_support=0.06, use_colnames=True)
frequent_itemsets.head()
Valores del soporte obtenidos

A continuación, se pueden obtener las reglas que superen además un mínimo de confianza:

from mlxtend.frequent_patterns import association_rules

rules = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.8)
rules.head()
Reglas de asociación basadas en la confianza

O un mínimo de soporte:

rules = association_rules(frequent_itemsets, metric="lift", min_threshold=1)
rules.head()
Reglas de asociación basadas en la mejora de la confianza

Interpretación de los resultados

Los resultados que se han obtenido dicen cosas interesantes. Analizando la primera regla se puede observar que los clientes que han comprado "6 RIBBONS RUSTIC CHARM" también aparece "ASSORTED COLOUR BIRD ORNAMENT" con un soporte de 0,085 y una confianza de 0,6. Esto indica que en el 8,5% de las transacciones contienen ambas referencias. Además, la confianza indica que en el 60% de los casos que se compra "6 RIBBONS RUSTIC CHARM" también aparece "ASSORTED COLOUR BIRD ORNAMENT". La mejora de la confianza de 5,25 indica que cuando aparece “6 RIBBONS RUSTIC CHARM” aparece la otra referencia cinco veces más de lo que se podría esperar por azar.

Publicidad


Conclusiones

En esta entrada se han vistos los fundamente de las reglas de asociación. Estas se han utilizado para realizar un análisis de la cesta de la compra (market-basket analysis). Finalmente se han interpretado los resultados obtenidos, descubriendo lo que estos quieren decir.

Imágenes: Pixabay

¿Te ha parecido de utilidad el contenido?

¡Puntúalo entre una y cinco estrellas!

Puntuación promedio 5 / 5. Votos emitidos: 1

Ya que has encontrado útil este contenido...

¡Síguenos en redes sociales!

¡Siento que este contenido no te haya sido útil!

¡Déjame mejorar este contenido!

Dime, ¿cómo puedo mejorar este contenido?

Publicaciones relacionadas

  • Nuevo test de normalidad interactivo en el laboratorio de Analytics Lane
  • Nuevo conversor de timestamp Unix en el laboratorio de Analytics Lane
  • Calculadora de Contrastes de Hipótesis: interpreta correctamente el p-valor y toma decisiones estadísticas con confianza
  • Calculadora de Tamaño del Efecto: la herramienta clave para entender cuánto importa realmente una diferencia
  • Simulador de DBSCAN: descubre cómo encontrar clusters reales (y ruido) sin fijar K
  • Conversor de Colores: convierte, compara y valida cualquier color en tiempo real
  • Analytics Lane lanza su Generador de UUIDs: identificadores únicos, seguros y listos para producción en segundos
  • 1200 publicaciones en Analytics Lane
  • Analytics Lane lanza su Conversor TIN ↔ TAE: la herramienta definitiva para entender el coste real de depósitos, préstamos e hipotecas

Publicado en: Ciencia de datos Etiquetado como: Machine learning

Interacciones con los lectores

Comentarios

  1. eva dice

    noviembre 15, 2019 a las 12:31 pm

    Muy interesante!

    Soy nueva en eso y tengo una pregunta ¿Que significa basket > ?

    Responder
    • Daniel Rodríguez dice

      noviembre 15, 2019 a las 2:23 pm

      El termino “market-basket analysis” es análisis de la cesta de la compra.

      Responder

Deja una respuesta Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

I accept the Terms and Conditions and the Privacy Policy

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Barra lateral principal

Suscríbete a nuestro boletín

Suscríbete al boletín semanal para estar al día de todas las publicaciones.

Política de Privacidad

Analytics Lane en redes sociales

  • Amazon
  • Bluesky
  • Facebook
  • GitHub
  • Instagram
  • Mastodon
  • Pinterest
  • RSS
  • Telegram
  • Tumblr
  • Twitter
  • YouTube

Publicidad

Entradas recientes

Interés compuesto: la fuerza que multiplica tu dinero (y los errores que la anulan)

mayo 14, 2026 Por Daniel Rodríguez

Cómo comparar datos con barras en Matplotlib: agrupadas, apiladas y porcentuales

mayo 12, 2026 Por Daniel Rodríguez

Costes hundidos en ciencia de datos: cuándo mantener un modelo y cuándo migrar

mayo 7, 2026 Por Daniel Rodríguez

Publicidad

Es tendencia

  • Solución al error Failed to download metadata for repo ‘AppStream’ en CentOS 8 publicado el septiembre 13, 2023 | en Herramientas
  • Hoja de cálculo para repartir los escaños en base al método D’Hont Aplicar el método D’Hondt en Excel publicado el abril 14, 2021 | en Herramientas
  • Matriz definida positiva en Excel Comprobar si una matriz es definida positiva en Excel sin macros publicado el octubre 18, 2023 | en Ciencia de datos, Herramientas
  • Identificar y eliminar duplicados en Excel publicado el marzo 13, 2019 | en Herramientas
  • Uso de múltiples ejes en Matplotlib publicado el agosto 4, 2022 | en Python

Publicidad

Lo mejor valorado

4.9 (24)

Seleccionar filas y columnas en Pandas con iloc y loc

4.6 (16)

Archivos JSON con Python: lectura y escritura

4.4 (14)

Ordenación de diccionarios en Python mediante clave o valor

4.7 (13)

Operaciones de filtrado de DataFrame con Pandas en base a los valores de las columnas

4.9 (11)

Pandas: Cambiar los tipos de datos en los DataFrames

Comentarios recientes

  • bif en JSON en bases de datos: cuándo es buena idea y cuándo no
  • bif en Cómo desinstalar Oracle Database 19c en Windows
  • M. Pilar en Cómo eliminar las noticias en Windows 11 y recuperar tu concentración
  • Daniel Rodríguez en Probabilidad básica: cómo entender el azar en nuestra vida diaria
  • Pepe en Probabilidad básica: cómo entender el azar en nuestra vida diaria

Publicidad


Footer

Analytics Lane

  • Acerca de Analytics Lane
  • Boletín de noticias
  • Contacto
  • Libros
  • Lo más popular
  • Noticias
  • Tienda
  • Tiendas afiliadas

Secciones

  • Ciencia de datos
  • Criptografía
  • Herramientas
  • Machine Learning
  • Opinión
  • Productividad
  • Programación
  • Reseñas

Sobre de Analytics Lane

En Analytics Lane tratamos de explicar los principales conceptos de la ciencia e ingeniería de datos con un enfoque práctico. Los principales temas tratados son ciencia de datos, ingeniería de datos, inteligencia artificial, machine learning, deep learning y criptografía. Además, también se habla de los principales lenguajes de programación y herramientas utilizadas por los científicos e ingenieros de datos.

Copyright © 2018-2026 Analytics Lane ·Términos y condiciones ·Política de Cookies ·Política de Privacidad ·Herramientas de privacidad ·Contacto