Multi-Armed Bandit

Librería Python para resolver el Bandido Multibrazo (Multi-Armed Bandit)

junio 25, 2021 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 3 minutos

Durante los últimos meses he estado dedicando las entradas de los viernes a describir diferentes estrategias existentes para abordar los problemas tipo Bandido Multibrazo (Multi-Armed Bandit) e implementarlas en Python. Creando de este modo una colección de código que puede ser interesante para la realización de comparaciones entre algoritmos. Por eso, recientemente he … [Leer más...] acerca de Librería Python para resolver el Bandido Multibrazo (Multi-Armed Bandit)

Comparación de refuerzo (reinforcement comparison) para un problema Bandido Multibrazo (Multi-Armed Bandit)

junio 18, 2021 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 4 minutos

Los métodos de comparación de refuerzo son similares a los métodos de seguimiento que vimos la semana pasada. En los que el bandido con el que se juega se selecciona en cada tirada aleatoriamente en base a unas probabilidades calculadas a partir de las recompensar empíricas.Comparación de refuerzoEn el método de comparación de refuerzo el agente asigna una recompensa … [Leer más...] acerca de Comparación de refuerzo (reinforcement comparison) para un problema Bandido Multibrazo (Multi-Armed Bandit)

Algoritmos de seguimiento (pursuit) para un problema Bandido Multibrazo (Multi-Armed Bandit)

junio 11, 2021 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 5 minutos

Durante las últimas semanas he estado revisando algunas de las versiones de algoritmos UCB (Upper Confidence Bound) más utilizados a la hora de abordar problemas tipo Multi-Armed Bandit. Analizando durante este tiempo una importante cantidad de estos: UCB1, UCB2, UCB1-Tuned, UCB1-Normal, KL-UCB, UCB-V y CP-UCB. En esta ocasión vamos otro tipo de algoritmos como son los de … [Leer más...] acerca de Algoritmos de seguimiento (pursuit) para un problema Bandido Multibrazo (Multi-Armed Bandit)

CP-UCB para un problema Bandido Multibrazo (Multi-Armed Bandit)

junio 4, 2021 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 4 minutos

La familia de algoritmos UCB es una de las que mejores resultados producen a la hora de enfrentarse a problemas tipo bandido multibrazo. En la que en bandido se selecciona teniendo en cuenta el intervalo de confianza de la recompensa empírica. Así no se selecciona el bandido cuya recompensa observada sea la mayor, sino aquel en el que estadísticamente se puede esperar el máximo … [Leer más...] acerca de CP-UCB para un problema Bandido Multibrazo (Multi-Armed Bandit)

UCB-V para un problema Bandido Multibrazo (Multi-Armed Bandit)

mayo 28, 2021 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 3 minutos

El algoritmo UCB-V es una variante de la familia UCB que utiliza la varianza para seleccionar el bandido en problemas tipo Bandido Multibrazo (Multi-Armed Bandit). Un algoritmo genérico que puede ser utilizado en cualquier tipo de bandido.UCB-VEn el algoritmo UCB-V se tiene que seleccionar en cada tirada aquel bandido que maximice la siguiente expresión.Donde es … [Leer más...] acerca de UCB-V para un problema Bandido Multibrazo (Multi-Armed Bandit)

MOSS para un problema Bandido Multibrazo (Multi-Armed Bandit)

mayo 21, 2021 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 3 minutos

MOSS (Minimax Optimal Strategy in the Stochastic case, Estrategia Óptima de Minimax en el caso estocástico) es una variante de UCB1 que se presenta como una aproximación generalizada, de modo que puede ser utilizado con cualquier tipo de bandido.MOSSEn la estrategia MOSS modifica la expresión que calcula en intervalo de confianza. Para ello se sustituye el término en el … [Leer más...] acerca de MOSS para un problema Bandido Multibrazo (Multi-Armed Bandit)

EXP3 para un problema Bandido Multibrazo (Multi-Armed Bandit)

mayo 14, 2021 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 4 minutos

Una estrategia bastante popular para solucionar los problemas tipo Bandido Multibrazo es EXP3. Siendo el nombre es una abreviatura de "Exponential-weight algorithm for Exploration and Exploitation" (Algoritmo de peso Exponencial para Exploración y Explotación). EXP3 se diferencia de otras estrategias populares como Epsilon Greedy o UCB1, siendo un algoritmo más tradicional de … [Leer más...] acerca de EXP3 para un problema Bandido Multibrazo (Multi-Armed Bandit)

KL-UCB para un problema Bandido Multibrazo (Multi-Armed Bandit)

mayo 7, 2021 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 4 minutos

Continuando con el repaso a los principales algoritmos existentes para abordar los problemas tipo Bandido Multibrazo (Multi-Armed Bandit) vamos a ver en esta ocasión KL-UCB. Una versión del UCB donde se utiliza la divergencia de Kullback-Leibler para seleccionar el mejor bandido óptimo en cada jugada.La divergencia de Kullback-LeiblerUna de las medidas más populares … [Leer más...] acerca de KL-UCB para un problema Bandido Multibrazo (Multi-Armed Bandit)

Muestreo de Thompson y BayesUCB para un problema Bandido Multibrazo (Multi-Armed Bandit)

abril 30, 2021 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 6 minutos

El Muestreo de Thompson y BayesUCB son dos algoritmos basados en ideas bayesianas con los que es posible obtener buenos rendimiento en problemas tipo Bandido Multibrazo.Muestreo de ThompsonUno de los algoritmos más antiguos que se utilizan para seleccionar los bandidos en problemas tipo bandido multibrazo es el Muestreo de Thompson ("Thompson Sampling"). Siendo un … [Leer más...] acerca de Muestreo de Thompson y BayesUCB para un problema Bandido Multibrazo (Multi-Armed Bandit)

UCB1-Normal para un problema Bandido Multibrazo (Multi-Armed Bandit)

abril 23, 2021 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 5 minutos

En entradas anteriores de esta serie se han visto diferentes versiones de las estrategias UCB aplicadas a la resolución de un problema tipo Bandido Multibrazo: UCB1, UCB2 y UCB-Tuned. Estrategias que han demostrado unos excelentes resultados. Otra versión de UCB con la que se suele obtener buenos resultados es UCB1-Normal, una modificación de UCB1 en la que se asume una … [Leer más...] acerca de UCB1-Normal para un problema Bandido Multibrazo (Multi-Armed Bandit)

UCB1-Tuned para un problema Bandido Multibrazo (Multi-Armed Bandit)

abril 16, 2021 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 4 minutos

La semana pasada hemos visto UCB2, un algoritmo que ha ofrecido mejores rendimientos que UCB1 para nuestros bandidos basados en una distribución binomial. En esta ocasión vamos a ver UCB1-Tuned (también conocido como UCB-Tuned), una mejora de UCB1 en el que se modifica la fórmula con la que se calcula el límite de confianza superior.UCB1-TunedEl método UCB1-Tuned … [Leer más...] acerca de UCB1-Tuned para un problema Bandido Multibrazo (Multi-Armed Bandit)

UCB2 para un problema Bandido Multibrazo (Multi-Armed Bandit)

abril 9, 2021 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 4 minutos

En la entrega anterior de esta serie hemos comenzado a ver cómo aplicar los métodos UCB (Upper Confidence Bounds) para resolver un problema del Bandido Multibrazo. Métodos en los que se estima un límite de confiaban superior para la recompensa de cada uno de los bandidos. Seleccionando en cada momento el que tenga la recompensa media más el límite de confianza mayor. En esta … [Leer más...] acerca de UCB2 para un problema Bandido Multibrazo (Multi-Armed Bandit)