怕孤单柜子

文章
8
资源
0
加入时间
4年2月16天

【强化学习】多臂赌博机问题(MAB)的UCB算法介绍

UCB算法UCB在做EE(Exploit-Explore)的时候表现不错,但是一个不关心组织的上下文无关(context free)bandit算法,它只管埋头干活,根本不观察一下面对的都是些什么样的arm。UCB算法要解决的问题是:面对固定的K个item(广告或推荐物品),我们没有任何先验知识,每一个item的回报情况完全不知道,每一次试验要选择其中一个,如何在这个选择过程中最...