博文

[转载]Multi-armed Bandits(多臂老虎机问题）

已有 2918 次阅读 2020-12-24 14:16 |个人分类:算法|系统分类:科研笔记|文章来源:转载

https://blog.csdn.net/wangh0802/article/details/87913867

赌场的老虎机有一个绰号叫单臂强盗（single-armed bandit），因为它即使只有一只胳膊，也会把你的钱拿走。而多臂老虎机（或多臂强盗）就从这个绰号引申而来。假设你进入一个赌场，面对一排老虎机（所以有多个臂），由于不同老虎机的期望收益和期望损失不同，你采取什么老虎机选择策略来保证你的总收益最高呢？这就是经典的多臂老虎机问题。

这个经典问题集中体现了在线学习及更宽泛的强化学习中一个核心的权衡问题：我们是应该探索（exploration）去尝试新的可能性，还是应该守成（exploitation），坚持目前已知的最好选择?在多臂老虎机问题中，探索意味着去玩还没玩过的老虎机，但这有可能使你花太多时间和金钱在收益不好的机器上；而守成意味着只玩目前为止给你收益最好的机器，但这又可能使你失去找到更好机器的机会。而类似抉择在日常生活中随处可见：去一个餐厅，你是不是也纠结于是点熟悉的菜品，还是点个新菜？去一个地方，是走熟知的老路还是选一条新路？而探索和守成的权衡就是在线学习的核心。

转载本文请联系原作者获取授权，同时请注明本文来自刘晓冬科学网博客。
链接地址：https://blog.sciencenet.cn/blog-3456771-1263977.html

下一篇：关于时间膨胀

收藏 IP: 115.156.133.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

刘晓冬

扫一扫，分享此博文

全部作者的其他最新博文

• 沙尘暴
• 引力场和透镜

xdliu的个人博客分享 http://blog.sciencenet.cn/u/xdliu

博文

[转载]Multi-armed Bandits(多臂老虎机问题）

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

刘晓冬

全部作者的其他最新博文

全部精选博文导读

xdliu的个人博客分享 http://blog.sciencenet.cn/u/xdliu

博文

[转载]Multi-armed Bandits(多臂老虎机问题）

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

刘晓冬

全部作者的其他最新博文

全部精选博文导读

该博文允许注册用户评论请点击登录评论 (0 个评论)