xdliu的个人博客分享 http://blog.sciencenet.cn/u/xdliu

博文

[转载]Multi-armed Bandits(多臂老虎机问题)

已有 2918 次阅读 2020-12-24 14:16 |个人分类:算法|系统分类:科研笔记|文章来源:转载

https://blog.csdn.net/wangh0802/article/details/87913867

赌场的老虎机有一个绰号叫单臂强盗(single-armed bandit),因为它即使只有一只胳膊,也会把你的钱拿走。而多臂老虎机(或多臂强盗)就从这个绰号引申而来。假设你进入一个赌场,面对一排老虎机(所以有多个臂),由于不同老虎机的期望收益和期望损失不同,你采取什么老虎机选择策略来保证你的总收益最高呢?这就是经典的多臂老虎机问题

这个经典问题集中体现了在线学习及更宽泛的强化学习中一个核心的权衡问题:我们是应该探索(exploration)去尝试的可能性,还是应该守成(exploitation)坚持目前已知的最好选择?在多臂老虎机问题中,探索意味着去玩还没玩过的老虎机,但这有可能使你花太多时间和金钱在收益不好的机器上;而守成意味着只玩目前为止给你收益最好的机器,但这又可能使你失去找到更好机器的机会。而类似抉择在日常生活中随处可见:去一个餐厅,你是不是也纠结于是点熟悉的菜品,还是点个新菜?去一个地方,是走熟知的老路还是选一条新路?而探索和守成的权衡就是在线学习的核心




https://blog.sciencenet.cn/blog-3456771-1263977.html


下一篇:关于时间膨胀
收藏 IP: 115.156.133.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

全部作者的其他最新博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-28 01:19

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部