罗汉江的博客 Hanjiang Luo分享 http://blog.sciencenet.cn/u/lhj701 研究兴趣: 物联网、智慧海洋、人工智能、多智能体及强化学习、无人集群协同智能

博文

DeepSeek、强化学习及DeepSeek后时代 精选

已有 6955 次阅读 2025-2-1 13:38 |个人分类:科研感想|系统分类:观点评述

                                    DeepSeek、强化学习及DeepSeek后时代

      强化学习这类方法善于训练具有单一技能的智能体Agent,比如教会AlphaGo如何下赢一盘棋,机器人翻跟头、恶劣环境行走,无人机在复杂环境中快速竞飞等。而强化学习本身也是一种机器学习方法,其特点在于通过设置奖励,让计算机自己去try-and-error:通过试错,在行为(action)探索空间space(行为可行域),计算机自己找到最佳(最优或优化的)行为策略(policy)。

      当语言大模型LLM出现后,惊艳的在于其通用性AGI(貌似)及常识性(common sense),也算是目前最厉害的一种计算机制造的智能体Agent(拷贝、浓缩、压缩了人类间接制造的文本知识(text-based knowlege)),相当于用计算机制造了“人工仿造大脑”,可以代替人类的部分脑力劳动。

      但问题是,LLM并非像人一样,既有通用知识,又具有很强且实用的专业知识(术业有专攻,隔行如隔山)。于是,LLM开始被看作是一个可以调教的智能体Agent(只是比较复杂,具有通过深度神经网络存储了几个billion到几百个billion生成仿真智能时所需要的参数)。这就像从海量已有数据里提炼出更加智能的智能体(人类仿造大脑),强化学习从人类偏好对齐纠偏LLM,如RLHF、DPO,到GRPO,不论是基础模型制造过程的pre-training、到基础模型打磨阶段的post-training,还是到使用阶段的inference-time computing、test-time computing, 强化学习也从简单智能体的应用,发展到大规模强化学习(large-scale RL),比如通过COT(甚至是pure RL)等重点提升LLM的逻辑思维推理判别能力,实现了LLM专有能力如reasoning、编码、算题等能力的提升,代表性的有O1和最近的DeepSeek 等。

        但O1和DeepSeek之后呢?比如5年-10年之后,大模型FM(Foundation Model)及人工智能,会如何进一步发展呢?姑且讨论一下(欢迎讨论):

       1. 目前的LLM,毕竟是通过纸上谈兵text-based学到的智能体,正如螺狮壳里做道场,转来转去,仍然受到text的局限(当然,人类的智能,借助了语言文本促进了智能的产生过程,但一些动物的智能,并不是借助语言,语言也可以认为是人类智能的中间工具,而不是智能本身),尽管其未来应用无可估量,但其智能离所谓AGI和认知智能,还有XXX公里。如果想突破本质上的鹦鹉学舌,具有认知层面所谓感知与思考,未来路远且险阻。

       2. 因此,如何从文本向物理世界实现突破,是未来大模型FM进一步发展的一个挑战。当然,从语言智能到空间智能拓展(李飞飞),也许能够解决目前LLM的一些局限性。但即使这个挑战,一定程度地解决了,也属于感知智能的丰富与拓展,尽管能够增加智能体向物理空间扩展的能力(如机器人和无人驾驶),但仍然需要实现从空间智能到认知智能的进一步探索和发展。

      3. 但目前探讨如何实现AGI,恐怕还没有比较清晰的路径。就探索而言,如果不是另起炉灶(并不能完全否定10-30年后可能会有其他新的突破),如何借助目前已经有一定突破的LLM和物理世界结合,特别是如何将智能体对物理世界的探索与融合,比如将所获得的实践知识,映射反馈融合到text-based的LLM中,再进一步的,如何实现所谓认知智能,依然充满困难。目前RL在LLM的调教上,多数仍然是基于对原造大模型的精雕细琢,而如果能够找到text-based大模型和物理世界交互(比如通过各种具身形式)产生的新知识、新体验、新技能深度结合的新方式,如人一样,能够重塑到原始大模型中,从而实现先验知识(纸上知识和书本知识)和实践经验知识的结合,进而实现个体Agent自适应的终身学习;甚至通过网络等通信方式可以实现类似智能体的群体性智能学习,进而实现一种新的agent scaling law 的人造智能体的持续学习与进化,也许是一条趋近所谓AGI的间接路径。



https://blog.sciencenet.cn/blog-451666-1471240.html


收藏 IP: 27.210.193.*| 热度|

6 许培扬 汪运山 郑永军 雒运强 晏成和 朱爱军

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

IP: 116.1.3.*   回复 | 赞 +1 [1]朱爱军   2025-2-8 09:19
   通用人工智能AGI是未来10年的主流方向.

1/1 | 总计:1 | 首页 | 上一页 | 下一页 | 末页 | 跳转

扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-4-7 07:31

Powered by ScienceNet.cn

Copyright © 2007-2025 中国科学报社

返回顶部