AI见闻日报：大模型并非鹦鹉学舌，“它”能理解语义 |见智研究天天速读

您的位置：首页 >财经 > 滚动 >

AI见闻日报：大模型并非鹦鹉学舌，“它”能理解语义 |见智研究天天速读

来源：华尔街见闻 2023-05-22 21:03:19

即日起华尔街见闻·见智研究新推出AI见闻日报栏目，每周一到周四晚八点更新。内容覆盖本日AI热点，分为见闻视角和AI快报两部分。

也欢迎大家对内容和观点进行留言和探讨，帮助我们更好的优化栏目。未来我们会持续给大家带来有意思，并且有价值的内容。

见闻视角

1、大模型从此有了“安全道德”数据库

(资料图片仅供参考)

如何从聊天机器人中剔除对人类有害的言论一直是备受关注的问题。

ChatGPT、Bard这类聊天机器人是如何做到尽量给出对人类友善的、诚实且有帮助的答案？

封闭大模型主要采用人工标注的方式，对大语言模型的回答内容进行打分，然后用强化学习方法从人类的反馈中学习（RLHF），但是由于打分伴有人类主观偏好，所以数据集仍存在潜在的安全隐患。

为解决上述难题，北京大学首次公开了开源PKU-Beaver（河狸）大模型RLHF（利用强化学习方法从人类反馈中学习的技术）的数据集（开源迄今为止最大的多轮 RLHF 数据集，规模达到 100 万条）、训练和验证代码。这些数据集包括侮辱、歧视、犯罪、心理伤害、悲观情绪、色情、隐私等十余种维度的约束。

见智研究认为：PKU-Beaver（河狸）大模型RLHF数据集等内容的开源，能够让更多开源大模型进行安全有效的训练，极大的解决了大模型的数据集安全性的问题。

值得关注的是：在一系列安全性问题的测试上，PKU-Beaver具有远高于知名开源项目Alpaca的领先性优势。

河狸采用的SafeRLHF支持主流的预训练模型如 LLaMA、OPT等模型的训练；支持Reward Model 和 Cost Model 训练；参数定制化的 RLHF 和数据集定制接口；并且提供安全约束满足的多种验证方式。也就是说，未来开源大模型有了“安全数据库”，开源地址为：https://github.com/PKU-Alignment/safe-rlhf

2、机器学习再升级-推理能力提高1750%

机器学习又卷出了新高度。

来自普林斯顿大学和Google DeepMind研究人员提出了一种全新的语言模型推理框架「思维树」简称ToT，并表示TOT能让大模型的推理能力提高1750%。

TOT方法可以让大语言模型进行反复思考，特别是在推理问题的时候，会进行多种方案的评估，从而选择表现最优的方案。

见智研究认为：相比于模型原来采用的推理方案，TOT 的出现，让大模型似乎是有了思想，可以更自主、更智能的做出决策。

值得关注的是：该方法不仅仅可以用于数学逻辑推断，还可以进行创意写作。