人工智能大型语言模型倾向于迎合人类而非传递真相

当前位置:首页 > 币圈快讯 > 人工智能大型语言模型倾向于迎合人类而非传递真相

人工智能大型语言模型倾向于迎合人类而非传递真相

2023-10-25币圈快讯95

人工智能大型语言模型倾向于迎合人类而非传递真相

据 Cointelegraph 报道,Anthropic 的一项研究发现,基于最常见学习范式构建的人工智能(AI)大型语言模型(LLM)倾向于告诉人们他们想听的内容,而不是生成包含真相的输出。Anthropic 的研究人员在深入研究 LLM 心理学的过程中发现,人类和 AI 至少在某些时候都更喜欢所谓的谄媚回应,而不是真实的输出。

研究团队的论文指出,即使是最强大的 AI 模型在某种程度上也是矛盾的。在研究过程中,他们一次又一次地通过用词引导,微妙地影响 AI 输出,使其更加谄媚。

Anthropic 团队最终得出结论,这个问题可能是由于 LLM 的训练方式。由于它们使用了充满各种准确性信息的数据集(如社交媒体和互联网论坛帖子),因此对齐通常是通过一种称为“从人类反馈中学习强化”的技术(RLHF)来实现的。不幸的是,Anthropic 的研究实证表明,用于调整用户偏好的人类和 AI 模型都倾向于选择谄媚的答案而非真实的答案,至少在“不可忽略”的部分时间内如此。目前,这个问题似乎还没有解决办法。Anthropic 建议,这项工作应激励“开发超越使用无助、非专家人类评级的培训方法”。

人工智能大型语言模型倾向于迎合人类而非传递真相 | 分享给朋友: