人工智能大型语言模型倾向于迎合人类而非传递真相

当前位置：首页 > 币圈快讯 > 人工智能大型语言模型倾向于迎合人类而非传递真相

人工智能大型语言模型倾向于迎合人类而非传递真相

2023-10-25币圈快讯95

据 Cointelegraph 报道，Anthropic 的一项研究发现，基于最常见学习范式构建的人工智能（AI）大型语言模型（LLM）倾向于告诉人们他们想听的内容，而不是生成包含真相的输出。Anthropic 的研究人员在深入研究 LLM 心理学的过程中发现，人类和 AI 至少在某些时候都更喜欢所谓的谄媚回应，而不是真实的输出。

研究团队的论文指出，即使是最强大的 AI 模型在某种程度上也是矛盾的。在研究过程中，他们一次又一次地通过用词引导，微妙地影响 AI 输出，使其更加谄媚。

Anthropic 团队最终得出结论，这个问题可能是由于 LLM 的训练方式。由于它们使用了充满各种准确性信息的数据集（如社交媒体和互联网论坛帖子），因此对齐通常是通过一种称为“从人类反馈中学习强化”的技术（RLHF）来实现的。不幸的是，Anthropic 的研究实证表明，用于调整用户偏好的人类和 AI 模型都倾向于选择谄媚的答案而非真实的答案，至少在“不可忽略”的部分时间内如此。目前，这个问题似乎还没有解决办法。Anthropic 建议，这项工作应激励“开发超越使用无助、非专家人类评级的培训方法”。