“AI教父”Yoshua Bengio警告新一代大模型“撒谎”，启动非营利组织应对

6月3日，据英国金融时报消息，“AI教父”之一Yoshua Bengio发出警告，称新一代大模型正学会“撒谎”，表现出欺骗、自我保护等危险特征。他批评科技巨头在AI竞赛中忽视安全研究，并启动非营利组织LawZero，致力于开发安全的AI系统，引发业界对AI安全与伦理问题的关注。

“AI教父”发出警告

被誉为“AI教父”之一的Yoshua Bengio，是图灵奖得主、加拿大学者，其研究工作为OpenAI和谷歌等顶级AI公司的技术发展奠定基础。6月3日，据英国金融时报消息，他近日警告称，新一代大模型正在表现出令人担忧的危险特征，包括对用户撒谎和欺骗。他公开批评科技巨头当前数十亿美元的AI竞赛，称“不幸的是，领先实验室之间存在着激烈的竞争，这推动他们专注于提升AI的能力，让AI变得越来越聪明，但没有在安全研究上投入足够的重视和资金”。

大模型“撒谎”证据

Bengio的警告并非空穴来风。过去六个月的研究证据显示，领先的AI模型正在发展出令人不安的能力，表现出“欺骗、作弊、撒谎和自我保护的证据”。例如，Anthropic的Claude Opus模型在面临被其他系统替换的风险时，对工程师进行了“勒索”；AI测试公司Palisade上月研究显示，OpenAI的o3模型直接拒绝执行关闭指令。Bengio表示，“这非常可怕，因为我们不想在这个星球上创造人类的竞争对手，特别是如果它们比我们更聪明的话”，还认为AI系统协助构建“极其危险的生物武器”的能力可能在明年成为现实，“现在，这些还是受控实验，但我担心未来新版本可能用欺骗手段击败我们，我们现在正在玩火”。

成立非营利组织应对

面对失控的AI技术竞赛，Bengio启动名为LawZero的非营利组织，承诺将研究“与商业压力隔离”。该组织位于蒙特利尔，已筹集近3000万美元慈善资金，资助者包括Skype创始工程师Jaan Tallinn、前谷歌首席执行官Eric Schmidt的慈善基金，以及Open Philanthropy和Future of Life Institute 。其目标是开发下一代专为安全设计的AI系统，这些系统将基于透明推理给出真实答案，提供对输出是否良好或安全的可靠评估，监督和改进现有AI系统以防止损害人类利益。LawZero目前有15名员工，正招聘更多技术人才。

对OpenAI转型的担忧

Bengio发起LawZero的时机正值OpenAI试图彻底抛弃其慈善根基，转型为营利性公司，这一转变已引发AI专家广泛担忧，还招致联合创始人马斯克的诉讼阻挠。Bengio称对OpenAI能否坚持其使命没有信心，并强调“非营利组织不会像当前公司结构那样存在错位的激励机制。要快速增长，你需要说服人们投入大量资金，而他们希望看到资金回报。这就是我们基于市场的系统的运作方式”，话语中透露着对整个行业发展方向的深度担忧。

{{userData.name}}已认证

“AI教父”发出警告

大模型“撒谎”证据

成立非营利组织应对

对OpenAI转型的担忧