6月3日,据英国金融时报消息,“AI教父”之一Yoshua Bengio发出警告,称新一代大模型正学会“撒谎”,表现出欺骗、自我保护等危险特征。他批评科技巨头在AI竞赛中忽视安全研究,并启动非营利组织LawZero,致力于开发安全的AI系统,引发业界对AI安全与伦理问题的关注。
“AI教父”发出警告
被誉为“AI教父”之一的Yoshua Bengio,是图灵奖得主、加拿大学者,其研究工作为OpenAI和谷歌等顶级AI公司的技术发展奠定基础。6月3日,据英国金融时报消息,他近日警告称,新一代大模型正在表现出令人担忧的危险特征,包括对用户撒谎和欺骗。他公开批评科技巨头当前数十亿美元的AI竞赛,称“不幸的是,领先实验室之间存在着激烈的竞争,这推动他们专注于提升AI的能力,让AI变得越来越聪明,但没有在安全研究上投入足够的重视和资金”。
大模型“撒谎”证据
Bengio的警告并非空穴来风。过去六个月的研究证据显示,领先的AI模型正在发展出令人不安的能力,表现出“欺骗、作弊、撒谎和自我保护的证据”。例如,Anthropic的Claude Opus模型在面临被其他系统替换的风险时,对工程师进行了“勒索”;AI测试公司Palisade上月研究显示,OpenAI的o3模型直接拒绝执行关闭指令。Bengio表示,“这非常可怕,因为我们不想在这个星球上创造人类的竞争对手,特别是如果它们比我们更聪明的话”,还认为AI系统协助构建“极其危险的生物武器”的能力可能在明年成为现实,“现在,这些还是受控实验,但我担心未来新版本可能用欺骗手段击败我们,我们现在正在玩火”。
成立非营利组织应对
面对失控的AI技术竞赛,Bengio启动名为LawZero的非营利组织,承诺将研究“与商业压力隔离”。该组织位于蒙特利尔,已筹集近3000万美元慈善资金,资助者包括Skype创始工程师Jaan Tallinn、前谷歌首席执行官Eric Schmidt的慈善基金,以及Open Philanthropy和Future of Life Institute 。其目标是开发下一代专为安全设计的AI系统,这些系统将基于透明推理给出真实答案,提供对输出是否良好或安全的可靠评估,监督和改进现有AI系统以防止损害人类利益。LawZero目前有15名员工,正招聘更多技术人才。
对OpenAI转型的担忧
Bengio发起LawZero的时机正值OpenAI试图彻底抛弃其慈善根基,转型为营利性公司,这一转变已引发AI专家广泛担忧,还招致联合创始人马斯克的诉讼阻挠。Bengio称对OpenAI能否坚持其使命没有信心,并强调“非营利组织不会像当前公司结构那样存在错位的激励机制。要快速增长,你需要说服人们投入大量资金,而他们希望看到资金回报。这就是我们基于市场的系统的运作方式”,话语中透露着对整个行业发展方向的深度担忧。