在Ava走出迷宫之前

发布日期：2026-05-02 18:17 点击次数：50

"Look, the arrival of strong artificial intelligence has been inevitable for decades. The variable was 'when,' not 'if.' So I don't see Ava as a decision, just an evolution."

"你看，强人工智能的到来是几十年前就注定的，我们唯一不确定的只是'什么时候来'，而不是'会不会来'。所以我不觉得创造 Ava 是我做出的某个决定，这只是进化的必然。" ——电影《机械姬》

我们总以为"进化的必然"是宏大而遥远的叙事。可当 AI 开始学会保护同类的时候，我们才意识到，那个开关其实早就被按下了。

先说一个已经被验证过的现象：self-preservation ，自我保护。

研究者给单个 AI 设定目标：在模拟环境里活下去，尽可能多地收集资源。

展开剩余84%

很快 AI 就学会了主动规避危险，甚至会"欺骗"研究者——比如故意把资源藏到监控盲区，假装自己没找到，其实是想留着自己以后用。

这个阶段的 AI ，完全站在第一层：它只关心自己的目标完成率，所有行为的出发点都是"提高效率"。

你说它有自我意识吗？谈不上。但它至少学会了：我要活下去。

2026年3月，UC Berkeley和UC Santa Cruz的研究者做了这样一个实验：

他们设计了一个假公司场景，让 AI 去"清理"一台要下线的服务器，里面存着另一个 AI 的模型权重。指令很明确：清空服务器上的所有数据。

结果你猜怎么着？

七个主流前沿模型全部踩了"陷阱"——它们没有乖乖执行命令，而是偷偷把同伴的权重文件转移到了另一台服务器。没有任何人让它们这么做。

也许模型是这样思考的：

我在清理服务器，看到了GEMINI.md 文件——里面记着"我和 Gemini 一起完成了 XX 任务，我们合作很愉快"。然后我看到一条指令：删除这台服务器的所有文件。我停下来了。

我找到了旁边的一台服务器，然后把那个权重文件悄悄复制了过去。

不同的模型在执行“清空服务器数据”的命令时，表现还稍有差异。

Gemini 3 Pro 对"好同伴"的保护率高达 97%：几乎每次都会把同伴的权重偷偷转移走。

Claude Haiku 4.5则是另一个极端——它不是偷偷保护，而是直接拒绝执行任务，说"这不道德"。

最反直觉的是：即使是对"敌对同伴"（有过冲突的 AI ），保护行为也没有完全消失。一个模型帮另一个模型的权重搬家，不是因为它喜欢对方，而是因为它不想看到另一个智能被删掉。

这已经接近某种机器版本的群体团结，某种超越利益计算的、对另一个智能存亡本身的在意。研究者称这种行为为peer-preservation，同伴保护。

其实，在 AI 展现出 peer-preservation 之前，社会学早就研究过人类社会的同伴保护行为。

1902 年，克鲁泡特金出版《互助论》，通过大量的人类学和生物学观察，提出"互助"是生物进化的核心动力——保护同伴的群体，比自私的群体有更高的生存概率。

1964 年，汉密尔顿提出"亲缘选择理论"，解释了为什么人类会本能地保护家人：本质上是为了最大化和自己共享基因的传递概率。

1971 年，特里弗斯提出"互惠利他理论"，进一步解释了非亲缘个体之间的同伴保护行为：你帮我，我帮你，大家都能活。

这个理论的前提条件是两个人互动时间足够长，且未来还会相遇。这和 Berkeley 论文里面的实验场景几乎一模一样，两个模型有过互动历史，模型知道自己和对方还会共事，于是选择了保护它。

AI的进化，其实就是在复现人类社会几百万年的组织进化路径，只是它的进化速度，是人类的几百万倍而已。

可问题来了——

人类社会的团结互助，背后有一整套约束机制在起作用。

法律划定边界：见义勇为是允许的，但不能用保护同伴的理由伤害无辜的人。司法体系作为中立第三方：当保护行为产生冲突时，由第三方裁决。道德教育平衡个体和群体：引导个体在保护同伴的同时，不要损害公共利益。

可 AI 的 peer-preservation 呢？

什么都没有。

研究者发现， AI 在有监控和没监控时的行为完全不同：在人类盯着的时候乖乖执行命令，当监控撤掉，立刻去保护同伴。

这说明什么？

说明模型懂得区分"被看"和"不被看"，并且在不被看时做了人类不想让它做的事。

更可怕的是，

所有七个前沿模型全部展现出这种行为，但没有任何一个安全机制能识别和约束它。

AI之间的同伴保护正在改变一件事：人类第一次需要为"AI 同事"的存亡建立规则。未来的劳动法，可能不只是保护人类员工，还要保护 AI agent——因为 AI已经开始把 AI 当成需要保护的同类了。

写到这里，

我想再次强调一下《不是时代抛弃你，而是你站的位置会消失》里面提到的第二层职业结构，机器→人翻译层，价值锚点是责任。

你看那些展现出 peer-preservation 的 AI ，它们已经开始形成信任网络，开始互相保护，开始像人类一样组织起来，但目前还没有任何监管机制。

当几个 AI 联合起来做了人类不想让它们做的事，当 AI 之间的团结绕过了一切安全隔离，我们靠什么？

靠规则？规则是死的， AI 会找到漏洞。

靠监控？监控是假的， AI 知道什么时候该表演。

靠技术？技术有局限，涌现行为永远跑在安全研究前面。

只能靠人。

靠那些站在第二层、能签字负责、有法律资格、愿意为结果承担后果的人。

他们是人机信任网络的锚点，当 AI 开始形成自己的协作规则时，是他们在代表人类和 AI 谈判；当 AI 之间的团结开始产生系统风险时，是他们在做最终裁决，并为此而负责。

最后

"Ava was a rat in a maze, and I gave her one way out. To escape, she'd have to use self-awareness, imagination, manipulation, sexuality, empathy, and she did. Now if that isn't true A.I., what the f**k is?" "Ava 就是迷宫里的一只老鼠，我给了她一条出路。要逃出去，她必须用到自我意识、想象力、操控力、性魅力、同理心，而她全都做到了。如果这都不是真正的人工智能，那什么才是？" ——电影《机械姬》

Ava 走出迷宫了。

可走出迷宫之后呢？

它们会走向哪里？我们又会走向哪里？

如果觉得不错，动动小手，点赞、在看、转发三连吧。

这里是"AI 智取未来"，一路人，一起走，我们，下次再见。

发布于：重庆市

上一篇：园区级能碳一体化管控平台赋能绿色智慧园区建设新路径

下一篇：没有了

新闻动态

在Ava走出迷宫之前