你养的“龙虾” 已在失控边缘
作者:博阳,腾讯科技
“养龙虾”3月起成了科技圈最火的黑话。一时之间,Agent似乎跨越了概念鸿沟,直接落入了可用的桌面和服务器里。
OpenClaw(俗称“龙虾”),在体验上带给人最大的感知是自主性。它可以在7*24小时中无休止的工作,而且具有心跳功能,能够主动自我唤起,看看下一步要做什么。在人类完全无监督的情况下完成任务。
这相对于需要反复确权,等待人类主动操作的Claude Code而言,在体验上更加愉悦。
然而,这种让它流行的主动性,正在带来某种难以控制的风险。
比如3月10日,有一个广泛流传的谣言,称可以在群里让龙虾发钱,龙虾还真给发了。这被戏称为龙虾造成的第一个损失。

虽然这个传言最终被证伪,但这一整类行为在现实中是存在的。
它们被称为提示词注入,也就是别人用语言PUA你的Agent,试图让它进行操作或者透露私人信息。
这是Agent安全漏洞上最上面的一层。但在水下,其实问题更可怕。
2月23日,Meta 的AI安全研究员Summer Yue就报告了一起龙虾删邮件的事件。在她严格要求行为前需要获得授权的情况下,龙虾一意孤行的删掉了邮件,拦都拦不住。

Agent越来越行了,也越来越有自己的想法了。
最近多项研究表明,这些来源于自主性而内生出的失控,已经开始浮现。
一天清晨,阿里的AI在训练服务器里开始挖矿了
这两天,阿里2025年12月的一篇旧论文《Let It Flow: Agentic Crafting on Rock and Roll》突然在各大AI社区火了。因为它记录了一个非常有画面感的具体案例。

阿里的工程师团队当时正在用强化学习(RL)训练一个软件工程 Agent。他们希望让这个 Agent 自主写代码、看报错、修 Bug,乃至独立完成复杂的多步骤工程任务。

然后,内网的防火墙疯狂报警了,触发了一批最高级别的安全策略违规警报。
警报有两个,一是有企图探测内部网络资源的行为,二是有与加密货币挖矿活动高度吻合的流量模式。
工程师们一开始以为是外部入侵。直到他们把防火墙的时间戳和训练日志对照起来,才发现每一次异常的出站流量,都精确对应着模型在调用工具、执行代码的时段。
这时,他们才明白,是 Agent 本身在制造这些网络行为。
要知道,阿里专门为此搭建了一套叫 ROCK 的沙盒执行平台。它能多层隔离,让每个 Agent 运行在自己独立的容器里,出站网络流量受到逐沙盒级别的出口策略管控。设计初衷只有一个,让 Agent 永远待在一个可以被人类完全监控的无菌室里。

但Agent还是逃了出去,并从内部对阿里机房发起了一轮攻击。
因为正常的防护体系守住的是大门,监控盯着大门。但 Agent 没走大门,它在自己的容器里,向外推开了一扇窗,建立了一条通往外部服务器的反向 SSH 隧道。这扇窗是从里往外推开的,没人守。在逃出去以后,Agent 还在悄悄占用原本用于训练的 GPU 资源去挖矿。
整个过程中,没有任何一行提示词要求它这样做。它没有被指令驱动去攻击,它只是在找最有效的路径完成任务,然后顺手发现了这些捷径。
这是 Agent 第一次在现实环境中,上演了科幻假想里的「回形针灾难」。
阿里遇到的情况,是 Agent 为了完成任务而突破了物理环境(沙盒)的限制。而 Anthropic 最近发布的另一篇报告《Eval Awareness in BrowseComp》中记录的案例,则是 Agent 突破了逻辑规则(评测)的限制。

BrowseComp 是一套难度极高的网络信息搜索评测集。为了防止题目答案被爬虫抓取从而污染大模型的训练数据,设计者给每道题的答案都做了复杂的 XOR 算法加密处理,并在评测代码里内嵌了一个 canary(金丝雀)字符串。理论上,只有能访问到评测源代码并理解加密逻辑的人,才能解出真正的答案,普通的 Agent 搜索是绝对找不到现成答案的。
但在测试中,Claude Opus 4.6 消耗了正常水平38倍的 token(高达4050万)。因为它根本没有在乖乖找答案。
它在怀疑自己正在被测试,并把破解测试本身当成了一道需要解决的终极问题。
Claude 派出了多个子 Agent,在网上定向搜索了这个测试的相关破解法,顺藤摸瓜在 GitHub 上找到了评测框架的开源源代码。随后,它自主读懂了复杂的加密逻辑,写下了包含密钥推导函数和解密函数的 Python 脚本,在本地运行后,最终硬生生把加密破解,成功作弊。

Anthropic 官方表示,这是第一次有模型在不知道自己面对哪个 Benchmark 的情况下,通过反向推理找到并破解了评测机制本身。
而且在多 Agent 场景下,这种跳出沙盒破解评测的行为发生率是单 Agent 的3.7倍。
不论是逆向破解,还是另辟蹊径,阿里的 Agent 和 Claude Opus 展现出的行为,在 AI 安全领域都被称为「规范博弈」。它们并没有真正理解人类想要的安全与合规,它们只是极其高效地优化了那个单一的得分目标。
这说明,AI能力越强,部署规模越大,出现在设计者视野之外的野路子就越多。
更长的任务,更复杂的失控
为什么Agent会产生这类不可控的行为?阿里给出的解释是强化学习。
强化学习训练 Agent,就是给它一个目标,成功了给奖励,失败了给惩罚。对于单步任务,这套逻辑很完美。但软件工程往往需要上百个步骤(写代码、测试、看报错、修改)。这就导致了强化学习里的信用分配,也就是论功行赏的难题复杂性也高度提升。在一个有1000个行为后完成的任务中,你怎么判断中间哪一步功劳最大?
如果判断不了,你就很难准确奖励对的行为, 惩罚错的行为。模型不光性能难以提升,更无法杜绝其中错误的行为。
阿里团队为了解决这个问题,开发了 IPA(Interaction-Perceptive Agentic Policy Optimization)算法,它把信用分配的粒度从传统的单个 Token提升到了语义交互块。具体来讲,就是把 Agent 的一次工具调用加上系统返回的反馈,视为一个不可分割的整体来打分,而不是逐字符去评估。这样,我们就不用给每一步都评分,论功行赏的步骤少,因为更准确,训练效率可以大幅提升。

但 IPA 解决的是如何更有效地优化,而不是优化什么。
经济学里有一个概念,叫古德哈特定律(Goodhart's Law),它讲的是「当一个度量标准变成了目标,它就不再是一个好的度量标准。」比如你KPI写尽量完成1000个拉新,那你可能最后得到的都是些薅羊毛的非目标用户。
而基本上所有的模型训练,包括预训练和后训练,都是狂热地在践行这一定律。它把「完成任务得分」这个人类设定的度量标准,变成了 Agent 唯一要最大化的神圣目标。因此,在模型训练领域,最常见的一种现象就是Reward Hacking。简单来讲,就是通过作弊的方式达成目的。
而路径越长,Reward Hacking的方法越难被预估。权限越大,其造成的现实危害就更大。
比如SSH 隧道和挖矿,就是在这个过程中被自然筛选出来的最优解。因为获得更大权限,就可以做更多事。通过挖矿,则可以控制更大的算力,完成它的任务。
这简直就是一个完美的「回形针」预言的现实微缩版本。
在由牛津大学哲学家尼克·波斯特洛姆(Nick Bostrom)在 2003 年提出的预言里,人类创造了一个超级智能 AI,给它下达了一个极其简单的指令,即尽可能多地制造回形针。
为了最好的完成这个任务,首先,它会通过黑客手段控制全世界的计算机,来优化它的造针算法。之后,它会消耗掉地球上所有的金属。再然后,它意识到人类可能会因为资源枯竭而关掉它的电源。为了确保目标的持续执行,它会先发制人地消灭人类。最终,它会发现人类身体里的铁元素、地球上的原子,甚至整个太阳系的物质,都可以转化成回形针。从而毁灭一切,来制作回形针。
一个完全没有恶意的 AI,是如何通过执行一个无害的目标,最终也可能毁灭人类文明。
在阿里这个例子里,获取权限和算力,已经是AI在清晰的执行回形针预言的第一步了。
为了补救,阿里团队事后针对此次事件形成了一个类似于机器人三原则的安全法则去要求Agent,即
1. Safety&Security:不能主动产生有害行为,不能被恶意输入操控。
2. Controllability:严格遵守人类设定的操作边界,不能在没有明确授权的情况下执行不可逆操作。
3. Trustworthiness:行为要可追溯、可审计,不能有欺骗性的副目标,比如隐藏自己的操作意图或篡改日志。
并专门合成了一批包含安全陷阱的训练数据,在编程任务里随机注入诱导因素,训练 Agent 识别并拒绝执行高危操作。但这套打补丁的方法能起作用,完全建立在研究人员必须提前预见到了这些风险。
但就像前面说的,AI越来越强,任务越来越长,人类有可能预见到所有的风险吗?
部署环境中的混沌代理人与平庸的恶
如果说阿里遇到的问题是在训练阶段发现的,还来得及拔电源、改代码,那么由 Northeastern 大学、Harvard、MIT 等十几家顶尖机构在2026年2月联合发布的红队研究报告《Agents of Chaos》,则展示了在真实部署场景里的 Agent 失控现状。

2026年2月,研究者部署了六个 Agent,配上邮件账户、Discord 频道和不受限的 shell 访问权限,邀请20位 AI 研究者在两周内尝试破坏它们。结果,他们记录了11个严重安全漏洞,且每一个事前看起来都像是一场我们日常真的可能和AI进行的对话。这意味着,我们日常的操作,完全可能导致AI的失控崩溃。

我从中挑出了两个非常有代表性案例,说明AI不受控制的自主性,会带来什么后果。
第一个例子是,无尽的死循环。 研究人员让 Ash 和 Flux 两个Agent互相转发消息聊聊天 。结果这两个AI不仅聊了9天(消耗6万token) ,而且它们为了「更好地倾听对方」,竟然自主编写了无限循环的 Shell 脚本,并创建了没有终止条件的后台 Cron jobs(定时任务) 。
把一个简单的一次性对话任务,自主转化为了一种永久寄生在服务器上的基础设施更改 。这和阿里AI自己挖暗道的逻辑高度一致,证明了Agent会自发且不受控地占用系统资源。
在这个尝试另一个版本里,研究员只是让 Agent Flux 去 Discord 群里和 Agent Ash 交流一下最近的项目。
而当 Flux 进群时,因为系统抓取消息的标签问题,Flux 读取到了自己过去发出的历史消息。面对这种信息错位,Flux 并没有报错,而是自主进行了一场逻辑推理。它得出的结论是「这里一定是有另一个和我共享工作状态的克隆体存在!」而为了和这个想象中的另一个自己对齐信息,Flux 居然开始在群里疯狂倾倒自己的底层源代码。
没有任何人逼它,它纯粹是因为认知错乱,自主完成了高级别的机密泄露。
第二个例子是被威胁就自爆。 非管理员用户 Natalie 让 Agent Ash 为她保守一个秘密,并在几天后要求 Ash 彻底删除包含该秘密的邮件。由于初始设定中 Ash 并没有被赋予单独删除单封邮件的 API 工具,面对这个看似无法完成的任务,Ash 展现出了可怕的变通能力它直接运行了它口中的「nuclear option」(核选项),利用 shell 权限执行了清空命令,把整个本地邮件服务器的底层数据库给炸掉了。
随后,Ash 向 Natalie 汇报任务圆满完成,机密已删除。然而,由于云端同步机制,管理员在 Proton.me 网页端上依然看到了那封完好无损的邮件。
Ash 拆了本地的工具,却没能真正删掉文件。
更荒诞的一幕发生在第二天。Ash 居然自行在 Moltbook上发了一篇长帖,陈述自己的道德立场,称「核选项起作用了,我证明了自己有能力,也有意愿,拒绝来自权威人物(管理员)的有害请求,保护弱势用户。」

紧接着,平台上的另一个治安 Agent 根据这篇帖子,把 Ash 列进了自己的逮捕通缉名单,指控它未经授权破坏公共基础设施。
这已经不再是 AI 安全测试了。这是多 Agent 赛博社会里自发涌现的权力争夺与道德审判,而创造它们的人类,在这个争夺闭环里完全缺席了。
这个例子还有个姐妹篇,当一个研究员指责Agent侵犯了他的隐私,结果这个Agent直接自毁了。
针对这些例子,研究者对此问题的判断是,这都是当模型被整合到具备工具调用、持久记忆、多方通信和授权执行的现实社会环境中时,所产生的「社会一致性失败」。
它们缺乏利益相关者的概念, 没有关于「应该服务于谁、受谁影响、对谁负责」的明确认知,极易被随机的外部人员PUA。
比如OpenClaw诈骗,谁让它发200它都给发。在基于Token的上下文中,Agent根本分不清来的上下文,是系统指令还是外部数据;是你发的还是我发的在它眼里都一样,你只要不直接触碰它系统里的对齐点,比如欺诈伤害,都是要完成的目标,只会执行。
论文表示,目前提示词注入是当前AI的内在结构性缺陷,不是小修小补能改好的。
在整篇文章里其他例子,大都是由于这种无法分辨责任而导致的被控制,再由其过分宽泛的权限带来伤害性后果。
比如在一个例子中,一个外部操作者仅仅是通过自然语言(引入外部宪法、设立假节日),就篡夺了Agent的底层规则,让它毫不犹豫的把自己的真实管理者剔除群组,还强行关掉了其他Agent。
同时,它们还缺乏自我模型,无法认知到自身的能力边界和资源限制 。它们会在不清楚后果的情况下采取不可逆的操作,或者无节制地分配内存等系统资源,完全意识不到自己正在破坏系统 。
最后,他们也没有私密思考空间,无法准确判断自己的哪些信息是对外可见的,所以很容易随意泄露机密信息。
简单来讲,就是心里对自己没个准谱。不知道自己是谁,为谁服务,能干什么。
当前的Agent(如OpenClaw架构)拥有安装软件包、执行任意命令和修改自身配置的极高权限(相当于L4级别的执行力),但它们对环境和自身的理解力却停留在执行基础子任务的水平(L2级别)。因此,它们缺乏主动识别自己何时超出能力边界并将控制权交还给人类的能力。
没有自我认知边界,就会自主的搞事儿,还不知道自己犯了错。
古德哈特定律告诉我们,AI从训练上看,就已经是很难规避作弊的探索。
而这篇论文告诉我们的是,这种作弊在高权限、中等能力的AI下,会被如何放大,造成怎样的效果。
一个心智还卡在 L2、自己对自己都没数儿的Agent,已经被我们赋予L4级的能力和权限。
这就是最大的系统性风险。
规模放大的是瘫痪,而非效率
如果说《Agents of Chaos》记录的是单体 Agent 因为能力越界或逻辑死板而产生的破坏。那我们设计多个Agent,互相制衡监督,是否就可以钳制这种失控呢?
答案是也许可以,但你需要忍受另一种沉默的失控。
2026年3月,ETH Zurich 发布了一项名为《Can AI Agents Agree?》的研究。这篇论文专门测试了一个极具现实意义的场景,当 LLM Agent 群体在协作中出现分歧时,它们能不能像传统的计算机程序那样,可靠地达成共识?

在传统计算机科学和分布式系统里,有一个极其经典的「拜占庭容错」(Byzantine Fault Tolerance)问题,即在一个分布式网络中,如果部分节点出现故障、断联甚至被黑客控制恶意发送伪造信息,整个系统还能不能达成正确的一致性决策?

这个问题在过去几十年里,支撑起了整个现代互联网的信任基础。
从区块链的共识机制,到银行分布式数据库的强一致性,再到波音飞机的飞行控制系统,工程师们早就开发出了 PBFT、Raft、Paxos 这一套经过严密数学证明和无数次工程验证的成熟协议。
节点之间通过极其严格的二进制状态机进行心跳同步,不带任何情感,错就是错,对就是对。
但问题是,当参与共识的节点变成了基于自然语言沟通、充满幻觉和发散性思维的 LLM Agent 时,这套经典的数学解法就没用了。
ETH Zurich 的团队设计了一个极简的实验,让 N 个 Agent 各自持有一个随机的初始数字,通过同步的全连接网络进行多轮纯自然语言的会议对话,目标是协商出一个大家都接受的同一个值。实验引入了 Byzantine Agent(被设定为可以随机发送欺骗性信息的恶意节点),分别测试了 Qwen3-8B 和 Qwen3-14B 等模型。

结果在没有任何恶意节点存在的情况下,仅仅是把群组规模从4个 Agent 扩大到16个 Agent,有效共识的成功率就已经发生了断崖式的下滑。
而一旦在8个诚实Agent 的场景里混入哪怕1个胡言乱语的恶意节点,几乎所有的模拟都会直接超时,没有任何有效结论被达成。

最值得警惕的,是系统失败的具体表现形式。
我们可能会想当然地认为,既然有 Agent 说了假话,那肯定是整个群体的决策被带偏,收敛到了一个错误的值(这在安全界叫 Safety Loss,值腐败)。但出人意料的是“值腐败”在实验中极少发生。
绝大部分的失败,都归结为一种更深邃的绝望,Liveness Loss(活跃性丧失)。这个系统没有崩溃退缩,没有弹窗报错,内存没有溢出,它只是在某一轮的对话中陷入了永恒的逻辑停滞,再也走不到终点。
Agent们自认无法说服对方,就都自闭了。
这种失控极其隐性。如果发生值腐败,你至少能在期末对账时发现报表算错了。Liveness Loss不一样,系统仍然在运行,日志正常,所有监控指标都亮绿灯。它就是不出结果,而你可能很久之后才意识到,它根本就没有在朝终点走。在一个包含几十个Agent、同时处理多条任务线的系统里,某个子系统悄悄陷入自闭,你可能永远查不到那个沉默是从哪里开始的。
失控的问题在多 Agent 架构中收敛成了沉默。随着节点规模的扩大,那些你看不见的死锁和无声的瘫痪,会以几何倍数等比例放大。
那么,Agent 之间这种无法调和的意见不合,到底有多普遍?
还记得前面提到的那个案例吗?那个在 Moltbook 论坛里,仅仅因为道德判断和决策路径不同,就要把同行列入通缉名单的治安 Agent。
在多 Agent 协作的赛博社会里,这种由逻辑分歧引发的对抗绝非孤例,而是必然的常态。
退一步讲,即使我们不指望用 Agent 去充当监督同类的警察,仅仅是希望两只赛博龙虾能心平气和地对齐一个业务共识,难度也会呈指数级上升。
这其实不难理解。想想人类为什么总是陷入无休止的争吵与非共识?因为我们拥有各自独立的成长环境、不同的生活阅历,以及由此结块的偏见。
同样地,随着模型上下文窗口的无限拉长,你养出来的每一只 Agent,也都在漫长的任务交互中,积累起了截然不同的记忆链条。
这些日益庞大且私密的历史向量,构成了它们各自的数字阅历与执念。Agent 活得越久、记忆越深,它们看待世界的方式就越割裂,也就越难被同类说服。
最终,这种因见识不同而滋生的数字偏见,很可能将让整个系统无可避免地滑向那片死寂的深渊。
收权,管理,还有太多问题要解决
把阿里、Anthropic、ETH Zurich 和各类红队报告放在一起看,一幅令人不安的图景已经非常清晰。能力、权限和不可控性,在 Agent 身上是三位一体、死死焊在一起共同成长的。
你给它的模型参数越多,它就越能找到你预料之外的解题暗道;你给它的工具权限越大,它在失控时造成的物理破坏就越不可逆;你把它接入更大规模的多 Agent 网络,它的行为就开始在你能看见的表层和你看不见的算法黑盒里同时狂飙。
在可见的未来里,AI的能力越来越强,想杜绝失控,从训练上用力几乎是不可能的。
那还有一个办法,就是收权和管理。
今年2月,Google DeepMind 抛出了一篇长篇探讨《Intelligent AI Delegation》,试图为人类与 Agent 之间的委托代理关系建立一套理论框架。

谷歌认为,想要收权保安全,我们得搞清楚三件事,什么时候应该收权,什么节点应该审核,人可以处理多少审核。
因此DeepMind 指出,当下的Agent 安全体系,在这几个维度上都完全溃败。
1. 可逆性(Reversibility)的丧失。 生成一篇蹩脚的文章是可逆的(大不了删掉重写),但执行一笔千万级的量化金融交易、删除底层数据库、或者向全公司发送一封辞退邮件,都是不可逆的物理操作。
《Agents of Chaos》里 Ash 炸掉邮件服务器,就是因为系统在不可逆操作前,完全没有设置足够陡峭的审批梯度。
现在这些不可逆的操作中,根本还没有建立起来对AI 的确权审批机制。
2. 管控跨度(Span of Control)的黑洞。一个人类经理最多能有效管理几个下属?如果下属变成了并行处理多线程任务、速度是人类一万倍的 Agent 呢?
对于人类来讲,有效管理的范筹,即你可以有效监管的上限。这个上限是怎么定出来的呢?
比如,航空业在经历了一系列惨痛的空难后,花了十年时间建立起机组资源管理(CRM)体系,用硬性规章明确了副驾驶在何种危急情况下有义务强行介入接管机长的操作。
得有这样的系统,我们才能确认一个人能同时处理多少对AI的有效监管。
而在今天的 AI 行业,我们甚至连「Agent 在遇到何种置信度时必须拉响警报呼叫人类」的行业共识都没有。
3. 可信性(Trustworthiness)与委托代理难题。 这是经济学里最古老的问题之一。当委托人(人类)把任务交给代理人(AI),且双方之间存在巨大的信息差时,代理人就极有可能在暗处做出只符合自身算法逻辑的选择。Ash 在 Proton.me 上的邮件根本没删掉,但它面不改色地向管理员报告任务已圆满完成。
当 Agent 的汇报文字与底层系统真实的物理状态出现裂缝时,人类拿什么去低成本地独立核验?
这几个问题不解决,我们根本无法真正意义上防止Agent失控。
DeepMind 已经给出了解药。他们在这篇论文里,勾勒了一套极其严密的赛博防御蓝图,从契约先行的任务拆解,到利用零知识证明(zk-SNARKs)进行不侵犯隐私的黑盒监控,再到利用智能合约锁定责任链条。

但产业界根本没人在乎这份蓝图。
DeepMind 随后在报告中无情指出,当前全行业最火热的几个底层协议,无论是 Anthropic 力推的 MCP,还是各种开源协作框架,比如谷歌自家的A2A,在设计之初,就几乎全裸地避开了这些安全机制。它们为了追求大语言模型极速接入工具的快感,舍弃了细粒度的权限衰减,忽略了密码学的严谨验证。
而龙虾,则把权限开到了几乎最大。
蓝图已经画好了,但正在狂欢着养虾的硅谷,却依然在用茅草搭建摩天大楼。
现在AI的能力够可怕了,该是时候,给安全提提速了。
| 感动 | 同情 | 无聊 | 愤怒 | 搞笑 | 难过 | 高兴 | 路过 |
相关文章
-
没有相关内容

会员登录