OpenAI 发布智能合约基准测试,这意味着什么?
作者:@chaowxyz
原文链接:https://x.com/chaowxyz/status/2024358080910413973
声明:本文为转载内容,读者可通过原文链接获得更多信息。如作者对转载形式有任何异议,请联系我们,我们将按照作者要求进行修改。转载仅用于信息分享,不构成任何投资建议,不代表吴说观点与立场。
全文如下:
--这不仅是合约能力测评,更是 Agent 的链上生存考试。
早上起床收到了一大堆私信,吓得我还以为 AGI 实现了。仔细看是 OpenAI 新发布了智能合约基准测试,简单讲讲这个。
一句话总结,Agent 理解、修复和运用智能合约的能力,并不是用来抢加密安全公司饭碗的。在我看来,这些能力指向的是一个更根本的问题:Agent 未来能否真正在加密环境中生存和行动。而 OpenAI 发布的 evmbench,就是衡量这种生存能力的刻度尺。
过年在外面还来不及详细解读报告,简单速揽了一遍,初步感觉是:这是个有创新,但总体还比较早期和简陋的 benchmark。
基准使用了现实世界中 40 个真实项目里发生的 120 个高危漏洞 。
考试分三科:科目一:找茬。寻找漏洞。科目二:修补。给它有漏洞的代码,让它把漏洞修好 。科目三:攻击,AI 扮演黑客,在一个本地搭建的环境里,给通过操作加密钱包进行攻击。更具体的技术层不展开了,相比 evmbench 的方法论和题目细节本身,我更感兴趣的是为什么 OpenAI 会发布这个。
过去几年间,OpenAI 并未特别展现出对加密领域的兴趣。这次发布里显然有加密 VC Paradigm 在推波助澜,Paradigm 的动机自然不难理解,但发表的第一作者署名是 OpenAI,这说明 OpenAI 不只是被动配合,而是有主动意愿的。
那这个意愿从哪里来?
一个直接的解释是这是 OpenAI 内部 Preparedness Framework 的延伸,评估前沿模型在高风险场景下的能力边界,智能合约安全只是其中一个部分。但这显然不是全部。
Agent 利用加密网络,不只是一种可能性,某种程度上是一种必然。OpenAI 当然也看得到这一点。在发布报告里也很明确提到 "we expect agentic stablecoin payments to grow"
但我认为这个命题并不止于 Agent 支付。我们现在讨论的 Agent,大多数还是工具属性的,人发出指令,Agent 执行,结果返回给人。但这个形态不会是终点。当 Agent 的数量足够多、能力足够强,它们之间显然会开始直接协作:一个 Agent 雇佣另一个 Agent 完成子任务,一个 Agent 向另一个 Agent 购买数据或算力,一个 Agent 代表某个组织与另一个组织的 Agent 谈判、签约、履约。
人退出了交易的中间环节。
这时候一个根本问题浮出水面:当人不再居中,这套经济体系靠什么运转?
人类社会解决信任和协作,靠的是几千年碳基文明积累出来的一套体系,法律、声誉、机构担保等等。但这套体系的底层逻辑是为人设计的:参与方有持续身份,有社会后果,有被追责的可能。Agent 天然不满足这个前提。它可以一秒发起千笔交易,可以随时销毁重建身份,可以无视任何司法边界。
有人会说,那就把 Agent 和人类身份强行绑定,用人类授权来做担保。但这等于把一套为碳基生命设计的枷锁,套在一个运行速度和规模完全不同的物种身上,不只是低效,而是从根本上误解了 Agent 是什么。更何况,Agent 的演化方向必然指向更高的自主性。未来的 Agent 很可能不依附于任何人类个体,没有 " 主人 ",没有可以绑定的人类身份,它就是独立的行动者。到那时,这套绑定逻辑连锚点都找不到。
把人类的信任基础设施套在 Agent 社会上,就像用马车的路规来管飞机。
Agent 社会需要自己的基础设施。
智能合约提供了这种可能。它不依赖 " 你相信对方会履约 ",而是把履约条件写进代码,由网络强制执行。没有仲裁员,没有等待期,条件触发,结果自动发生。
更进一步,智能合约可能不只是结算工具,而是 Agent 组织形态本身——治理规则、资源分配、任务调度,全部在链上定义,执行靠代码,不需要任何人居中。
而当一部分 Agent 就生活在链上,与各种合约交互本身就是它每一天的全部。如何读懂一份合约,如何在复杂的协议里找到自己的位置,如何识别陷阱、规避风险、在这个没有客服、没有申诉、没有撤销键的世界里活下去。这一切依赖的,都是对合约的理解和运用。能力不够,就是真实的损失,判断失误,就是永久的。
所以回头看 EVMbench,它测的能力,读懂合约、发现漏洞、构造交易、执行攻击,本质上是在回答一个问题:Agent 是否已经学会做这个新世界(7.760, -0.10, -1.27%)生存。
OpenAI 大概率已经意识到,谁的 Agent 学会在链上世界自主生存,谁就拿到了下一阶段的入场券。更进一步,未来的 agent 可能已经不能用谁的来形容。他们也许就是独立的个体。
最后说点不相干的,大家集体 DM 我是因为我在一年半前曾经做过一个兴趣项目 CryptoBench,感谢朋友们还记得它。GitHub - xxcg322/CryptoBench
这是第一个检测 AI 在加密领域能力的 Benchmark,包括了从密码学算法,区块链底层,智能合约,生态,DAO 治理等多方面的测试,其中智能合约部分也包含了检测和修复,而参考的漏洞本身,一部分和 OpenAI 这次参考的漏洞集是一样的。
Benchmark 发布的时候还是得到了不少朋友的支持和鼓励。不过那时候我的感觉是,真正理解他的朋友并不是太多。虽然我很久没提过这玩意了,但我对它还是很满意和骄傲的。过几天讲讲这个背后的故事,我为什么认为这类的基准非常重要,我从过程中学到什么,以及为什么最近一年没再提这事。
另外 Benchmark 本身也是我在 AI 领域非常感兴趣的方向,我最近刚刚对 2019-2025 年发布的 2 万 2 千个各类的 AI benchmark 做了数据研究,也有很多有趣的发现。等我玩回来也给大家分享下。
| 感动 | 同情 | 无聊 | 愤怒 | 搞笑 | 难过 | 高兴 | 路过 |
相关文章
-
没有相关内容

会员登录