返回列表

像打即时战略游戏一样管 AI 智能体

ai-insights2026-06-1412 min read
像打即时战略游戏一样管 AI 智能体

作者:王林Lincoln | MindsLeap创始人 | Founders Space合伙人 | 企业家AI俱乐部创始人

“只要你的宏观操作足够多,只要你能足够快地发现问题并解决它们,你就能笨拙地把自己推向一个好的结果。”

这不是某个创业路演上的口号,而是 Y Combinator 最新一期闭门研究分享会上,研究员 Luke Worthwine 总结自己管理 AI 智能体工作流时的一句话。他把自己写代码的方式比作打即时战略游戏——多线操作、快速巡检、听到警报立刻跳转处理。然后他说,自己真的在用打《魔兽争霸》的方式管 AI 智能体。

这场聚会上有五篇论文和五个人在讲不同方向的东西:蛋白质语言模型、LLM 自我对弈、实时语音智能体、形式化验证、以及 Luke 自己的 AI 智能体调度。但真正让我觉得值得写给企业家看的,不是某篇论文的技术细节,而是这群最前沿的研究者正在如何重新组织自己的工作流程。

一个把 AI 智能体当兵种的工程师

Luke 的开场很直接。他说管理大量 AI 智能体最核心的挑战不是模型能力,而是注意力分配。就像你在《星际争霸》里不可能盯着屏幕上的每一个兵,你需要的是快速切换视角、听到声音提示就知道哪里出了问题。

于是他做了一件让很多工程师觉得滑稽的事:把自己电脑上每一个 AI 智能体会话映射成《魔兽争霸》和《星际争霸》里的不同兵种单元,按任务类型做颜色和主题区分。每个智能体执行操作时,会播放对应兵种的游戏音效。

"我立刻就知道这个标签需要我的注意力,这件事正在发生。我甚至不需要去读文字。"

他不是在做游戏,而是在解决一个非常实际的工程问题:当你同时运行多个 AI 智能体时,你如何知道哪个需要介入、哪个可以继续跑、哪个已经跑偏了?游戏行业花了二十多年研究人类注意力的捕捉机制——音效、颜色、图标——Luke 直接拿来用了。

APM 不只是游戏玩家的指标

即时战略游戏里有一个核心指标叫 APM,每分钟操作数。Luke 展示了一段《魔兽争霸 3》职业选手的对战录像:高手的 APM 非常高,但不是越高越好。不过,"没有人 APM 低还能打得好的"。

他做了一个类比:如果你的 AI 智能体工具调用频率很低,你的产出大概率也不高。

所以他们团队做了一个 APM 追踪器,但不是追踪点击次数,而是追踪 AI 智能体每分钟的工具调用数——过去一分钟、五分钟、一小时、一天、七天。"如果你的 APM 很低,那你可能根本没有在充分利用你能利用的东西。"

这个逻辑背后有一个更朴素的经济学直觉:如果你购买了计算资源,就不应该让它们闲置。就像 RTS 游戏里你不应该让工人闲着不采矿一样。每个小时都要把 token 用完,这是一种纪律,不是玄学。

做得差不多,比做得完美更重要

Luke 提到了一个来自经济学的词:satisficing,满意化。意思是做到够用就好,不需要完美。

"即使 AI 智能体做得比你差、比你慢,也比让智能体去做要好。出了错改起来很容易。"

这句话对很多习惯了精益求精的企业家来说可能不太舒服。但在 AI 智能体驱动的工作流里,"快速产出再修正"的效率远高于"一次做对"。因为他们团队在全面采纳这套方法后的一个月内,人均每月 Pull Request 数量又增长了 60%,整体产出是之前的三点五倍。

他还提到了一个容易被忽视的细节:把不同大小的任务混在一起跑。不要只让 AI 智能体干大活,也不要只干小活。大小混合,才能让你的注意力分配保持弹性。

蛋白质模型里的同一个故事

这场分享会的另一个重头戏是 Yas Beg 关于蛋白质语言模型的报告,标题直接借用了 Richard Sutton 那篇著名的文章——"苦涩的教训来到生物学"。

Sutton 的核心观点是:过去七十年 AI 历史里,最终胜出的方法不是那些塞满人类专家知识的系统,而是那些能吃下更多算力和数据的通用方法。AlphaGo 最早远不如专家系统,直到它开始用纯粹的自我对弈和大规模计算,最终指数级地超越了所有人。

Yas Beg 问了一个同样的问题:这套规律在蛋白质设计里成立吗?

蛋白质本质上就是由二十种氨基酸组成的字符串。研究人员的做法是让模型只看到这个字符串,然后像语言模型一样做掩码预测——遮住几个氨基酸,让模型猜它们是什么。不告诉模型任何关于蛋白质结构的先验知识。

结果是,随着训练算力的增加,模型自发地学会了预测蛋白质远距离的三维结构接触关系。它没有被告知任何生物学规则,它只是看够了足够多的序列。

这又回到了那个老故事:用规模和通用性碾压人工设计。

一个还没解决的问题

但这场分享会并非一片乐观。主持人 France 在开场时提出了一个他"非常纠结"的问题。

有人认为,如果我们用人类生成的数据来训练 AI,模型的能力就会被限制在人类已知方案的范围内。理论上,通过测试时计算和自我改进,模型也许能探索到人类方案之外的空间。但 France 的判断是:"这不怎么可能。不是说不可能,只是概率极低。"

这是一个尚未被证明的判断。但它的含义很直接:如果你的 AI 系统只见过人类做过的事,它大概率只会做人类做过的事。真正突破性的发现可能需要某种形式的自我对弈——就像 AlphaZero 不再看人类棋谱后,反而下出了人类从未见过的棋。

组织差距比技术差距更关键

这场分享会最让我触动的,不是某篇论文,而是这群研究者已经把自己的工作方式彻底重构了。

Luke 在准备这次演讲时的做法是这样的:他把主持人的要求贴给 AI 智能体,让它检索团队的知识库,基于团队已有方法论生成一份 PPT。然后他做了大约十五轮修改,再把所有修改和建议重新喂回知识库,让系统学习这些经验。

知识库不是文档管理系统,它是一套不断自我校准的团队记忆。Linked doc 被 AI 读取的速度远快于人,所以当你的业务逻辑被编码进去之后,AI 智能体就能基于这些知识提出功能建议、识别问题。

技术差距可以在几个月内被抹平。但当一个团队已经把 AI 智能体嵌入到日常产出节奏里,把知识沉淀变成自动化的习惯,把"满意化"而不是"完美化"作为交付标准——这种组织层面的差距,需要的时间要长得多。

对于中国企业家来说,真正的问题不是该不该引入 AI 智能体,而是你愿意以多快的速度把自己的工作节奏、注意力分配方式和知识管理习惯,重新设计一遍。


来源说明

本文由Lincoln根据 Y Combinator 官方频道 2026 年 6 月 12 日发布的视频《5 Papers That Show Where AI Research Is Heading Right Now》进行解读。


关于 MindsLeap 心智悦动

MindsLeap 是 AI 转型加速器,帮助传统企业家在 AI 时代找到转型路径。 与硅谷孵化器 Founders Space 合作,连接科技创业者与真实客户/场景, 连接国内外资本、硅谷科技圈,助力中国产业 AI 转型和出海。

返回列表
王林Lincoln · 2026-06-14