像打即时战略游戏一样管 AI 智能体

作者：王林Lincoln | MindsLeap创始人 | Founders Space合伙人 | 企业家AI俱乐部创始人

“只要你的宏观操作足够多，只要你能足够快地发现问题并解决它们，你就能笨拙地把自己推向一个好的结果。”

这不是某个创业路演上的口号，而是 Y Combinator 最新一期闭门研究分享会上，研究员 Luke Worthwine 总结自己管理 AI 智能体工作流时的一句话。他把自己写代码的方式比作打即时战略游戏——多线操作、快速巡检、听到警报立刻跳转处理。然后他说，自己真的在用打《魔兽争霸》的方式管 AI 智能体。

这场聚会上有五篇论文和五个人在讲不同方向的东西：蛋白质语言模型、LLM 自我对弈、实时语音智能体、形式化验证、以及 Luke 自己的 AI 智能体调度。但真正让我觉得值得写给企业家看的，不是某篇论文的技术细节，而是这群最前沿的研究者正在如何重新组织自己的工作流程。

一个把 AI 智能体当兵种的工程师

Luke 的开场很直接。他说管理大量 AI 智能体最核心的挑战不是模型能力，而是注意力分配。就像你在《星际争霸》里不可能盯着屏幕上的每一个兵，你需要的是快速切换视角、听到声音提示就知道哪里出了问题。

于是他做了一件让很多工程师觉得滑稽的事：把自己电脑上每一个 AI 智能体会话映射成《魔兽争霸》和《星际争霸》里的不同兵种单元，按任务类型做颜色和主题区分。每个智能体执行操作时，会播放对应兵种的游戏音效。

"我立刻就知道这个标签需要我的注意力，这件事正在发生。我甚至不需要去读文字。"

他不是在做游戏，而是在解决一个非常实际的工程问题：当你同时运行多个 AI 智能体时，你如何知道哪个需要介入、哪个可以继续跑、哪个已经跑偏了？游戏行业花了二十多年研究人类注意力的捕捉机制——音效、颜色、图标——Luke 直接拿来用了。

APM 不只是游戏玩家的指标

即时战略游戏里有一个核心指标叫 APM，每分钟操作数。Luke 展示了一段《魔兽争霸 3》职业选手的对战录像：高手的 APM 非常高，但不是越高越好。不过，"没有人 APM 低还能打得好的"。

他做了一个类比：如果你的 AI 智能体工具调用频率很低，你的产出大概率也不高。

所以他们团队做了一个 APM 追踪器，但不是追踪点击次数，而是追踪 AI 智能体每分钟的工具调用数——过去一分钟、五分钟、一小时、一天、七天。"如果你的 APM 很低，那你可能根本没有在充分利用你能利用的东西。"

这个逻辑背后有一个更朴素的经济学直觉：如果你购买了计算资源，就不应该让它们闲置。就像 RTS 游戏里你不应该让工人闲着不采矿一样。每个小时都要把 token 用完，这是一种纪律，不是玄学。

做得差不多，比做得完美更重要

Luke 提到了一个来自经济学的词：satisficing，满意化。意思是做到够用就好，不需要完美。

"即使 AI 智能体做得比你差、比你慢，也比让智能体去做要好。出了错改起来很容易。"

这句话对很多习惯了精益求精的企业家来说可能不太舒服。但在 AI 智能体驱动的工作流里，"快速产出再修正"的效率远高于"一次做对"。因为他们团队在全面采纳这套方法后的一个月内，人均每月 Pull Request 数量又增长了 60%，整体产出是之前的三点五倍。

他还提到了一个容易被忽视的细节：把不同大小的任务混在一起跑。不要只让 AI 智能体干大活，也不要只干小活。大小混合，才能让你的注意力分配保持弹性。

蛋白质模型里的同一个故事

这场分享会的另一个重头戏是 Yas Beg 关于蛋白质语言模型的报告，标题直接借用了 Richard Sutton 那篇著名的文章——"苦涩的教训来到生物学"。

Sutton 的核心观点是：过去七十年 AI 历史里，最终胜出的方法不是那些塞满人类专家知识的系统，而是那些能吃下更多算力和数据的通用方法。AlphaGo 最早远不如专家系统，直到它开始用纯粹的自我对弈和大规模计算，最终指数级地超越了所有人。

Yas Beg 问了一个同样的问题：这套规律在蛋白质设计里成立吗？

蛋白质本质上就是由二十种氨基酸组成的字符串。研究人员的做法是让模型只看到这个字符串，然后像语言模型一样做掩码预测——遮住几个氨基酸，让模型猜它们是什么。不告诉模型任何关于蛋白质结构的先验知识。

结果是，随着训练算力的增加，模型自发地学会了预测蛋白质远距离的三维结构接触关系。它没有被告知任何生物学规则，它只是看够了足够多的序列。

这又回到了那个老故事：用规模和通用性碾压人工设计。

一个还没解决的问题

但这场分享会并非一片乐观。主持人 France 在开场时提出了一个他"非常纠结"的问题。

有人认为，如果我们用人类生成的数据来训练 AI，模型的能力就会被限制在人类已知方案的范围内。理论上，通过测试时计算和自我改进，模型也许能探索到人类方案之外的空间。但 France 的判断是："这不怎么可能。不是说不可能，只是概率极低。"

这是一个尚未被证明的判断。但它的含义很直接：如果你的 AI 系统只见过人类做过的事，它大概率只会做人类做过的事。真正突破性的发现可能需要某种形式的自我对弈——就像 AlphaZero 不再看人类棋谱后，反而下出了人类从未见过的棋。

组织差距比技术差距更关键

这场分享会最让我触动的，不是某篇论文，而是这群研究者已经把自己的工作方式彻底重构了。

Luke 在准备这次演讲时的做法是这样的：他把主持人的要求贴给 AI 智能体，让它检索团队的知识库，基于团队已有方法论生成一份 PPT。然后他做了大约十五轮修改，再把所有修改和建议重新喂回知识库，让系统学习这些经验。

知识库不是文档管理系统，它是一套不断自我校准的团队记忆。Linked doc 被 AI 读取的速度远快于人，所以当你的业务逻辑被编码进去之后，AI 智能体就能基于这些知识提出功能建议、识别问题。

技术差距可以在几个月内被抹平。但当一个团队已经把 AI 智能体嵌入到日常产出节奏里，把知识沉淀变成自动化的习惯，把"满意化"而不是"完美化"作为交付标准——这种组织层面的差距，需要的时间要长得多。

对于中国企业家来说，真正的问题不是该不该引入 AI 智能体，而是你愿意以多快的速度把自己的工作节奏、注意力分配方式和知识管理习惯，重新设计一遍。

来源说明

本文由Lincoln根据 Y Combinator 官方频道 2026 年 6 月 12 日发布的视频《5 Papers That Show Where AI Research Is Heading Right Now》进行解读。

关于 MindsLeap 心智悦动

MindsLeap 是 AI 转型加速器，帮助传统企业家在 AI 时代找到转型路径。与硅谷孵化器 Founders Space 合作，连接科技创业者与真实客户/场景，连接国内外资本、硅谷科技圈，助力中国产业 AI 转型和出海。