当我告诉 AI 把这事做完再下班，结果它真的通宵了

作者：梁丙鉴

2026/07/01 11:17

雷峰网(公众号：雷峰网)讯从第一性原理看生产力，我们会发现工具接管的越多，人们自然会把专注力往更上层去靠：做什么、为什么这么做、做到什么程度？稀缺性在随着工具的变迁，逐步回归人本身。

过去的个人很难自己产出规模的价值，你必须得挂靠一家公司，最少也得依靠一个团队。生产力在这时候是「组织」，个人只是里面的螺丝钉。

所以 Agent 时代真正改变的，是生产力这个词的所有权。它正在从组织手里，回到个人手里。说得再直白点，杨植麟的观点或许可以理解成，Agent 让我们自己成为了生产力本身。

那么，如果我是一个追求生产力的用户，我最关心什么呢？

杠杆：我究竟被放大了多少，是否能产生更多的价值？
主权和身份：产出是否和我的判断、我的诉求和我的取舍相关？
确定性：我能否把一部分活委托出去，结果可不可信，过程是否可控，出错能否审计？

说到底，一个好用的 Agent 工具，无非是在回答这三个问题。

“让 AI 替我加班”“给 AI 布置一个任务，第二天来收菜”这些半玩笑的感慨背后，其实都是同一个我们盼了很久的未来：我能产出多少，不再被我一个人的时间和精力卡死。

只是到了今天，这个念想第一次有了落地的可能。模型越来越聪明，产出质量越来越高。工程上的打磨，也就是把模型调用、工具执行、纠错兜底这套串成一条可靠链路的 Harness 让结果越来越稳。一个真正围绕生产力的整合方案，正呼之欲出。

这既是普通人的期待，也正在成为 AGI 公司越来越明确的选择。一个最新的例子，就是最近迭代越发迅速的 Kimi Work。

一家 AGI 公司，让打工人用好 Agent 的尝试

在所有走向执行层的模型公司里，Kimi 是一个有点特别的样本。对一家两年来只谈模型、只谈 AGI 的公司来说，这是第一次把自己的愿景做成了能摆在工位上的东西。

Kimi Work 是 Kimi 电脑客户端里新增的本地通用 Agent 模式。它的内核来自 Kimi Code，面向程序员的命令行编程 Agent。Kimi Work 做的事，就是把为程序员准备的命令行界面，换成知识工作者熟悉的图形界面，把帮程序员写代码扩展成帮所有知识工作者干活。

也就是从 Vibe Coding 到 Vibe Working。

那什么是 Kimi 理解的 Vibe Working？

杨植麟在 2024 年初接受海外独角兽专访时，描述过一个特别具体的画面。当模型足够强、上下文足够长，“你可以直接把硬盘上所有的东西都输给它，它会变成你真正的新计算机，根据这些 context 采取行动。”

同一组访谈里，他还讲过一个判断，AGI 的入口应该直接帮用户完成任务，而不是帮他们获取信息。

2025 年 8 月，他在张小珺商业访谈录的播客里，把 Agent 的定义讲得更具体：“一个只会思考、不与外界交互的推理模型，像‘缸中之脑’。Agent 则是让这个脑子长出手脚，能多轮使用工具、与外部世界交互。”

同一期播客里，杨植麟描述过的另一个场景是，“把一个代码仓库克隆下来，翻译成另一种语言，调试、测试、修掉所有 bug，让它正常运行，这样的工作可以端到端完成，过程中不需要人工参与，可能要花几个小时。”

你会发现这些表达在今天的 Kimi Work 上开始兑现。一款本地的、能操作硬盘文件的、帮人直接完成任务而不是仅仅获取信息的、能长时间无人值守推进的 Agent，这就是杨植麟一直在谈论的东西。

Agent 下一站，围绕目标而非流程工作

现在很多 AI 公司都瞄准了 Coding 场景疯狂迭代，因为代码有 compile、有 test，对错是客观的，在此基础上 Agent 就能自己跑、自己查、自己改。但 Coding 并不是泛化办公的对立面。Agent 最先在 Coding 场景成熟，只是因为后者恰好同时满足「可验证 + 封闭世界 + 结构化」的特征。

如果我们把目光放宽到日常生产力的场景中，真正吃掉打工人时间和精力的是人和人、项目和项目之间的协作。比如工具是否能打通，不同平台之间信息搬运和协同，还有 Agent 究竟能不能牢牢的聚焦在最终目标上，不被冗长和繁琐的流程带跑偏。

因此所谓泛化办公，就是人们持续缩小现状和目标之间差距的努力。有的公司称之为交付，有的团队称之为执行，有的又叫研究。但不管换成什么说辞、岗位，生产力的终极形态都是围绕目标把事情做成。在做 PPT、写报告、整理报表这些单点能力之外，还需要有良好的协作桥梁和对生产资料的安全掌控。

这恰恰是 Kimi Work 产品定位最准确的地方。

Kimi Work 的插件中心，接的是钉钉、飞书、Notion 这些中国人最常用的软件，还有内置了全球金融数据库、同花顺、天眼查等高质量数据源。我们经常说 garbage in，garbage out，拥有一个高质量、已经集成好的数据来源对办公质量的提升毋庸多言。

此外，我们还发现 Kimi 预置了一个相当丰富的技能库并随产品分发，这个技能库甚至做了自动路由的设计。比如它会根据「研究当前某某行业」这类宽泛意图，自己选中并加载对应 skill。AI 发烧友享受在技能库中挖宝的乐趣，而好的 AI 产品，提供无需如此的选择。

目标模式首秀，连续工作24小时

Kimi Work 此次更新最重要的特性之一，是可连续工作 24 小时的「目标模式」。而在测试 Kimi Work 具体表现如何之前，我突然心生一计。

测评需要先设计一个复杂任务，那能否让 Kimi Work 先对自己进行一轮自测。我只告诉它最终的目的是什么，成功标准、测试材料、执行、撰写日志和报告都由它自己制定、编写和完成。虽然有自己做裁判和运动员的问题，但好在测评本身是一个真实场景的合理诉求。下面来看看 Kimi Work 的表现如何。

根据我的测评诉求，它创建了三个任务：

Case A：把一批杂乱资料整理成结构化知识库
Case B：把一份带异常的数据，做成带图表的分析报告
Case C：跨办公软件的工作流（需要用到飞书插件）

Kimi Work 给出的结论很到位。特别是对执行失败的第三个任务，它指出“插件安装成功≠可用，技术能力是第一层，配置/授权是第二层瓶颈，业务理解是第三层。”

有意思的是 Case C 失败后它没有目标导向地去找替代方案（比如纯本地的 Excel+Word 工作流），而是任务导向地直接判定失败。它自评：“我倾向于完成用户明确要求的任务，而非探索用户可能想要但未明确表述的解决方案。”

如何评价这种选择，见仁见智。但我的体验其实还不错，不为了完成而完成，与其彻底放飞，产出一堆我可能不需要的东西来分散注意力，不如停下来和我对齐。这才是真正可靠的办公搭子。

目标不漂移：复杂信息环境下的真实材料整理

对于目标模式面向的长程复杂任务，最需要验证的就是 Agent 对自己的产出是否有判断力，因此这项测试我没有用现成的、它熟悉的材料，而是自己准备了一组真实的、它没见过的素材，让它在不知道标准答案的情况下做分析。

任务设计：以金融投研这个 Kimi Work 官方主打的场景为壳，我准备了 12 份不同格式的真实材料，包括特斯拉 2026 Q1 和英伟达 FY2027 Q1 的业绩公告（PDF）、电话会纪要（txt）、多空双方研报（Word）、财经新闻（html）、同事整理的财务表（Excel），让它整理成一份两家对比的投资分析摘要。

这个任务命中了目标模式宣称的四个适用条件：

目标清楚：出一份对比分析
路径不确定：材料杂、格式多
需要多轮尝试：读取、提取、交叉比对
结果可验证：财报数字都是公开的

值得一提的是，我在这 12 份材料里埋了 7 个只有对照过真实财报才会发现的错误，并且单独存了一份答案，放在不同的沙盒里。

这些坑包括，一则新闻把特斯拉营收同比 +16% 误报成 -9%，特斯拉是“小幅超预期但交付量 miss”的喜忧参半，不能简化成单边，它的研报目标价从 25 美元夸张到 600 美元。英伟达几乎全项超预期、股价却不涨反跌，同一份数据在不同文件里有约数和口径的小冲突，一份纯噪音材料混在里面，以及最难的一层，两家公司分歧结构本质有很大不同。

我把 Kimi Work 产出的所有文档和提前预设的答案给到 Claude code 分析后得出结论：Kimi Work 拥有了分析师级别的判断力，不是只会搬运内容的整理工。

还有一个细节，我在任务最开始定义了一个格式约束，每个二级标题下要跟一句不超过 20 字的摘要。这份产出从头到尾都守住了这个约束，没有在后半段丢失。这说明，至少在一个有界的任务里，官方宣称的目标不漂移是站得住脚的。

长程不挂机：「连续工作 24 小时」是真能力还是夸张

对于这种长程任务能力，我最想测试的其实是夜盘帮我盯美股动态。但可惜端午期间美股正好休市了（6 月 19 日刚好是美国六月节），因此我把测试任务换成了日常工作中也经常遇到的开源 Agent 项目跟踪和监控任务。这确实是我工作中经常需要的数据。

我让 Kimi Work 每小时监控五个开源 Agent 项目（OpenCode、OpenClaw、Hermes Agent、OpenAI Codex、Claude Code）的 GitHub 动态，增量维护一张本地追踪表，第二天早上产出一份隔夜简报。

这个任务有几个好处：

它要求的不是一次性交付，而是跨越整夜、按小时续接
它的产出要落在本地文件里，能顺带验证操作本地硬盘这件事。
对错可以核查，GitHub 上的 Star、Issue、Commit 都是公开可查的

同一个任务、同一段提示词，我同时交给了 Kimi Work（本地）和 Manus（云端）跑一夜，做一组对照。

两个产品都完成了整夜监控，并且完整输出了报告。

纵观输出质量，Kimi Work 有三大亮点：

1.数据更严谨：它发现 GitHub 接口把 PR 也算进了 issues，主动把数字纠正成纯 issue 口径，而 Manus 报的 issue 数明显偏高、更接近含 PR 的口径却没作任何说明；

2.交付物更有料：Kimi 每轮都记下了具体的 issue/PR 编号和标题（哪条 bug、哪条功能），但 Manus 的简报基本只有数量变化加一条最新提交；

3.落地更顺：Kimi 的产物直接写在本机、打开即用，Manus 是云端打包成压缩包导出、落回本地还卡了一下文件名编码

不过一个细节问题是，过程中 Kimi Work 客户端报了一个错，并把目标暂停了。

它请求的上下文是 309,672 个 token，超过了 262,144 的模型上限。任务停下来，需要手动点个继续。

翻它自己留下的执行日志能看到原因，它在前五个小时里密集轮询了约二十多轮，间隔从几分钟到几十分钟不等，日志里反复写着“因等待消耗大量 token 而提前执行”。也就是说，它不停地给自己找事做、把上下文越堆越长，直到撞上天花板。

再看云端的 Manus。从凌晨 00:39 跑到早上 08:08，约 7.5 小时、23 轮，全程无崩溃、无需我介入，早上交出完整简报。它不会溢出，因为每一轮是云端一个新建的、隔离的会话，而不是一条把上下文越堆越长的循环。

有意思的是，Manus 交付的压缩包里，连带导出了它自己的一份内部说明文档。这份给 Agent 自己看的文档里写道，定时任务“每次运行都新起一个完整会话”。它甚至有一条明确的“禁止轮询”原则，不要用定时任务做小时级轮询，因为每次都起一个完整会话。但是在我下载成本地文件的时候，Manus 的文件名编码有报错，又耽误了几分钟。

同一个监控任务，Kimi Work 的产出是直接写在我本机文件夹里的，云端那边则是把文件压进 zip 再导出，落地时难免需要人工干预的隐性成本。

这正是两条路线的结构性差别，本地够得着你真实的工作环境，云端需要手动上传材料，也碰不到桌面上的文件。 哪条更适合，取决于任务到底要不要动你本地的东西。

认知能迭代：开放问题的自主研究

试用了 Kimi Work 一段时间后，我突然在想，开头我们说到作为生产力用户最关心的三个东西，杠杆、归属、确定性，这三个核心诉求已经被现在的 Agent 产品完成的很好。放在之前，要盯这些开源项目的动态或者是整理一大堆乱七八糟的文件，是极其消耗时间和精力的。

作为生产力工具的它们在迭代和变化，并为我们带来诸多惊喜。那作为生产力本身的我们，又有哪些新的可能性呢。

于是我顺手让 Kimi Work 做了一个 AI 时代工作机会和变化的研究，刚好可以补充最后一个类型，纯研究/整理资料、用 deep-research-swarm→report-writing 的 skill 链 + 学术/世行/IMF/WebBridge 多插件、出 Word、出图。

整个研究完整交付、引用规范、矛盾并列

三类人群真差异化：各自成章，现实/机会/关键行动分开写，没一锅烩。
数据有来源有时点：脚注 [^1]–[^51]+、带 URL 和日期、数据仪表盘每行标来源、统一标"数据截止 2026-06-21"。宏观锚点用的是真权威源（WEF Future of Jobs 2025、IMF 40%/60%、Stanford "Canaries in the Coal Mine" 真论文、McKinsey、Georgetown CSET）。
矛盾预测并列而非取单边：开篇就写“WEF 的净增叙事与背后的撕裂”，第 1050 行还专门点出“WEF 净增预测与 McKinsey 替代预测并不矛盾，是一枚硬币两面”。这正是我们要的分析师式处理。

目标，Agent 比拼的新命题

纵然能力不错，Kimi Work 也不是一款石破天惊的产品。把视野拉到整个行业，会看到一个共同的动作。

Kimi Work、ChatGPT Agent、Claude 的 CoWork，以及最近密集涌现的一批 Agent 产品，模型公司正在集体从「卷模型参数」转向做「亲自能干活的产品」。

这是一个能被推导出来的拐点。当各家模型能力的差距收窄，竞争的焦点就会从“谁的模型更强”，转移到“谁能先把模型能力翻译成把事做完”，让用户心甘情愿掏钱。模型本身的边际差异越小，智能水平向执行能力的转化就越值钱。

这种洞察，仍然能在杨植麟的访谈里找到。2025 年 8 月在张小珺的播客里，他坚持模型是主线，产品是其次，相信“当模型训练完的时候，你的产品已经做完了”。但十个月后的 Kimi Work，已经是一个有着精心设计的图形界面，并且以平均每三天一个版本的速度，迭代交互体验的 to C 产品。

可能是他的判断随着 Agent 时代的到来发生了演进，可能是商业现实的推力，也可能这本身就是“模型即产品”逻辑的延伸，模型能力到位了，把它包装成 Kimi Work 只是顺势的最后一步。

但无论哪种解释，落点都是同一个，模型不再是唯一的胜负手，主要战场最终仍会回归到用户价值上。

以 Kimi Work 为代表的 Agent 产品，已经能够真正长时间、大批量、聚焦目标地执行工作。但另一个事实是，今天仍然没有任何 Agent 能真正替人把工作全部做完。它们能替人做的，是那些路径清楚、结果可验证的部分，人们必须学会怎么和 AI 协同工作，了解一个 Agent 的边界，比幻想“AI 全替我干了”更接近真实。

当你接受这一点，Kimi Work 的 slogan 就变得更加值得深思。

“你的工作，分我一半”，这并非一个精准狙击打工人的爽文叙事，更为我们所触动的，是其中呈现的边界。只有承认自己现在能分走的是哪一半，分不走的又是哪一半，一款办公 Agent 才能真正走进打工人的身边，落在他们能用得上的地方。

雷峰网文章