过去的个人很难自己产出规模的价值,你必须得挂靠一家公司,最少也得依靠一个团队。生产力在这时候是「组织」,个人只是里面的螺丝钉。
所以 Agent 时代真正改变的,是生产力这个词的所有权。它正在从组织手里,回到个人手里。说得再直白点,杨植麟的观点或许可以理解成,Agent 让我们自己成为了生产力本身。
那么,如果我是一个追求生产力的用户,我最关心什么呢?
杠杆:我究竟被放大了多少,是否能产生更多的价值?
主权和身份:产出是否和我的判断、我的诉求和我的取舍相关?
确定性:我能否把一部分活委托出去,结果可不可信,过程是否可控,出错能否审计?
说到底,一个好用的 Agent 工具,无非是在回答这三个问题。
“让 AI 替我加班”“给 AI 布置一个任务,第二天来收菜”这些半玩笑的感慨背后,其实都是同一个我们盼了很久的未来:我能产出多少,不再被我一个人的时间和精力卡死。
只是到了今天,这个念想第一次有了落地的可能。模型越来越聪明,产出质量越来越高。工程上的打磨,也就是把模型调用、工具执行、纠错兜底这套串成一条可靠链路的 Harness 让结果越来越稳。一个真正围绕生产力的整合方案,正呼之欲出。
这既是普通人的期待,也正在成为 AGI 公司越来越明确的选择。一个最新的例子,就是最近迭代越发迅速的 Kimi Work。

01
在所有走向执行层的模型公司里,Kimi 是一个有点特别的样本。对一家两年来只谈模型、只谈 AGI 的公司来说,这是第一次把自己的愿景做成了能摆在工位上的东西。

Kimi Work 是 Kimi 电脑客户端里新增的本地通用 Agent 模式。它的内核来自 Kimi Code,面向程序员的命令行编程 Agent。Kimi Work 做的事,就是把为程序员准备的命令行界面,换成知识工作者熟悉的图形界面,把帮程序员写代码扩展成帮所有知识工作者干活。
也就是从 Vibe Coding 到 Vibe Working。
那什么是 Kimi 理解的 Vibe Working?
杨植麟在 2024 年初接受海外独角兽专访时,描述过一个特别具体的画面。当模型足够强、上下文足够长,“你可以直接把硬盘上所有的东西都输给它,它会变成你真正的新计算机,根据这些 context 采取行动。”
同一组访谈里,他还讲过一个判断,AGI 的入口应该直接帮用户完成任务,而不是帮他们获取信息。
2025 年 8 月,他在张小珺商业访谈录的播客里,把 Agent 的定义讲得更具体:“一个只会思考、不与外界交互的推理模型,像‘缸中之脑’。Agent 则是让这个脑子长出手脚,能多轮使用工具、与外部世界交互。”
同一期播客里,杨植麟描述过的另一个场景是,“把一个代码仓库克隆下来,翻译成另一种语言,调试、测试、修掉所有 bug,让它正常运行,这样的工作可以端到端完成,过程中不需要人工参与,可能要花几个小时。”
你会发现这些表达在今天的 Kimi Work 上开始兑现。一款本地的、能操作硬盘文件的、帮人直接完成任务而不是仅仅获取信息的、能长时间无人值守推进的 Agent,这就是杨植麟一直在谈论的东西。

02
现在很多 AI 公司都瞄准了 Coding 场景疯狂迭代,因为代码有 compile、有 test,对错是客观的,在此基础上 Agent 就能自己跑、自己查、自己改。但 Coding 并不是泛化办公的对立面。Agent 最先在 Coding 场景成熟,只是因为后者恰好同时满足「可验证 + 封闭世界 + 结构化」的特征。
如果我们把目光放宽到日常生产力的场景中,真正吃掉打工人时间和精力的是人和人、项目和项目之间的协作。比如工具是否能打通,不同平台之间信息搬运和协同,还有 Agent 究竟能不能牢牢的聚焦在最终目标上,不被冗长和繁琐的流程带跑偏。
因此所谓泛化办公,就是人们持续缩小现状和目标之间差距的努力。有的公司称之为交付,有的团队称之为执行,有的又叫研究。但不管换成什么说辞、岗位,生产力的终极形态都是围绕目标把事情做成。在做 PPT、写报告、整理报表这些单点能力之外,还需要有良好的协作桥梁和对生产资料的安全掌控。
这恰恰是 Kimi Work 产品定位最准确的地方。
Kimi Work 的插件中心,接的是钉钉、飞书、Notion 这些中国人最常用的软件,还有内置了全球金融数据库、同花顺、天眼查等高质量数据源。我们经常说 garbage in,garbage out,拥有一个高质量、已经集成好的数据来源对办公质量的提升毋庸多言。

此外,我们还发现 Kimi 预置了一个相当丰富的技能库并随产品分发,这个技能库甚至做了自动路由的设计。比如它会根据「研究当前某某行业」这类宽泛意图,自己选中并加载对应 skill。AI 发烧友享受在技能库中挖宝的乐趣,而好的 AI 产品,提供无需如此的选择。


03
Kimi Work 此次更新最重要的特性之一,是可连续工作 24 小时的「目标模式」。而在测试 Kimi Work 具体表现如何之前,我突然心生一计。
测评需要先设计一个复杂任务,那能否让 Kimi Work 先对自己进行一轮自测。我只告诉它最终的目的是什么,成功标准、测试材料、执行、撰写日志和报告都由它自己制定、编写和完成。虽然有自己做裁判和运动员的问题,但好在测评本身是一个真实场景的合理诉求。下面来看看 Kimi Work 的表现如何。
根据我的测评诉求,它创建了三个任务:
Case A:把一批杂乱资料整理成结构化知识库
Case B:把一份带异常的数据,做成带图表的分析报告
Case C:跨办公软件的工作流(需要用到飞书插件)

Kimi Work 给出的结论很到位。特别是对执行失败的第三个任务,它指出“插件安装成功≠可用,技术能力是第一层,配置/授权是第二层瓶颈,业务理解是第三层。”
有意思的是 Case C 失败后它没有目标导向地去找替代方案(比如纯本地的 Excel+Word 工作流),而是任务导向地直接判定失败。它自评:“我倾向于完成用户明确要求的任务,而非探索用户可能想要但未明确表述的解决方案。”

如何评价这种选择,见仁见智。但我的体验其实还不错,不为了完成而完成,与其彻底放飞,产出一堆我可能不需要的东西来分散注意力,不如停下来和我对齐。这才是真正可靠的办公搭子。

04
对于目标模式面向的长程复杂任务,最需要验证的就是 Agent 对自己的产出是否有判断力,因此这项测试我没有用现成的、它熟悉的材料,而是自己准备了一组真实的、它没见过的素材,让它在不知道标准答案的情况下做分析。
任务设计:以金融投研这个 Kimi Work 官方主打的场景为壳,我准备了 12 份不同格式的真实材料,包括特斯拉 2026 Q1 和英伟达 FY2027 Q1 的业绩公告(PDF)、电话会纪要(txt)、多空双方研报(Word)、财经新闻(html)、同事整理的财务表(Excel),让它整理成一份两家对比的投资分析摘要。
这个任务命中了目标模式宣称的四个适用条件:
目标清楚:出一份对比分析
路径不确定:材料杂、格式多
需要多轮尝试:读取、提取、交叉比对
结果可验证:财报数字都是公开的

值得一提的是,我在这 12 份材料里埋了 7 个只有对照过真实财报才会发现的错误,并且单独存了一份答案,放在不同的沙盒里。
这些坑包括,一则新闻把特斯拉营收同比 +16% 误报成 -9%,特斯拉是“小幅超预期但交付量 miss”的喜忧参半,不能简化成单边,它的研报目标价从 25 美元夸张到 600 美元。英伟达几乎全项超预期、股价却不涨反跌,同一份数据在不同文件里有约数和口径的小冲突,一份纯噪音材料混在里面,以及最难的一层,两家公司分歧结构本质有很大不同。
我把 Kimi Work 产出的所有文档和提前预设的答案给到 Claude code 分析后得出结论:Kimi Work 拥有了分析师级别的判断力,不是只会搬运内容的整理工。

还有一个细节,我在任务最开始定义了一个格式约束,每个二级标题下要跟一句不超过 20 字的摘要。这份产出从头到尾都守住了这个约束,没有在后半段丢失。这说明,至少在一个有界的任务里,官方宣称的目标不漂移是站得住脚的。

05
对于这种长程任务能力,我最想测试的其实是夜盘帮我盯美股动态。但可惜端午期间美股正好休市了(6 月 19 日刚好是美国六月节),因此我把测试任务换成了日常工作中也经常遇到的开源 Agent 项目跟踪和监控任务。这确实是我工作中经常需要的数据。
我让 Kimi Work 每小时监控五个开源 Agent 项目(OpenCode、OpenClaw、Hermes Agent、OpenAI Codex、Claude Code)的 GitHub 动态,增量维护一张本地追踪表,第二天早上产出一份隔夜简报。
这个任务有几个好处:
它要求的不是一次性交付,而是跨越整夜、按小时续接
它的产出要落在本地文件里,能顺带验证操作本地硬盘这件事。
对错可以核查,GitHub 上的 Star、Issue、Commit 都是公开可查的
同一个任务、同一段提示词,我同时交给了 Kimi Work(本地)和 Manus(云端)跑一夜,做一组对照。

两个产品都完成了整夜监控,并且完整输出了报告。
纵观输出质量,Kimi Work 有三大亮点:
1.数据更严谨:它发现 GitHub 接口把 PR 也算进了 issues,主动把数字纠正成纯 issue 口径,而 Manus 报的 issue 数明显偏高、更接近含 PR 的口径却没作任何说明;
2.交付物更有料:Kimi 每轮都记下了具体的 issue/PR 编号和标题(哪条 bug、哪条功能),但 Manus 的简报基本只有数量变化加一条最新提交;
3.落地更顺:Kimi 的产物直接写在本机、打开即用,Manus 是云端打包成压缩包导出、落回本地还卡了一下文件名编码
不过一个细节问题是,过程中 Kimi Work 客户端报了一个错,并把目标暂停了。

它请求的上下文是 309,672 个 token,超过了 262,144 的模型上限。任务停下来,需要手动点个继续。
翻它自己留下的执行日志能看到原因,它在前五个小时里密集轮询了约二十多轮,间隔从几分钟到几十分钟不等,日志里反复写着“因等待消耗大量 token 而提前执行”。也就是说,它不停地给自己找事做、把上下文越堆越长,直到撞上天花板。

再看云端的 Manus。从凌晨 00:39 跑到早上 08:08,约 7.5 小时、23 轮,全程无崩溃、无需我介入,早上交出完整简报。它不会溢出,因为每一轮是云端一个新建的、隔离的会话,而不是一条把上下文越堆越长的循环。
有意思的是,Manus 交付的压缩包里,连带导出了它自己的一份内部说明文档。这份给 Agent 自己看的文档里写道,定时任务“每次运行都新起一个完整会话”。它甚至有一条明确的“禁止轮询”原则,不要用定时任务做小时级轮询,因为每次都起一个完整会话。但是在我下载成本地文件的时候,Manus 的文件名编码有报错,又耽误了几分钟。

同一个监控任务,Kimi Work 的产出是直接写在我本机文件夹里的,云端那边则是把文件压进 zip 再导出,落地时难免需要人工干预的隐性成本。
这正是两条路线的结构性差别,本地够得着你真实的工作环境,云端需要手动上传材料,也碰不到桌面上的文件。 哪条更适合,取决于任务到底要不要动你本地的东西。

06
试用了 Kimi Work 一段时间后,我突然在想,开头我们说到作为生产力用户最关心的三个东西,杠杆、归属、确定性,这三个核心诉求已经被现在的 Agent 产品完成的很好。放在之前,要盯这些开源项目的动态或者是整理一大堆乱七八糟的文件,是极其消耗时间和精力的。
作为生产力工具的它们在迭代和变化,并为我们带来诸多惊喜。那作为生产力本身的我们,又有哪些新的可能性呢。
于是我顺手让 Kimi Work 做了一个 AI 时代工作机会和变化的研究,刚好可以补充最后一个类型,纯研究/整理资料、用 deep-research-swarm→report-writing 的 skill 链 + 学术/世行/IMF/WebBridge 多插件、出 Word、出图。

整个研究完整交付、引用规范、矛盾并列
三类人群真差异化:各自成章,现实/机会/关键行动分开写,没一锅烩。
数据有来源有时点:脚注 [^1]–[^51]+、带 URL 和日期、数据仪表盘每行标来源、统一标"数据截止 2026-06-21"。宏观锚点用的是真权威源(WEF Future of Jobs 2025、IMF 40%/60%、Stanford "Canaries in the Coal Mine" 真论文、McKinsey、Georgetown CSET)。
矛盾预测并列而非取单边 :开篇就写“WEF 的净增叙事与背后的撕裂”,第 1050 行还专门点出“WEF 净增预测与 McKinsey 替代预测并不矛盾,是一枚硬币两面”。这正是我们要的分析师式处理。


07
纵然能力不错,Kimi Work 也不是一款石破天惊的产品。把视野拉到整个行业,会看到一个共同的动作。
Kimi Work、ChatGPT Agent、Claude 的 CoWork,以及最近密集涌现的一批 Agent 产品,模型公司正在集体从「卷模型参数」转向做「亲自能干活的产品」。
这是一个能被推导出来的拐点。当各家模型能力的差距收窄,竞争的焦点就会从“谁的模型更强”,转移到“谁能先把模型能力翻译成把事做完”,让用户心甘情愿掏钱。模型本身的边际差异越小,智能水平向执行能力的转化就越值钱。
这种洞察,仍然能在杨植麟的访谈里找到。2025 年 8 月在张小珺的播客里,他坚持模型是主线,产品是其次,相信“当模型训练完的时候,你的产品已经做完了”。但十个月后的 Kimi Work,已经是一个有着精心设计的图形界面,并且以平均每三天一个版本的速度,迭代交互体验的 to C 产品。
可能是他的判断随着 Agent 时代的到来发生了演进,可能是商业现实的推力,也可能这本身就是“模型即产品”逻辑的延伸,模型能力到位了,把它包装成 Kimi Work 只是顺势的最后一步。
但无论哪种解释,落点都是同一个,模型不再是唯一的胜负手,主要战场最终仍会回归到用户价值上。

以 Kimi Work 为代表的 Agent 产品,已经能够真正长时间、大批量、聚焦目标地执行工作。但另一个事实是,今天仍然没有任何 Agent 能真正替人把工作全部做完。它们能替人做的,是那些路径清楚、结果可验证的部分,人们必须学会怎么和 AI 协同工作,了解一个 Agent 的边界,比幻想“AI 全替我干了”更接近真实。

当你接受这一点,Kimi Work 的 slogan 就变得更加值得深思。
“你的工作,分我一半”,这并非一个精准狙击打工人的爽文叙事,更为我们所触动的,是其中呈现的边界。只有承认自己现在能分走的是哪一半,分不走的又是哪一半,一款办公 Agent 才能真正走进打工人的身边,落在他们能用得上的地方。