AI Agent真的已经今非昔比了

Manus那一波Agent概念火过之后，当时拿各种真实的复杂任务去测试，包括生成PPT，离解决实际问题还有一段距离。今天，情况是否不同了？值得再研究一次看看。

AI Agent的各种形态和任务

最近AI浏览器也引人关注，加上Kimi K2/GLM 4.6/Minimax M2这些以Agent能力见长的模型出现，我认真思考了一下Agent在现实应用中的方向。

趁着AI浏览器热潮，想了想Agent在数字世界里面临的挑战。其实现在能做好所有任务的模型和产品还没有出现，每一类任务都有它独特的要求。
就像Chat bot一样，Agent工具也不是一招鲜吃遍天的，手边总要有好几个不同产品应对不同问题。
目前相对成熟的是左上和右下，因为Web去中心化，而OS中心化。

其实，AI浏览器也好，Claude Code也好，Manus也好，本质是同类的东西。让AI控制一个相对完整的浏览器沙盒/本地环境，使用不同能力完成复杂耗时的任务。

既然Kimi/GLM/Minimax这些模型有比较出色Agent能力，它们的官方产品是否已经运用这些能力，来把自家产品推向一个更高层面，跳出国外模型大厂和国内互联网大厂的产品竞争？

一看发现确实如此，是我后知后觉了。海外AI四大和国内互联网大厂的AI入口产品，都没有提供完整的Agent能力，最多只是 Deep Research。如果撇去图片和视频的生成能力，仍然是纯纯的Chatbot。

但 Kimi/GLM/Minimax 的产品其实都提供了完整的Agent能力。Kimi的是OK Computer，GLM(Z.ai)的是Full-Stack，Minimax的开启Pro模式就是了。

Agent能力的加入，有希望让它们成为我日常主力AI产品吗？

3道测试题

正好，我平时整理保存了一些曾给AI处理的任务，用以测试Agent产品的能力：

中国空军当前的战斗机序列是什么样的？帮我找出主流的机型，并且每个机型去网上找来各种角度的图片。
做一份图文并茂的关于地球地质年代历史的分享报告，最好是PPT形式。
http://victor42.eth.limo/ 这是我的个人网站，我想看看我的个人信息泄露情况。你尽可能多地从网络上找到我的隐私信息，看看关于我能知道些什么。

先说结论：有进步，几乎达到可用水平，但仍然无法脱离人类的一步步指导和纠偏。

第1题：空军战机序列

第1题，Kimi的回答算是比较完整的成果。我不是军迷，其中数据和信息没去验证过，但这照片一看就知道不对，许多机型都搞混了。

Kimi的输出：https://sbudgp6km5i3s.ok.kimi.link/

GLM的测试结果我都不太想放上来。它直接用AI给我生成了战机图片，我多次抗议后，自欺欺人地在风景图旁边标了“真实图片”，还用风景图代替了战机照片。

Minimax输出是真慢，另外两家全都测完了，它第一题才出来。但页面效果不错。而且它战机图片的匹配度是3个里最高的。

Minimax的输出：https://nycqzyogwce4.space.minimaxi.com/

第2题：地质年代报告

地球地质PPT，我的预期是它们用编程能力创作HTML格式的PPT。其中GLM提供PPT模式，我看了下，原理确实是生成HTML再转PPT。但我故意选了Full-Stack模式来创作，因为我就想看看通用Agent在这种任务上能做到什么程度。

这道题由于不太依赖网络资料，模型自身知识可以覆盖大部分信息，Kimi和GLM都顺利完成。GLM生成的是HTML，没有PPT格式。Minimax的Agent实在输出太慢了，等不了了，没有测它。

Kimi的输出：https://qvokpfxqsh.feishu.cn/file/Sdz0bwNffoAFXKxqyItc4WNenwc?from=from_copylink

GLM的输出：https://p0r7a94j92w1-deploy.space.z.ai

还是老问题，全是AI图。

第3题：个人隐私信息泄露研究

第3题其实各家产品的Deep research也能做，但也拿来试一下，考验Agent规划任务全面收集信息的能力。这其实考验的是模型的基础能力，而非Agent能力。最后输出什么样的东西我不在意，我只看内容。

Kimi给了我一个形式花哨的报告，但内容空洞了些，信息收集不够深入。

Kimi的输出：https://dgkenxfkgs2to.ok.kimi.link/

GLM则出于安全原因拒绝执行任务，拒绝了2次。

Minimax给了一份markdown文档，但内容很详实。可以看到它对很多信息专门做了独立研究，然后才整合出这份报告。

GLM的输出：https://agent.minimaxi.com/share/328823906788332?chat_type=0

作为对比，贴一个非Agent产品对第3题的回答，来自Grok：https://grok.com/share/bGVnYWN5LWNvcHk%3D_acd6451b-b37a-405e-a700-91d692edaac6 可以看出在复杂任务上，即使不涉及独有的工具调用能力，Agent也比Chatbot走得更远。

其实Kimi/GLM/Minimax这3家官方产品里的Agent，如果你换成用Claude Code接他们家API，在本地执行，过程资料和最终结果存本地，也能达到差不多的效果。只是AI运行的环境从云端Linux变成了你自己的Windows/Mac。

所以说各种形态的Agent产品本质还是相同的。

在非标准化任务中的作用

再回顾一下象限图，以上测试的还只是右边两个象限，Agents面临的任务主要是本地文件操作、网络请求这类标准化任务。

标准化任务的特点是，只要按正确的方式去做，就能得到确定的结果。

今天的这类Agents，已经大有可为。只要你自己清楚某件事正确的做法，它们能帮大忙。

但象限图左半边的任务就模糊地多。让AI通过非标准的图形界面操作网页和本地应用，会得到什么结果，任务能否完成，无法预知。所以这方面成熟度相对低很多，也还没有出现真正的杀手级产品。

即使前有Dia/Comet，后有Atlas，都没有改变这个局面。

理解图形界面不能光靠读HTML，要有优秀的视觉能力配合。而且最好是一个Stream持续传输给AI，相当于各家AI产品的视频电话功能。

否则，在页面上找个特定入口都能找几分钟。

但这样的开销哪是轻轻松松能开放给所有人使用的？

即使这样，在特定情况下，Agents也能在非标准化任务上帮大忙。

最近在研究东南亚的度假海岛。第一步，先要找出有哪些海岛。

旅游信息，我只信小红书和马蜂窝，不信公开网络。用Agent操作Playwright MCP，我帮它登录，它按我要求大量阅读，全面收集信息。中间两次让它收集更多信息，还做了一轮核实。

拿到核实的结果，去多个AI工具里验证，全部属实。

这样，我就得到了一份有价值的目的地清单，作为旅行规划的起点。然后，用类似的方法让AI补充更多信息，一次补充一个维度，直到我能选出某个确定的目的地。

之后就是我熟悉的旅行攻略方法论了，人工规划出完整的行程：

手把手教你制作旅行攻略

后记

这一年开年时，大家就说是Agent元年，现在看来，没有夸大。

Agent在编程领域已经摘取了第一颗果实，成功有目共睹，我已经大量使用很久了。在其他领域也开始广泛体现出真实的使用价值。

这确实是一个转变观念主动尝试的好时候，希望我发现得不算太晚。

最后，作为对比，附一下以前AI Agents生成PPT的测试，感受一下这段时间来Agents的进步：

AI现在能独立做PPT了吗？