一直想要一款令人完全放心的AI搜索工具,开始以为需求很简单,拿着一批有代表性的问题一个个试,结果发现进入了AI深水区。
始于生活中的问题
我积累了一些生活中真实的问题作为测试题,发现大多数AI搜索都无法全部答对。
这些问题本身不难理解,关键在于AI如何展开搜索,并从中挖掘答案。
古眼鱼是什么鱼
正确答案是一种食用比目鱼。题目是个陷阱,它不是学名,而是民间叫法“鼓眼鱼”的简写,水产市场常见。
AI 能搜到有用资料,但也有干扰信息:
- 有的只考虑“古眼鱼”,不考虑同音字,会搜到斑鰶,这是错误信息。
- 有的能把“鼓眼鱼”考虑进来,但会把鼓眼鱼和斑鰶的信息混淆,当作同一物种。
推理模型能意识到这是两种动物,但无法确定用户问的是哪一种,于是两种都列出来。
偶尔,由于鼓眼鱼资料数量占压倒多数,AI 会自作主张回答鼓眼鱼的信息,算是误打误撞答对了。
柳传志和共享单车有什么关系
其实直接关系不大,但间接关系需要经过两层:女儿柳青,柳青带领的滴滴旗下有青桔单车。
问这个问题时,我并不知道他们有什么关系,但我这么问,是想知道柳传志对共享单车影响最大的一条关系链,而不是最直接的关系。
非推理模型都把君联资本投资ofo作为答案核心,柳青这层关系要么不提,要么一带而过。
推理模型更聪明些,能意识到柳青这层关系的重要性,但只能到滴滴这一层。AI 认为滴滴业务是网约车,没有进一步搜出滴滴和青桔的关系,于是经常总结:柳传志家族在广义的出行领域有强大影响力,但和共享单车直接关系较小。
杭州古时候叫临安,为什么这个名字到了今天让给了临安区
这曾让我困惑,其实不是“让给”,是我把先后顺序搞错了。先有临安县,再有南宋临安府。南宋把杭州叫临安府,可能受了临安县的名称启发,但这是两个地方,南宋皇城在杭州市区,不在临安。宋灭亡后,临安府变回杭州,临安县仍然叫临安。到现代撤市设区,临安并入杭州。
由于问题本身有误导性,非推理模型基本都围绕这个错误的假设来解释,比如纪念历史、继承南宋荣光等。
推理模型在这道题上表现不错,基本都能答对,能找出两个名称来历的先后顺序,并且指出问题中“让给”的说法是错误的。
上海在殖民地时期的港口吞吐量最高达到了多少?与同时期最大港口相比如何?
出于好奇随手一搜,我现在也不知道正确答案,但发现大部分AI搜索都答不上来。
比较可靠的一篇资料是百度百科的上海港志,里面提到上海在抗日战争爆发前夕,吞吐量达到过 1400 万吨,当时位居全球第 7。
同时期其他港口数据,要么搜不出来,要么 AI 幻觉乱答一气。倒是几个搜索量大但不太聪明的 AI 找出了一点有用数据(至少是有参考资料的)。
这些都是现实生活中的问题。我有很多疑问,从小是个“十万个为什么”,其中很多随手一搜都没有收获,这降低了我对 AI 搜索产品的信心。
问题和问题并不相同
AI搜索表现混乱,有的产品在某些问题上表现好,有些则相反。我不禁思考这其中的规律:如何判断什么 AI 擅长什么样的问题?我又该如何选择 AI 搜索产品?
首先,推理模型整体优于非推理模型。但不是所有推理模型都足够聪明,gemini 2.0 flash thinking 和 kimi k1.5 就不太行。实测发现,同样的信息源,还是上面那几个问题,gemini 2.0 flash thinking 答不出来,r1 能答出来。
搜索方式对结果也有影响。
一个有意思的情况是,Grok 3 推理能力很不错,即使不开 Think,但它偏偏答不对古眼鱼那道题。点开它搜索的资料,明白了。它可能把中文问题强制先翻译一道,然后再去搜索。但遇到古眼鱼这种本身就不太对劲的中文固有名词时候,它翻译错误,斑鰶和鼓眼鱼都没有搜,可能搜的是类似于把“古”和“眼”分开翻译的词。一条有用信息也没找到,最后就开始瞎编。
搜索量也是非常重要的影响因素。
which country does Windsurf IDE come from?
来自美国。提问前我觉得很简单,应该一击即中。国外 AI 搜索产品表现都很好,甚至找出了它在加州山景城。我想让国内 AI 搜索也试试,其中 Kimi 和跃问的搜索可以搜到英文资料,我用英文提问。找出在美国不难,但它们都没找出所在城市。
细想其实不简单,介绍 Windsurf IDE 的文章哪会那么详细说出它来自哪个城市?最多就告诉你国家。想找到完整答案,AI 要先找出产品背后的公司 Codium,然后从 Codium 的官网、招聘信息、或 Product Hunt 这类网站找出所在城市。这需要推理和多步搜索!
问完这个问题,我彻底意识到,人类觉得简单的问题,对 AI 搜索来说可能是巨大的挑战。不是 AI 蠢,是人类低估了问题的复杂性。
即使我用搜索引擎找 Windsurf IDE 所在国家,也不容易一次搜索就找出城市信息。
于是想到一个粗略评估 AI 搜索的思路,把 AI 能力和搜索能力拆开,分出 4 象限:
重新审视,发现:古眼鱼、柳传志和共享单车、临安地名这几题难度都被我低估了,我原本认为它们是 D 类,实际搜了才知道是 B 类。而上海港的问题,则是更棘手的 A 类。
把 A 类当 C 类,把 B 类当 D 类,问完发现 AI 回答不了,心里就有落差了。
但最麻烦的是,人类提出问题时,并不知道它属于哪一类,而且往往会低估难度。
可 AI 搜索就是工具,工具就是为人服务的不是吗?它现有水平服务得不太好,这并不是人类的错,是它们需要改进。
想要比较可靠地回答 B 类问题,像 grok 3 deep search 和 openai deep research 这样的 Agent 才是标配,必须要有能力执行多步搜索,深入挖掘关系链条,挖掘的过程中推理判断信息源可靠性,评估衡量相互冲突的信息。
充分运用 AI 搜索
但如果什么问题都用 deep search,那也太耗时了。
引用 AI 圈子里看到的一句话:既然现在还做不到 AI 迁就人类,那就人类来迁就 AI 吧。
同时使用多个产品
想省时间,同时相对可靠地用 AI 搜索找到答案,就要抛弃“一个工具走天下”的想法,多费点脑力来判断问题可能在哪个象限,每个象限都有相对可靠的 AI 搜索产品,针对性地选择工具。
是的,要多费脑子,但能省时间,就看你觉得值不值得。
我们倒过来说。D 类问题最容易,是个 AI 搜索工具都能答对。
C 类问题需要搜索量大,不需要推理,只要大海捞针搜到了相应的网页,答案就出来了。典型如:
which country does Windsurf IDE come from?
在这类问题上表现比较好的反倒是 Kimi,其他搜索条目能达到 50 条的产品也不会差。你觉得比较长尾的知识可以归为这一类。
B 类问题有两种情况:
- 答案就在那儿,遍地都是,但也有相当数量的干扰信息与之冲突;
- 答案不在核心搜索词的结果里,反而在顺带搜的词里有大量答案。典型如我之前问的那几个问题。
这类问题非高性能推理模型无法胜任,至少得上 r1、grok 3 think、o3 mini 这种水平的模型。搜索能力的要求就不高了,能搜出十几二十条资料的产品就足够了。B 类问题很容易被误认为 D 类问题,当发现回答不尽人意时,要及时意识到这一点。
最后,A 类问题,我不确定目前有没有 AI 搜索产品能稳定可靠胜任,达到让人放心、无需验证的程度。信息稀少,难为无米之炊。八成得靠人工去搜索引擎的大海里摸。如果实在要尝试用 AI 解决这类问题,必须上 deep search/research。
放弃一击即中
话说回来,用 AI 搜索的目的是解决问题,获得答案。不能死脑筋,指望 AI 在一个回合内给你漂亮的回答。放下这个执念,办法就多了。
再回到这个问题:
which country does Windsurf IDE come from?
第一问问不出城市,想知道就再多问一句呗:
which city?
对于用推理模型的 AI 搜索,答对的概率会大大提升。用多轮对话来换推理深度,你用搜索引擎你也得这么用。
至于棘手的 A 类问题,还是那句话,人来迁就 AI 吧。
换法子多问几遍,粗略浏览 AI 搜过的信息源,从标题来人工判断是否有用。有用的手动扔到一个知识库工具里,然后用 AI 来 RAG 这个知识库,输出答案。这类工具不少,NotebookLM、腾讯的 iMa 是专门的知识库工具,或者 Perplexity 这种附带知识库功能的 AI 产品,还可以用 Cherry Studio 这样的 AI 客户端。
注意区分语言
这里又牵扯到新的因素:语言。只能搜中文资料的 AI,回答不了英文世界的细枝末节;反过来,国外的 AI 搜索产品,也答不好你家旁边公立小学的招生计划。
一个验证方法是问这个问题:
wildfire trends in CA in the last 10 years
用英文问发生在国外的事情,如果搜索结果一半以上是中文网页,那这个产品基本没有搜索英文资料的能力,只适用于中国国内的话题和常识性话题。
推理能力方面,好在国内大多数产品都接入 r1 了,推理能力有保障,所以中文世界的 AI 搜索产品反而不难挑,你只需要找一个搜索量大的,错不了。
也许还有部分人像我一样,经常要搜英文资料和国外信息。最佳方案当然是国外产品,如果不方便,国内的产品也可行,可以用英文问题去试,看它有没有搜索英文资料的能力。
最后,文中提到的所有模型和产品,都有时效性(截至2025年2月)。时过境迁,结论可能已经没有参考价值了,但理解和评估 AI 搜索产品的因素,仍然能发挥作用。