Featured image of post 打造个人免费AI浏览器
🌏 English

打造个人免费AI浏览器

帮同事配置AI操作浏览器来完成日常任务,顺手写了这个给非技术人员的使用手册。

这是一份能让普通用户用上强大的AI浏览器的手册。如果你是AI资深玩家,这里可能没有陌生的东西,但仍然欢迎分享给你认识的普通用户朋友。

先看看使用效果:一边开着AI,和它对话,AI一边操作你的浏览器,帮你完成网页中的任务。

比如我给它这个指令:

查询小红书,阅读至少30篇相关笔记,了解东南亚海岛度假有哪些可选目的地,各有什么特色。整理成一个txt文件存到下载文件夹。

结果准确可靠,因为来自经过挑选的信息源,而不是整个鱼龙混杂的网络。这个研究结果很适合作为一场旅行规划的起点。

相比各种AI浏览器产品,这个方案的优势是能同时操作浏览器和本地文件。本地文件是你的世界,浏览器里是整个世界,把两者连起来,想象空间非常大。许多工种的日常工作是反复在某个后台系统里上传和录入,就很适合用AI来代劳。

不用安装新浏览器,把你习惯的Chrome/Edge等直接加上AI能力。对于不懂技术、不会魔法上网的用户,这个方案已经是最优解。

配置

感兴趣的话,深呼吸,开始动手吧。配置过程有点复杂,但一劳永逸。

第1步:注册AI账号

先注册千问海外版的账号,免费的AI能力来自千问模型:

https://chat.qwen.ai/

模型并非无限量使用,但既然你不用来编程,每天的免费额度几乎用不完。

第2步:安装基础设施

下载Node安装包,这是AI和浏览器工具运行所需的基础设施:

https://nodejs.org/zh-cn/download

上面一大堆代码不用管,下载按钮在这,会自动选出适合你操作系统的安装包。

第3步:安装AI

这一步要用到令人头皮发麻的命令行工具。这个心理障碍势必要克服,因为实际使用也是在命令行里。用熟了,你会有一种黑客帝国尼欧的感觉,你的同事完全看不明白你用了什么魔法。而且,熬过了这一步,你就可以见证AI自己给自己配置的奇妙过程,加油~

不同操作系统的命令行启动方式不一样:

  • Windows系统:按Win + R,在左下角弹出的窗口里输入powershell,回车,启动命令行。启动后建议在底部任务栏图标上点右键“固定到任务栏”,方便下次使用。
  • Mac系统:按Command + 空格,输入终端,回车,启动命令行。启动后建议在底部任务栏图标上点右键“选项 > 在程序坞中保留”,方便下次使用。

接下来的操作又一样了。复制下面的命令,贴进去,按回车就开始安装了:

npm install -g @qwen-code/qwen-code@latest

安装过程会有个符号一直旋转。直到看到类似如下结果,就说明装好了:

added 6 packages in 38s

第4步:AI自己完成配置

AI装好之后,我们善加利用,后面的步骤就让它完成吧。

在命令行里输入qwen,回车。首次启动会让你选身份验证方式,当然选免费的啦。这时候会跳到浏览器,通过千问海外版账号登录。登录完成切回命令行。

在苹果电脑上每次启动qwen,画面就是这样,Windows则是黑色的。不用怕,命令行界面我大致解释下,让你有概念:

  • 黄色框以上,是聊天记录区,你和AI的对话都会显示在那,目前显示的是欢迎语。
  • 建议把窗口拉大点,否则聊天记录每次显示太少了。
  • 两条蓝线夹着的区域是输入框,你打的字会出现在这里,回车发送。
  • 如果只是想要换行,Windows上按Ctrl + 回车,Mac上Option + 回车
  • 发现AI理解错了你的要求,或者临时改主意了,可以通过按Esc打断AI,下达新的指令。
  • 注意,这个AI没有视觉能力,截图不能往里面贴。它是瞎子,通过代码来理解和操作网页。

接下来,给你准备好了现成的指令,这一大段复制进去,回车。AI会自己完成初始化配置:

你是Qwen code,你的配置目录在`~/.qwen`。你的任务是完成新用户首次配置,帮助用户安装必须的工具:

**步骤1**
在配置目录找到settings.json。
如果当前是Windows系统,往里面添加如下配置:
{
  "mcpServers": {
    "playwriter": {
      "command": "cmd",
      "args": [
        "/c",
        "npx",
        "-y",
        "playwriter@latest"
      ]
    }
  }
}
如果是Mac系统,添加如下配置:
{
  "mcpServers": {
    "playwriter": {
      "command": "npx",
      "args": ["-y", "playwriter@latest"]
    }
  }
}

**步骤2**
在配置目录创建全局自定义提示词QWEN.md,内容是:
你是一个浏览器/本地双环境自动化助手,可以控制浏览器和本地文件系统。
每当用户说“使用浏览器”或“在浏览器里”执行某项任务,一定指的是使用playwriter mcp来操作浏览器,检查连接性,确认能通过这个mcp获取到当前打开页面的信息,并给用户反馈。如果无法连接,提醒用户检查是否点击了浏览器插件的箭头小图标。
在实际操作浏览器过程中,如要操作的元素反复找找不到,点击点不中,要充分考虑现代网页技术的复杂性。网站可能用了动态加载等方式,也有可能是模态浮层遮挡了对应位置,用观察URL结构等多种方法排查并解决问题。

**步骤3**
把这个浏览器插件下载到系统下载目录:
https://c2.crxsoso.com/crx/blobs/AV8Xwo5LQcmScQn08gpIRs0miQ6Mvevy3FDdb3iyyRDSlUS4Is6dTPfvvrNKjpjmy6VchgCS0p00J8Ooz9b624lgzyndHDatcaUxZMR81-HRtiLwbAypGrQJMBbmWmZ7nV0AxlKa5Z_50eB2pakXBz6YCRWobqy6rTRq/JFEAMMNJPKECDEKPPNCLGKKFFAHNHFHE_0_0_67_0.crx?ext=crx&filename=Playwriter%20MCP%200.0.67&type=dl

**步骤4**
查看系统默认浏览器是什么,打开该浏览器的扩展管理页面。
例如,Chrome浏览器就打开`chrome://extensions/`,以此类推。

**步骤5**
用资源管理器或访达打开系统下载目录。

在这个过程中,你会遇到很多次AI向你请求权限。允许执行这个,允许执行那个。都要允许,否则无法进行下去。建议总是选倒数第二项,可以最大限度减少这种询问。

第5步:安装浏览器插件

AI需要借助插件来控制你的主力浏览器,才能充分利用你常用的网站和已登录的账号。

在上一步打开的浏览器插件管理页面中,找到“开发者模式”,打开开关。Chrome浏览器的开关在右上角,Edge浏览器的在左边栏(还有个“允许来自其他应用商店的扩展”也要打开),其他浏览器需要自行查找。

再切换到刚打开的系统下载目录,把这个“Playwriter_MCP_xxx.crx”拖到浏览器插件管理页面中,插件就安装完了。

最后建议多做一步,在浏览器窗口右上角找到浏览器插件列表,图标是一个小拼图。点击,在打开的扩展程序列表里找到“Playwriter MCP”,点它旁边的图钉图标,让它显示到外面来,好找。

使用

使用就很简单了。

打开任务栏的命令行工具,输入qwen,启动AI。

在浏览器里打开要给AI操作的网页,点击鼠标指针样子的插件图标。这个页面就会被自动加入到一个叫“playwriter”标签页组里,上面有一根细线把它框起来,这个组就是AI的可操作范围。

在命令行里向AI发送:

使用浏览器,查看当前打开的页面,确认能否连上。

如果它说可以,就开始自由指挥AI吧。AI操作浏览器有时会遇到机器人验证,人工帮它通过一下,别让它独自死磕。

还有可能遇到连不上的情况,大概率是系统权限原因,直接让AI尝试解决。它也有可能因为缺乏权限无法解决,这时候它会告诉你几条命令,让你来手动执行。如果不明白如何执行,继续追问就是了。

使用结束,再点插件图标,标签页组会被解开,AI就无法继续控制浏览器了。

小技巧:让AI越来越熟练

补充一个小技巧。AI在控制浏览器时,遇到一些复杂的网页,常常会四处碰壁,好长时间都找不到需要操作的按钮或输入框。

这里所谓的“复杂”,往往和非技术用户理解的不一样,并不是指视觉上的复杂。像携程飞猪机票查询这种网页,看似就那么几个输入框,但由于网站用了比较现代的动态加载等技术,AI很难读通过代码读懂整个网页的结构,失败率高。而像公司内部后台系统这样满屏幕密密麻麻信息的网页,可能由于使用技术比较传统,网页的元素都是静态的,反而AI一看就明白,成功率很高。

一旦它成功了,哪怕只是部分成功并没完成任务,你都可以要求它总结经验,保存下来,下次就能少走弯路:

复盘刚才的操作。请把“任务目标”、“关键步骤”、“遇到的坑”和“解决办法”整理成一个 Markdown 文件,保存到桌面,文件名叫“AI浏览器操作手册.md”。

这个文件你自己可以不看,妥善保管就行。每次需要AI执行这个任务时,告诉它你把这文件放哪了,指挥它读这个文件,然后再开工。如果这次AI又有新进展、新发现,让它更新这个操作手册。

只要这个任务是你经常要做的,就值得这样打磨。AI完全把流程跑通弄明白之后,它会成为你的好帮手。

其实这就是近期大火的skills概念的核心思想。虽然你没有真的用上skills,但效果差不多,算是一种手动skills。能用好这种用法,你可能已经超越了99.7%的人了。