T
traeai
登录
返回首页
One Useful Thing

A Guide to Which AI to Use in the Agentic Era

8.5Score
A Guide to Which AI to Use in the Agentic Era

TL;DR · AI 摘要

文章探讨了在代理时代如何选择合适的AI工具,强调了模型、应用和Harness的重要性。

核心要点

  • 选择AI需考虑模型、应用和Harness。
  • Claude Opus 4.6和GPT-5.2是顶级模型。
  • 高级AI每月至少需支付$20。

结构提纲

按章节快速跳转。

  1. 文章介绍了AI使用方式的变化及其对选择的影响。

  2. 模型是AI的核心,决定了系统的智能水平和能力。

  3. 应用是用户与模型交互的界面,包括网站和应用程序。

  4. Harness使AI能够自主完成多步骤任务。

  5. 选择AI需综合考虑模型、应用和Harness。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • 选择合适的AI

金句 / Highlights

值得收藏与分享的关键句。

  • Until a few months ago, for the vast majority of people, “using AI” meant talking to a chatbot in a back-and-forth conversation.

    第 2 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • The exact same model, Claude Opus 4.6, asked the exact same question, “Compare ChatGPT and Claude and Gemini” in three different apps and harnesses.

    第 4 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • When people say “Claude is better at writing” or “ChatGPT is better at math,” they’re talking about models.

    第 7 段

    ⬇︎ 下载 PNG𝕏 分享到 X
#AI#模型#应用#Harness
打开原文

标题: 代理时代应使用哪种 AI 的指南

URL 来源: https://www.oneusefulthing.org/p/a-guide-to-which-ai-to-use-in-the

发布时间: 2026-02-18T01:45:41+00:00

Markdown 内容:

自从 ChatGPT 发布以来,我写了八篇这样的指南,但这一版与过去有很大的不同,因为“使用 AI”的含义发生了巨大的变化。几个月前,对于大多数人来说,“使用 AI”意味着与聊天机器人进行来回对话。但在过去的几个月里,使用 AI 作为代理变得切实可行:你可以分配任务给它们,并且它们会根据需要使用工具来完成这些任务。由于这种变化,在决定使用哪种 AI 时,你需要考虑三件事:模型、应用程序和套件。

图像 1

相同的模型,Claude Opus 4.6,在三个不同的应用程序和套件中被问到同一个问题:“比较 ChatGPT 和 Claude 以及 Gemini”。没有套件的情况下,信息过时;在 Claude.ai 网站上,我得到的是更新的信息和可验证的来源;使用 Claude Cowork,我得到了一个复杂的分析和格式良好的一对一比较。

模型 是底层的 AI 脑子,三大主要模型是 GPT-5.2/5.3、Claude Opus 4.6 和 Gemini 3 Pro(公司正在比以往更快地发布新模型,因此版本号在未来几周内可能会发生变化)。这些决定了系统的智能程度、推理能力、写作或编码或分析电子表格的能力,以及其查看或创建图像的能力。模型是基准测试所衡量的内容,也是 AI 公司竞相改进的对象。当人们说“Claude 更擅长写作”或“ChatGPT 更擅长数学”时,他们谈论的就是模型。

应用程序 是你实际用来与模型交流的产品,并且让模型为你做实际工作。最常见的应用程序是每个模型的网站:chatgpt.com、claude.ai、gemini.google.com(或者它们在你手机上的相应应用)。越来越多地,这些 AI 公司还推出了其他应用程序,包括像 OpenAI Codex 或 Claude Code 这样的编码工具,以及像 Claude Cowork 这样的桌面工具。

套件 是让 AI 模型的实际工作能力得以发挥的东西,就像马具利用马的力量拉动马车或犁一样。套件是一个系统,它让 AI 使用工具、采取行动并自主完成多步骤任务。应用程序自带套件。在网站上的 Claude 带有一个套件,可以让 Claude 4.6 Opus 进行网络搜索和编写代码,同时也有关于如何处理各种问题(如创建电子表格或进行图形设计工作)的指导。Claude Code 有一个更广泛的套件:它给 Claude 4.6 Opus 提供了一个虚拟计算机、一个网页浏览器、一个代码终端,并且能够将这些组合起来实际做一些事情,比如从头开始研究、构建和测试你的新网站。Manus(最近被 Meta 收购)基本上是一个独立的套件,可以围绕多个模型运行。OpenClaw 最近引起了很大的关注,它主要是允许你在本地计算机上使用任何 AI 模型的套件。

直到最近,你并不需要知道这些。模型就是产品,应用程序就是网站,套件是最小化的。你输入内容,它做出回应,然后你再次输入。现在,相同的模型在不同的套件中表现可能大不相同。Claude Opus 4.6 在聊天窗口中与你交谈是一种体验,而 Claude Opus 4.6 在 Claude Code 中自主编写和测试软件则是另一种完全不同的体验。GPT-5.2 回答一个问题是一种体验,而 GPT-5.2 思考着浏览网站并为你制作幻灯片又是另一种体验。

这意味着“我应该使用哪种 AI?”这个问题变得更加难以回答,因为答案现在取决于你打算用它做什么。让我带你了解一下这个领域。

顶级模型在整体能力上非常接近,通常比以往任何时候都更聪明并且出错更少。但是,如果你想认真使用高级 AI,你至少需要支付每月 20 美元(尽管世界某些地区的计划收费更低)。这 20 美元让你拥有了两样东西:选择使用哪个模型以及使用更先进的前沿模型和应用程序的能力。我希望我能告诉你目前可用的免费模型与付费模型一样好,但事实并非如此。免费模型都针对聊天进行了优化,而不是准确性,所以它们非常快,通常更有趣,但准确性较低且功能较少。很多时候,当有人发布 AI 做出愚蠢行为的例子时,那是因为他们要么使用了免费模型,要么是因为他们没有选择一个更智能的模型来工作。

三大前沿模型分别是来自 Anthropic 的 Claude Opus 4.6、Google 的 Gemini 3.0 Pro 和 OpenAI 的 ChatGPT 5.2 Thinking。这些选项提供了顶级的 AI 模型,支持语音模式、查看图像和文件、执行代码的能力、优秀的移动应用程序以及创建图像和视频的功能(不过 Claude 在这方面有所欠缺)。它们各有不同的个性和优缺点,但对于大多数人来说,选择他们最喜欢的一个就足够了。目前,其他在这个领域的公司已经落后,无论是模型还是应用程序和工具方面,尽管某些用户可能仍有理由选择它们。

Image 2

这只是一个小小的夸张——对于那些不需要太精确的随意聊天,你可以使用较小的模型,否则请务必选择高级模型!

当你使用任何 AI 应用程序时(稍后会详细介绍),包括手机应用或网站,最重要的事情之一就是选择正确的模型,而 AI 公司并没有让这个过程变得容易。如果你只是聊天,那么默认模型是可以接受的;但如果你想做真正的任务,它们就不够用了。对于 ChatGPT,无论你是使用免费版还是付费版,你得到的默认模型都是“ChatGPT 5.2”。问题在于 GPT-5.2 并不是一个单一的模型,而是多个模型,从非常弱的 GPT-5.2 mini 到非常好的 GPT-5.2 Thinking,再到极其强大的 GPT-5.2 Pro。当你选择 GPT-5.2 时,实际上你得到的是“自动”模式,AI 会决定使用哪个模型,通常是较弱的一个。通过付费,你可以选择使用哪个模型,并且还可以选择模型“思考”的深度。对于任何复杂的问题,我总是手动选择 GPT-5.2 Thinking Extended(在 $20 计划中)或 GPT-5.2 Thinking Heavy(在更昂贵的计划中)。对于需要大量思考的真正困难问题,你可以选择 GPT-5.2 Pro,这是最强的模型,仅在较高成本层级中可用。

对于 Gemini,有三个选项:Gemini 3 Flash、Gemini 3 Thinking,以及一些付费计划中的 3 Pro。如果你购买了 Ultra 计划,你将能够访问 Gemini Deep Think,用于处理非常困难的问题(它位于另一个菜单中)。对于任何严肃的问题,请始终选择 Gemini 3 Pro 或 Thinking。对于 Claude,你需要选择 Opus 4.6(尽管新的 Sonnet 4.6 也很强大,但不如前者),并打开“扩展思考”开关。

再次强调,对于大多数人来说,模型之间的差异现在已经足够小,以至于 应用程序和工具 比模型本身更重要。这就引出了更大的问题。

绝大多数人使用聊天机器人来访问 ChatGPT、Claude 和 Gemini 的主要网站或移动应用程序中的 AI 模型。事实上,我们可以称聊天机器人为最重要和最普及的 AI 应用程序。在过去几个月里,这些应用程序已经变得相当不同。

其中的一些差异在于哪些功能捆绑在 AI 中:

  • Gemini 聊天机器人(并通过小加号按钮访问):你可以访问 nano banana(当前最好的 AI 图像生成工具)、Veo 3.1(领先的 AI 视频生成工具)、Guided Learning(当你尝试学习时,这有助于 AI 更像一个导师)和 Deep Research
  • ChatGPT 包含更多杂乱无章的选项,可以通过加号按钮访问。你可以创建图像(图像生成器几乎和 nano banana 一样好,但你不能通过聊天机器人访问 Sora 视频生成器)、学习和研究(相当于 Gemini 的 Guided Learning,但还有一个单独的测验生成器,原因不明)、Deep Research 和购物研究(令人惊讶地好且被忽视),以及其他大多数人都不会经常使用的选项,因此这里不作介绍。
  • Claude 只有 Deep Research 作为捆绑选项,但你可以通过创建项目并选择学习项目来访问学习模式。
  • 所有的 AI 模型都允许你连接数据,例如让 AI 阅读你的电子邮件和日历、访问你的文件或连接到其他应用程序。这可以使 AI 更加有用,但每种 AI 工具都有不同的连接器可以使用。

这些功能可能会让人感到困惑!对于大多数正在做实际工作的人来说,最重要的附加功能是 Deep Research 和将 AI 连接到你的内容,但你可能想尝试其他功能。然而,越来越多的情况下,重要的是工具——AI 可以访问的工具。在这方面,OpenAI 和 Anthropic 明显领先于 Google。Claude.ai 和 ChatGPT 都具备编写和执行代码、提供文件、进行广泛研究等功能。而 Google 的 Gemini 网站则远没有那么强大(即使它的 AI 模型同样优秀),

Image 3

正如你所见,通过询问类似的问题,可以从 ChatGPT 和 Claude 获得工作用的电子表格和 PowerPoint,并且有我可以跟进的清晰引用。然而,Gemini 却无法生成这两种类型的文档,也不提供引用或研究。不过,我确实期望谷歌很快会在这方面迎头赶上。

关于聊天机器人最后一点需要注意的是,GPT-5.2 Pro 配合其附带的工具包是一个非常智能的模型。它正是那个帮助在理论物理学中得出新结果的模型,也是我发现最能胜任复杂统计和分析工作的模型。它只能通过更昂贵的计划访问。Google Gemini 3 Deep Think 似乎也非常强大,但同样存在相同的工具包问题。

图像 4

提示:“你是一名经济社会学家。我希望你能找出一些可以用这些数据测试的新假设,进行复杂的实验,并告诉我结果。”然后我给了它一个大型的 Excel 数据集。

聊天机器人网站是大多数人与人工智能互动的地方,但它们越来越多地不是最令人印象深刻的工作完成的地方。越来越多的其他应用程序将这些模型封装在更强大的工具包中,这些工具包变得越来越重要。

Claude Code、OpenAI Codex 和 Google Antigravity 是这些工具中最成熟的,它们都面向开发者。每个工具都让 AI 模型能够访问你的代码库、终端,并能够独立编写、运行和测试代码。你描述你需要构建的内容,AI 就会去构建它,完成后或遇到问题时再回来。如果你的职业是写代码,这些工具正在改变你的工作方式。因为它们拥有最广泛的工具包,即使你不写代码,它们仍然可以做大量的事情。

例如,几年前,我对如何通过提供原始 GPT-1 的所有内部权重和参数(AI 的代码,列出了 1.17 亿个数字)来制作一个完全基于纸张的 LLM 感兴趣。理论上,只要有足够的时间,你可以用手计算出 AI 的数学运算。这看起来像是一个有趣的点子,但显然不值得去做。一周前,我让 Claude Code 为我完成这个任务。经过大约一个小时的工作(大部分时间是 AI 在工作,还有一些建议),它制作了 80 本精美排版的卷册,包含了 GPT-1 的全部内容,以及一本数学指南。它还设计并执行了每卷的封面,可视化了内部权重。然后,它组装了一个非常优雅的网站(包括下面的动画),连接到 Stripe 进行支付,并通过 Lulu 实现按需打印,测试了整个系统,并为我发布了它。我没有碰过或查看过任何代码。我让它以成本价制作了 20 本书来看看会发生什么——结果当天就卖光了。所有卷册都可以作为免费的 PDF 在网站上获取。现在,我可以有一个需要大量工作的项目想法,并且几乎不需要我付出努力就能实现。

但是,编码工具包对业余爱好者来说仍然是风险,而且显然专注于编程。新的应用程序和工具包开始关注其他类型的知识工作。

Claude for Excel 和 Powerpoint 是应用程序内的特定工具包示例。两者都为这些程序提供了非常出色的扩展功能。特别是 Claude for Excel,感觉像是处理电子表格方式的巨大变革,对于那些靠 Excel 工作的人来说,它的影响可能类似于 Claude Code 对程序员的影响——你可以越来越多地告诉 AI 你想要做什么,它就像一个初级分析师一样完成工作。由于结果是在 Excel 中,所以很容易检查。谷歌在 Google Sheets 上有一些集成(但不如那么深入),而 OpenAI 并没有真正推出类似的产品。

图像 5: 图像

[Claude Cowork](https://claude.ai/downloads) 是一个真正新颖的东西,它应该自成一类。由 Anthropic 在一月份发布,Cowork 实质上是为非技术人员设计的 Claude Code。它可以在你的桌面上运行,并可以直接与你的本地文件和浏览器交互。然而,它比 Claude Code 更安全,对非技术人员来说也更安全(它在一个具有默认拒绝网络和硬隔离的虚拟机中运行,对于关心细节的人而言)。你描述一个结果(整理这些费用报告,从这些 PDF 中提取数据到电子表格,起草总结),Claude 制定计划,将其分解为子任务,并在你的计算机上执行这些任务,而你则在一旁观看(或者不看)。它是基于与 Claude Code 相同的自主架构构建的,并且主要由 Claude Code 在大约两周内构建而成。至少在这个星期,OpenAI 或谷歌都没有直接的等效产品。Cowork 仍处于研究预览阶段,这意味着它还很早期,会迅速消耗你的使用限额,但它明确表明了所有这一切的发展方向:不仅仅是与你讨论工作,而是为你完成工作。

Image 6

NotebookLM 允许你进行研究报告并收集源文件(左侧),向这些源文件和材料提问(中间),并将它们转化为幻灯片等形式(右侧)。

[NotebookLM](https://notebooklm.google.com/) 是谷歌对另一个问题的回答:如何使用人工智能来理解大量信息?你可以让 NotebookLM 进行深入的研究,或者添加你自己的论文、YouTube 视频、网站或文件,NotebookLM 会构建一个可查询的交互式知识库,并将其转化为幻灯片、思维导图、视频,甚至是最著名的由两位主持人讨论你材料的 AI 生成播客(你甚至可以打断主持人提问)。如果你是一名学生、研究人员,或者需要定期整理大量文档的人,NotebookLM 是一个非常有用的工具。

接下来是 OpenClaw,尽管它并不完全符合上述分类,但我还是想提一下,而且你几乎肯定不应该使用它。OpenClaw 是一个开源的人工智能代理,在一月底时走红。它可以在你的计算机上本地运行,连接到你想要的任何 AI 模型,并且你可以像与人聊天一样通过标准聊天工具(如 WhatsApp 或 iMessage)与它交流。它可以浏览网页、管理文件、发送邮件和执行命令。它基本上是一个 24/7 的个人助手,生活在你的机器上。但它也是一个严重的安全风险:你正在给 AI 广泛访问你的计算机和账户的机会,而没有人确切知道你暴露自己面临的风险是什么。但这也预示着未来的发展方向。

我知道这有很多内容。让我简化一下。

如果你刚开始,选择其中一种系统(ChatGPT、Claude 或 Gemini),支付 20 美元,并选择高级模型。我书中的建议仍然适用:邀请 AI 参与你所做的每一件事。开始用它做实际工作。上传你正在处理的文档。以 RFP 或 SOP 的形式给 AI 分配一个非常复杂的任务。 进行来回对话并推动它。仅此一点就能教会你比任何指南更多的东西。

如果你已经熟悉聊天机器人,尝试特定的应用程序。NotebookLM 是免费且易于使用的,因此它是很好的起点。如果你想更深入地了解,Anthropic 提供了最强大的 Claudine Code 和 Claudine Cowork(两者都可以通过 Claudine Desktop 访问),以及专门的 PowerPoint 和 Excel 插件。试一试。同样,不是作为演示,而是用于你真正需要完成的任务。观察它的表现。当它出错时引导它。你不是在提示,而是在管理(正如我在上一篇文章中所写的那样)。

从聊天机器人到代理的转变是自 ChatGPT 推出以来人们使用 AI 最重要的变化。现在还处于早期阶段,这些工具仍然难以理解和可能会做一些令人困惑的事情。但是,能够做事的 AI 相比于只会说话的 AI 更加有用,学习如何使用它也是值得的。

分享

Image 7

AI 可能会生成不准确的信息,请核实重要内容