A Guide to Which AI to Use in the Agentic Era

One Useful Thing

One Useful Thing2026年2月18日

A Guide to Which AI to Use in the Agentic Era

8.5内容质量

TL;DR · AI 摘要

文章探讨了在代理时代如何选择合适的AI工具，强调了模型、应用和Harness的重要性。

核心要点

选择AI需考虑模型、应用和Harness。
Claude Opus 4.6和GPT-5.2是顶级模型。
高级AI每月至少需支付$20。

结构提纲

按章节快速跳转。

§引言
文章介绍了AI使用方式的变化及其对选择的影响。
§模型
模型是AI的核心，决定了系统的智能水平和能力。
§应用
应用是用户与模型交互的界面，包括网站和应用程序。
§Harness
Harness使AI能够自主完成多步骤任务。
§总结
选择AI需综合考虑模型、应用和Harness。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

选择合适的AI

金句 / Highlights

值得收藏与分享的关键句。

Until a few months ago, for the vast majority of people, “using AI” meant talking to a chatbot in a back-and-forth conversation.
— 第 2 段
⬇︎ 下载 PNG 𝕏 分享到 X
The exact same model, Claude Opus 4.6, asked the exact same question, “Compare ChatGPT and Claude and Gemini” in three different apps and harnesses.
— 第 4 段
⬇︎ 下载 PNG 𝕏 分享到 X
When people say “Claude is better at writing” or “ChatGPT is better at math,” they’re talking about models.
— 第 7 段
⬇︎ 下载 PNG 𝕏 分享到 X

#AI#模型#应用#Harness

打开原文

标题: 代理时代应使用哪种 AI 的指南

URL 来源: https://www.oneusefulthing.org/p/a-guide-to-which-ai-to-use-in-the

发布时间: 2026-02-18T01:45:41+00:00

Markdown 内容:

自从 ChatGPT 发布以来，我写了八篇这样的指南，但这一版与过去有很大的不同，因为“使用 AI”的含义发生了巨大的变化。几个月前，对于大多数人来说，“使用 AI”意味着与聊天机器人进行来回对话。但在过去的几个月里，使用 AI 作为代理变得切实可行：你可以分配任务给它们，并且它们会根据需要使用工具来完成这些任务。由于这种变化，在决定使用哪种 AI 时，你需要考虑三件事：模型、应用程序和套件。

相同的模型，Claude Opus 4.6，在三个不同的应用程序和套件中被问到同一个问题：“比较 ChatGPT 和 Claude 以及 Gemini”。没有套件的情况下，信息过时；在 Claude.ai 网站上，我得到的是更新的信息和可验证的来源；使用 Claude Cowork，我得到了一个复杂的分析和格式良好的一对一比较。

模型是底层的 AI 脑子，三大主要模型是 GPT-5.2/5.3、Claude Opus 4.6 和 Gemini 3 Pro（公司正在比以往更快地发布新模型，因此版本号在未来几周内可能会发生变化）。这些决定了系统的智能程度、推理能力、写作或编码或分析电子表格的能力，以及其查看或创建图像的能力。模型是基准测试所衡量的内容，也是 AI 公司竞相改进的对象。当人们说“Claude 更擅长写作”或“ChatGPT 更擅长数学”时，他们谈论的就是模型。

应用程序 是你实际用来与模型交流的产品，并且让模型为你做实际工作。最常见的应用程序是每个模型的网站：chatgpt.com、claude.ai、gemini.google.com（或者它们在你手机上的相应应用）。越来越多地，这些 AI 公司还推出了其他应用程序，包括像 OpenAI Codex 或 Claude Code 这样的编码工具，以及像 Claude Cowork 这样的桌面工具。

套件是让 AI 模型的实际工作能力得以发挥的东西，就像马具利用马的力量拉动马车或犁一样。套件是一个系统，它让 AI 使用工具、采取行动并自主完成多步骤任务。应用程序自带套件。在网站上的 Claude 带有一个套件，可以让 Claude 4.6 Opus 进行网络搜索和编写代码，同时也有关于如何处理各种问题（如创建电子表格或进行图形设计工作）的指导。Claude Code 有一个更广泛的套件：它给 Claude 4.6 Opus 提供了一个虚拟计算机、一个网页浏览器、一个代码终端，并且能够将这些组合起来实际做一些事情，比如从头开始研究、构建和测试你的新网站。Manus（最近被 Meta 收购）基本上是一个独立的套件，可以围绕多个模型运行。OpenClaw 最近引起了很大的关注，它主要是允许你在本地计算机上使用任何 AI 模型的套件。

直到最近，你并不需要知道这些。模型就是产品，应用程序就是网站，套件是最小化的。你输入内容，它做出回应，然后你再次输入。现在，相同的模型在不同的套件中表现可能大不相同。Claude Opus 4.6 在聊天窗口中与你交谈是一种体验，而 Claude Opus 4.6 在 Claude Code 中自主编写和测试软件则是另一种完全不同的体验。GPT-5.2 回答一个问题是一种体验，而 GPT-5.2 思考着浏览网站并为你制作幻灯片又是另一种体验。

这意味着“我应该使用哪种 AI？”这个问题变得更加难以回答，因为答案现在取决于你打算用它做什么。让我带你了解一下这个领域。

顶级模型在整体能力上非常接近，通常比以往任何时候都更聪明并且出错更少。但是，如果你想认真使用高级 AI，你至少需要支付每月 20 美元（尽管世界某些地区的计划收费更低）。这 20 美元让你拥有了两样东西：选择使用哪个模型以及使用更先进的前沿模型和应用程序的能力。我希望我能告诉你目前可用的免费模型与付费模型一样好，但事实并非如此。免费模型都针对聊天进行了优化，而不是准确性，所以它们非常快，通常更有趣，但准确性较低且功能较少。很多时候，当有人发布 AI 做出愚蠢行为的例子时，那是因为他们要么使用了免费模型，要么是因为他们没有选择一个更智能的模型来工作。

三大前沿模型分别是来自 Anthropic 的 Claude Opus 4.6、Google 的 Gemini 3.0 Pro 和 OpenAI 的 ChatGPT 5.2 Thinking。这些选项提供了顶级的 AI 模型，支持语音模式、查看图像和文件、执行代码的能力、优秀的移动应用程序以及创建图像和视频的功能（不过 Claude 在这方面有所欠缺）。它们各有不同的个性和优缺点，但对于大多数人来说，选择他们最喜欢的一个就足够了。目前，其他在这个领域的公司已经落后，无论是模型还是应用程序和工具方面，尽管某些用户可能仍有理由选择它们。

这只是一个小小的夸张——对于那些不需要太精确的随意聊天，你可以使用较小的模型，否则请务必选择高级模型！

当你使用任何 AI 应用程序时（稍后会详细介绍），包括手机应用或网站，最重要的事情之一就是选择正确的模型，而 AI 公司并没有让这个过程变得容易。如果你只是聊天，那么默认模型是可以接受的；但如果你想做真正的任务，它们就不够用了。对于 ChatGPT，无论你是使用免费版还是付费版，你得到的默认模型都是“ChatGPT 5.2”。问题在于 GPT-5.2 并不是一个单一的模型，而是多个模型，从非常弱的 GPT-5.2 mini 到非常好的 GPT-5.2 Thinking，再到极其强大的 GPT-5.2 Pro。当你选择 GPT-5.2 时，实际上你得到的是“自动”模式，AI 会决定使用哪个模型，通常是较弱的一个。通过付费，你可以选择使用哪个模型，并且还可以选择模型“思考”的深度。对于任何复杂的问题，我总是手动选择 GPT-5.2 Thinking Extended（在 $20 计划中）或 GPT-5.2 Thinking Heavy（在更昂贵的计划中）。对于需要大量思考的真正困难问题，你可以选择 GPT-5.2 Pro，这是最强的模型，仅在较高成本层级中可用。

对于 Gemini，有三个选项：Gemini 3 Flash、Gemini 3 Thinking，以及一些付费计划中的 3 Pro。如果你购买了 Ultra 计划，你将能够访问 Gemini Deep Think，用于处理非常困难的问题（它位于另一个菜单中）。对于任何严肃的问题，请始终选择 Gemini 3 Pro 或 Thinking。对于 Claude，你需要选择 Opus 4.6（尽管新的 Sonnet 4.6 也很强大，但不如前者），并打开“扩展思考”开关。

再次强调，对于大多数人来说，模型之间的差异现在已经足够小，以至于 应用程序和工具 比模型本身更重要。这就引出了更大的问题。

绝大多数人使用聊天机器人来访问 ChatGPT、Claude 和 Gemini 的主要网站或移动应用程序中的 AI 模型。事实上，我们可以称聊天机器人为最重要和最普及的 AI 应用程序。在过去几个月里，这些应用程序已经变得相当不同。

其中的一些差异在于哪些功能捆绑在 AI 中：

Gemini 聊天机器人（并通过小加号按钮访问）：你可以访问 nano banana（当前最好的 AI 图像生成工具）、Veo 3.1（领先的 AI 视频生成工具）、Guided Learning（当你尝试学习时，这有助于 AI 更像一个导师）和 Deep Research

ChatGPT 包含更多杂乱无章的选项，可以通过加号按钮访问。你可以创建图像（图像生成器几乎和 nano banana 一样好，但你不能通过聊天机器人访问 Sora 视频生成器）、学习和研究（相当于 Gemini 的 Guided Learning，但还有一个单独的测验生成器，原因不明）、Deep Research 和购物研究（令人惊讶地好且被忽视），以及其他大多数人都不会经常使用的选项，因此这里不作介绍。

Claude 只有 Deep Research 作为捆绑选项，但你可以通过创建项目并选择学习项目来访问学习模式。

所有的 AI 模型都允许你连接数据，例如让 AI 阅读你的电子邮件和日历、访问你的文件或连接到其他应用程序。这可以使 AI 更加有用，但每种 AI 工具都有不同的连接器可以使用。

这些功能可能会让人感到困惑！对于大多数正在做实际工作的人来说，最重要的附加功能是 Deep Research 和将 AI 连接到你的内容，但你可能想尝试其他功能。然而，越来越多的情况下，重要的是工具——AI 可以访问的工具。在这方面，OpenAI 和 Anthropic 明显领先于 Google。Claude.ai 和 ChatGPT 都具备编写和执行代码、提供文件、进行广泛研究等功能。而 Google 的 Gemini 网站则远没有那么强大（即使它的 AI 模型同样优秀），

正如你所见，通过询问类似的问题，可以从 ChatGPT 和 Claude 获得工作用的电子表格和 PowerPoint，并且有我可以跟进的清晰引用。然而，Gemini 却无法生成这两种类型的文档，也不提供引用或研究。不过，我确实期望谷歌很快会在这方面迎头赶上。

关于聊天机器人最后一点需要注意的是，GPT-5.2 Pro 配合其附带的工具包是一个非常智能的模型。它正是那个帮助在理论物理学中得出新结果的模型，也是我发现最能胜任复杂统计和分析工作的模型。它只能通过更昂贵的计划访问。Google Gemini 3 Deep Think 似乎也非常强大，但同样存在相同的工具包问题。

提示：“你是一名经济社会学家。我希望你能找出一些可以用这些数据测试的新假设，进行复杂的实验，并告诉我结果。”然后我给了它一个大型的 Excel 数据集。

聊天机器人网站是大多数人与人工智能互动的地方，但它们越来越多地不是最令人印象深刻的工作完成的地方。越来越多的其他应用程序将这些模型封装在更强大的工具包中，这些工具包变得越来越重要。

Claude Code、OpenAI Codex 和 Google Antigravity 是这些工具中最成熟的，它们都面向开发者。每个工具都让 AI 模型能够访问你的代码库、终端，并能够独立编写、运行和测试代码。你描述你需要构建的内容，AI 就会去构建它，完成后或遇到问题时再回来。如果你的职业是写代码，这些工具正在改变你的工作方式。因为它们拥有最广泛的工具包，即使你不写代码，它们仍然可以做大量的事情。

例如，几年前，我对如何通过提供原始 GPT-1 的所有内部权重和参数（AI 的代码，列出了 1.17 亿个数字）来制作一个完全基于纸张的 LLM 感兴趣。理论上，只要有足够的时间，你可以用手计算出 AI 的数学运算。这看起来像是一个有趣的点子，但显然不值得去做。一周前，我让 Claude Code 为我完成这个任务。经过大约一个小时的工作（大部分时间是 AI 在工作，还有一些建议），它制作了 80 本精美排版的卷册，包含了 GPT-1 的全部内容，以及一本数学指南。它还设计并执行了每卷的封面，可视化了内部权重。然后，它组装了一个非常优雅的网站（包括下面的动画），连接到 Stripe 进行支付，并通过 Lulu 实现按需打印，测试了整个系统，并为我发布了它。我没有碰过或查看过任何代码。我让它以成本价制作了 20 本书来看看会发生什么——结果当天就卖光了。所有卷册都可以作为免费的 PDF 在网站上获取。现在，我可以有一个需要大量工作的项目想法，并且几乎不需要我付出努力就能实现。

但是，编码工具包对业余爱好者来说仍然是风险，而且显然专注于编程。新的应用程序和工具包开始关注其他类型的知识工作。

Claude for Excel 和 Powerpoint 是应用程序内的特定工具包示例。两者都为这些程序提供了非常出色的扩展功能。特别是 Claude for Excel，感觉像是处理电子表格方式的巨大变革，对于那些靠 Excel 工作的人来说，它的影响可能类似于 Claude Code 对程序员的影响——你可以越来越多地告诉 AI 你想要做什么，它就像一个初级分析师一样完成工作。由于结果是在 Excel 中，所以很容易检查。谷歌在 Google Sheets 上有一些集成（但不如那么深入），而 OpenAI 并没有真正推出类似的产品。

[Claude Cowork](https://claude.ai/downloads) 是一个真正新颖的东西，它应该自成一类。由 Anthropic 在一月份发布，Cowork 实质上是为非技术人员设计的 Claude Code。它可以在你的桌面上运行，并可以直接与你的本地文件和浏览器交互。然而，它比 Claude Code 更安全，对非技术人员来说也更安全（它在一个具有默认拒绝网络和硬隔离的虚拟机中运行，对于关心细节的人而言）。你描述一个结果（整理这些费用报告，从这些 PDF 中提取数据到电子表格，起草总结），Claude 制定计划，将其分解为子任务，并在你的计算机上执行这些任务，而你则在一旁观看（或者不看）。它是基于与 Claude Code 相同的自主架构构建的，并且主要由 Claude Code 在大约两周内构建而成。至少在这个星期，OpenAI 或谷歌都没有直接的等效产品。Cowork 仍处于研究预览阶段，这意味着它还很早期，会迅速消耗你的使用限额，但它明确表明了所有这一切的发展方向：不仅仅是与你讨论工作，而是为你完成工作。

NotebookLM 允许你进行研究报告并收集源文件（左侧），向这些源文件和材料提问（中间），并将它们转化为幻灯片等形式（右侧）。

[NotebookLM](https://notebooklm.google.com/) 是谷歌对另一个问题的回答：如何使用人工智能来理解大量信息？你可以让 NotebookLM 进行深入的研究，或者添加你自己的论文、YouTube 视频、网站或文件，NotebookLM 会构建一个可查询的交互式知识库，并将其转化为幻灯片、思维导图、视频，甚至是最著名的由两位主持人讨论你材料的 AI 生成播客（你甚至可以打断主持人提问）。如果你是一名学生、研究人员，或者需要定期整理大量文档的人，NotebookLM 是一个非常有用的工具。

接下来是 OpenClaw，尽管它并不完全符合上述分类，但我还是想提一下，而且你几乎肯定不应该使用它。OpenClaw 是一个开源的人工智能代理，在一月底时走红。它可以在你的计算机上本地运行，连接到你想要的任何 AI 模型，并且你可以像与人聊天一样通过标准聊天工具（如 WhatsApp 或 iMessage）与它交流。它可以浏览网页、管理文件、发送邮件和执行命令。它基本上是一个 24/7 的个人助手，生活在你的机器上。但它也是一个严重的安全风险：你正在给 AI 广泛访问你的计算机和账户的机会，而没有人确切知道你暴露自己面临的风险是什么。但这也预示着未来的发展方向。

我知道这有很多内容。让我简化一下。

如果你刚开始，选择其中一种系统（ChatGPT、Claude 或 Gemini），支付 20 美元，并选择高级模型。我书中的建议仍然适用：邀请 AI 参与你所做的每一件事。开始用它做实际工作。上传你正在处理的文档。以 RFP 或 SOP 的形式给 AI 分配一个非常复杂的任务。进行来回对话并推动它。仅此一点就能教会你比任何指南更多的东西。

如果你已经熟悉聊天机器人，尝试特定的应用程序。NotebookLM 是免费且易于使用的，因此它是很好的起点。如果你想更深入地了解，Anthropic 提供了最强大的 Claudine Code 和 Claudine Cowork（两者都可以通过 Claudine Desktop 访问），以及专门的 PowerPoint 和 Excel 插件。试一试。同样，不是作为演示，而是用于你真正需要完成的任务。观察它的表现。当它出错时引导它。你不是在提示，而是在管理（正如我在上一篇文章中所写的那样）。

从聊天机器人到代理的转变是自 ChatGPT 推出以来人们使用 AI 最重要的变化。现在还处于早期阶段，这些工具仍然难以理解和可能会做一些令人困惑的事情。但是，能够做事的 AI 相比于只会说话的 AI 更加有用，学习如何使用它也是值得的。