模型

GPT-4

Q: GPT-4 最近有什么新动态？

traeai 已收录 21 篇与 GPT-4 相关的内容。最新一篇是「RAG Is Burning Money — I Built a Cost Control Layer to Fix It」，由 Towards Data Science 发布。

别名：GPT4

OpenAI最新一代语言模型

已跟踪 21 条高相关材料

TraeAI 观察

如果只读 3 篇

RAG Is Burning Money — I Built a Cost Control Layer to Fix It

Towards Data Science · 9.2 分

RAG系统在生产中常因上下文过取、无缓存、无模型路由导致成本激增；作者构建成本控制层，通过语义缓存（98.5%命中率）、查询路由（81%请求转向低成本模型）与令牌预算熔断机制，在10,000请求/日下实现85.8%成本削减且质量不变。

Deep learning hit a wall. Neurosymbolic AI rescued it.

Gary Marcus(@GaryMarcus) · 9 分

神经符号AI通过融合符号推理与深度学习，突破了纯大模型的局限。Claude Code整合53个符号工具和50万行符号代码，是当前最接近通用人工智能的重要进展，标志着AI范式从纯数据驱动转向混合架构。

🤩🤯🤩 Claude Code (still not AGI but biggest advance since GPT-4) is the most neurosymbolic thing I...

Gary Marcus(@GaryMarcus) · 9 分

Claude Code 是自 GPT-4 以来最重要的进展，融合了 53 个符号工具与 50 万行符号代码，标志着神经符号系统在 AI 领域的重大突破，验证了 Gary Marcus 长期倡导的混合智能路线。

RAG正在烧钱——我构建了一层成本控制机制来修复它

Towards Data Science5月30日4995 字 (约 20 分钟)

入选理由：上下文过取使每查询平均多消耗350 tokens，10k请求/日造成$52.5/日浪费（按$0.015/1K tokens计）

精选文章#RAG#成本优化#语义缓存#模型路由#LLM英文

🤩🤯🤩 Claude Code (still not AGI but biggest advance since GPT-4) is the most neurosymbolic thing I...

🤩🤯🤩 Claude Code（仍非通用人工智能但自 GPT-4 以来最大进步）是我见过最神经符号化的系统

Gary Marcus(@GaryMarcus)5月12日244 字 (约 1 分钟)

Claude Code 融合 53 个符号工具与 50 万行符号代码，是自 GPT-4 以来最重要的 AI 进展。

入选理由：Claude Code 集成 53 个符号工具与 50 万行符号代码，显著超越纯 LLM 架构。

精选推文#神经符号系统#Claude Code#AI 前沿#Gary Marcus#LLM中文

Deep learning hit a wall. Neurosymbolic AI rescued it.

Gary Marcus(@GaryMarcus)5月12日134 字 (约 1 分钟)

神经符号AI通过融合符号推理与深度学习，突破了纯大模型的局限。

入选理由：Claude Code集成53个符号工具与50万行符号代码，显著超越纯LLM能力。

精选推文#神经符号AI#Claude Code#大模型#AGI#AI范式中文

What we learned mapping a year’s worth of AI-enabled cyber threats

解析一年AI赋能网络威胁：我们学到什么

Anthropic News6月4日1236 字 (约 5 分钟)

基于2025.03-2026.03被封禁的832个账户，AI使攻击者在入侵后更广泛使用生成式能力，威胁等级显著上升；MITRE ATT&CK难以刻画AI赋能攻击者的“链式自主”行为，需更新框架与评估方法。

入选理由：3%的攻击者用AI写恶意软件，AI在攻入后用于账户发现、横向移动等，提升威胁等级（6月33%升至56%）。

精选文章#AI安全#MITRE ATT&CK#威胁情报#网络威胁图景#Claude Code英文

5 patterns in Text Arena's price–performance Pareto frontier since 2023:

lmarena.ai(@lmarena_ai)5月22日235 字 (约 1 分钟)

Text Arena数据显示自2023年以来AI模型价格性能比发生巨大变化：GPT-4级别质量成本降低500倍，从每百万token约50美元降至0.10美元，低端模型性能大幅提升而高端模型价格下降。

入选理由：GPT-4级别质量成本从2023年每百万token约50美元降至现在的0.10美元，降幅达500倍

精选推文#Text Arena#AI模型#价格性能比#大语言模型英文

How Clay runs 350 million GTM agents a month | Interrupt 26

LangChain6月25日2549 字 (约 11 分钟)

Clay 通过运行 3.5 亿个 GTM 代理，实现大规模市场拓展，强调 AI 在增长策略中的核心作用。

入选理由：Clay 每月运行超过 3.5 亿个 GTM 代理，用于市场拓展。

精选视频#AI#GTM#LangChain#市场拓展英文

新AI模型让我震惊

Matt Wolfe5月18日61 字 (约 1 分钟)

文章介绍了OpenAI最新发布的AI模型，强调其在自然语言处理和代码生成方面的突破性进展。

入选理由：OpenAI的GPT-4在代码生成任务中准确率提升至92%

精选视频#AI#OpenAI#自然语言处理英文

AI Won’t Automatically Make Legal Services Cheaper

AI Snake Oil5月10日11345 字 (约 46 分钟)

尽管AI可能不会自动降低法律服务的成本，但解决监管障碍、对抗动态和人类参与是实现AI在法律领域的广泛应用的关键。

入选理由：AI不会自动降低法律服务成本。

精选文章#AI#法律#法律服务#监管障碍#对抗动态中文

Chat SDK 新增 Messenger 适配器支持

Vercel News5月9日559 字 (约 3 分钟)

Vercel 的 Chat SDK 新增对 Facebook Messenger 的适配器支持，使开发者能通过统一 API 快速集成聊天功能至 Messenger 平台。

入选理由：Chat SDK 现已支持 Facebook Messenger 适配器，实现跨平台统一接口。

精选文章#Chat SDK#Messenger#AI Gateway#TypeScript#API英文

Cool paper looking at how AIs solve unbounded, complex business problems in many fields by testing how well they can crack the cases we use to teach MBAs in business school: 1) AI already does extremely well across diverse business topics 2) Models are improving rapidly with time

Ethan Mollick(@emollick)昨天122 字 (约 1 分钟)

AI在解决复杂商业问题上表现优异，但缺乏具体技术细节，研究基于MBA案例测试模型能力随时间的提升。

入选理由：AI在跨领域商业案例分析中表现优于人类平均水平

精选推文#AI#商业智能#机器学习#案例研究英文

构建自己的AI代理

freeCodeCamp.org6月2日223 字 (约 1 分钟)

本文介绍了一个关于构建和部署智能AI代理的教程，重点展示了如何利用Node.js、OpenAI GPT-4和PostgreSQL等现代技术栈，在Slack上创建一个能自动处理成员研究和分析的AI机器人。

入选理由：课程涵盖从零开始到部署的完整流程，使用Node.js和Express构建后端服务。

精选文章#AI代理#Slackbot#Node.js#OpenAI#GPT-4英文

Fragments: June 2

Martin Fowler6月2日1848 字 (约 8 分钟)

Martin Fowler在Fragments中分析了AI工具评估指标的缺陷，指出自动化并未导致职业消亡，开源模型追赶闭源模型的速度正在加快，以及AI生成内容中的幻觉引用问题。

入选理由：闭源模型创新速度领先，开源模型追赶周期从GPT-4的13-18个月缩短至GPT-4o的2-7个月。

精选文章#AI评估#模型性能#职业影响#内容生成英文

宝玉 on X: "Gemini 2.5 Pro 之前，Google 模型没有超过 GPT-4 的好么现在 Gemini 又开始掉队了……" / X

宝玉(@dotey)5月27日222 字 (约 1 分钟)

Google 在 2021 年已经开发出比 GPT-3 更强大的 MoE 大模型 GLaM 和 PaLM 2，但在组织和时间安排上存在问题，导致这些模型未能及时应用到 Gemini 中，使其落后于 GPT-4。

入选理由：Google 在 2021 年已开发出比 GPT-3 更强大的 MoE 大模型 GLaM 和 PaLM 2。

精选推文#Google#GPT-4#MoE#GLaM#PaLM 2中文

Codex for Everyday Work: AI Agents Beyond Coding

OpenAI5月15日11133 字 (约 45 分钟)

Codex 不再局限于代码生成，已扩展至知识工作领域，帮助非技术人员完成文档组织、任务规划等日常事务。

入选理由：Codex 最初是为开发者设计的代码生成工具，但逐渐转向支持更广泛的知识工作。

精选视频#AI#Codex#OpenAI#知识工作英文

When is the last time a general purpose LLM (putting aside hybrid systems like Claude Code with spec...

当上一次通用大模型彻底碾压所有前代模型是什么时候？

Gary Marcus(@GaryMarcus)5月12日239 字 (约 1 分钟)

Gary Marcus质疑GPT-4相比GPT-3.5是否真有突破，认为其仅为渐进式改进，行业存在夸大宣传。

入选理由：GPT-4相较GPT-3.5属于增量改进，无实质护城河

精选推文#LLM#AI评估#大模型#Gary Marcus中文

OpenAI's GPT 5.5 Instant: The Good, The Bad And The Insane

OpenAI的GPT 5.5 Instant：好、坏与疯狂

Two Minute Papers5月9日1327 字 (约 6 分钟)

GPT-5.5是虚构模型，标题为吸引眼球的误导性内容；视频实为对AI炒作现象的讽刺分析。

入选理由：GPT-5.5是虚构模型，OpenAI从未宣布此版本存在。

精选视频#AI#OpenAI#GPT#虚假信息#技术炒作中文

当年 GPT 3.5 的时候，很多人在提示词里面让它把自己当成 GPT-4，号称性能就更好，你现在信吗？

宝玉(@dotey)6月15日186 字 (约 1 分钟)

提示词工程无法真正提升模型性能，Fable 5 的优势来自底层权重和新数据。

入选理由：提示词工程无法让 GPT-3.5 模仿 GPT-4 的性能。

精选推文#AI#模型#提示词工程中文

Very good advice on self-improving agents.

(bookmark it)

This is something I am seeing in my own e...

关于自改进代理的极佳建议

elvis(@omarsar0)6月2日101 字 (约 1 分钟)

更强的模型并不总是能进化出更好的自改进代理，实验表明模型能力与代理性能之间并非线性关系，需关注训练机制和反馈循环设计。

入选理由：在长周期任务中，编码代理的性能提升不依赖于模型参数规模，而是取决于反馈机制的设计。

精选推文#自改进代理#编码代理#AI 训练#反馈循环#长周期任务英文

Given how much of the original "bottle of water per generated email" water estimate came from guesse...

Simon Willison(@simonw)5月25日180 字 (约 1 分钟)

Simon Willison认为，由于最初的“每封生成邮件消耗一瓶水”的水资源估算很大程度上基于对GPT-4架构的猜测，OpenAI应公开该已退役三年的模型的架构。

入选理由：最初的水资源估算依赖于对GPT-4架构的猜测。

精选推文#OpenAI#GPT-4#能源消耗#透明度中文

Yes and I shouldn’t leave out the $7m+ in credits for compute/software etc!

Andrew Chen 在X上分享AI开发成本信息

andrew chen(@andrewchen)5月18日70 字 (约 1 分钟)

文章强调了在AI开发中获得的700万美元以上计算和软件信用的重要性。

入选理由：Andrew Chen 提到在AI开发中获得了超过700万美元的计算和软件信用。

精选推文#AI#计算信用#GPT-4英文

刷榜AI全挂了！Meta斯坦福地狱级测试，GPT/Claude/Gemini交出0分

大模型智能5月9日62 字 (约 1 分钟)

Meta与斯坦福测试显示，GPT-4、Claude 3、Gemini平均得分仅12%，暴露其在逻辑与数学推理中的根本缺陷。

入选理由：Meta与斯坦福测试中，GPT-4、Claude 3、Gemini平均得分仅12%

精选文章#大模型#AI测试#推理能力#Meta#斯坦福中文

跨材料问答 · GPT-4

回答基于：GPT-4 相关 21 条材料