模型

LLM

Q: 什么是 LLM？

基于深度学习的超大规模语言模型

Q: LLM 最近有什么新动态？

traeai 已收录 30 篇与 LLM 相关的内容。最新一篇是「NEW POST LLMs generate code incredibly fast, but to ensure they generate exactly what is intended, ...」，由 Martin Fowler(@martinfowler) 发布。

别名：大语言模型

基于深度学习的超大规模语言模型

已跟踪 30 条高相关材料

TraeAI 观察

如果只读 3 篇

How LLMs Learn to Be Helpful (RLHF vs DPO)

ByteByteGo Newsletter · 8.5 分

本文对比RLHF与DPO两种方法，揭示大语言模型如何通过偏好学习提升帮助性，解析训练三阶段及技术局限性。

Most AI agents get 𝗱𝘂𝗺𝗯𝗲𝗿 as they learn more. (There's a better way) We just released a demo...

Weaviate • vector database(@weaviate_io) · 8.5 分

Weaviate推出的Engram通过智能记忆管理解决AI代理学习时变笨的问题，采用异步处理实现记忆提取、冲突化解和结构化存储。

NEW POST LLMs generate code incredibly fast, but to ensure they generate exactly what is intended, ...

Martin Fowler(@martinfowler) · 8.5 分

DSL和良好抽象能显著提升LLM代码生成的可靠性和可审查性，Martin Fowler推荐该实践。

NEW POST LLMs generate code incredibly fast, but to ensure they generate exactly what is intended, ...

Martin Fowler(@martinfowler)今天125 字 (约 1 分钟)

DSL和良好抽象能显著提升LLM代码生成的可靠性和可审查性，Martin Fowler推荐该实践。

入选理由：DSL为LLM代码生成提供明确边界，降低意外输出风险

精选推文#LLM#DSL#代码生成#软件工程中英混合

Fragments: July 13

Martin Fowler昨天2579 字 (约 11 分钟)

Harness Engineering和自托管模型在AI开发中变得关键，能减少token使用并提升模型实用性。

入选理由：Harness Engineering通过上下文管理可减少30%以上token消耗

精选文章#AI开发#模型托管#Harness Engineering#自托管模型英文

How LLMs Learn to Be Helpful (RLHF vs DPO)

ByteByteGo Newsletter昨天2425 字 (约 10 分钟)

本文对比RLHF与DPO两种方法，揭示大语言模型如何通过偏好学习提升帮助性，解析训练三阶段及技术局限性。

入选理由：模型训练分三阶段：预训练、监督微调（SFT）、偏好教学（RLHF/DPO）

精选文章#LLM#RLHF#DPO#模型训练英文

Pydantic + OpenAI: The Cleanest Way to Get Structured Outputs from LLMs

Towards Data Science昨天2355 字 (约 10 分钟)

Pydantic与OpenAI结构化输出结合能高效处理LLM输出，提升Python应用可靠性。

入选理由：Pydantic通过类型注解自动验证数据结构，减少手动解析JSON的错误

精选文章#Pydantic#OpenAI#LLM#Python#数据验证英文

12 Ways to Reduce LLM Latency and Inference Costs in Production

KDnuggets昨天2426 字 (约 10 分钟)

生产环境中的LLM应用可通过12种方法显著降低延迟和成本，核心包括优化指标监控、减少输出token和缓存复用。

入选理由：测量TTFT、P95等指标可精准定位延迟瓶颈

精选文章#LLM#推理优化#生产环境#延迟减少英文

Weaviate • vector database(@weaviate_io) 图标

Most AI agents get 𝗱𝘂𝗺𝗯𝗲𝗿 as they learn more. (There's a better way) We just released a demo...

Weaviate • vector database(@weaviate_io)7月14日251 字 (约 2 分钟)

Weaviate推出的Engram通过智能记忆管理解决AI代理学习时变笨的问题，采用异步处理实现记忆提取、冲突化解和结构化存储。

入选理由：传统方法存在上下文膨胀导致性能退化问题（成本增加300%）

精选推文#AI代理#记忆管理#Weaviate#语义检索英文

RAG vs Fine-Tuning Explained: What They Actually Do and When to Use Each

Towards Data Science7月14日2376 字 (约 10 分钟)

RAG与微调解决不同问题，非竞争关系，应根据具体需求选择。RAG通过检索增强生成，微调通过参数调整适应领域，各有适用场景。

入选理由：RAG通过检索外部信息增强模型响应，无需修改模型结构

精选文章#RAG#微调#LLM#AI应用英文

客户支持语音 Agemt：从 Demo 到生产的真实工程语音 AI 的 demo 看似简单：呼叫方 → STT → LLM → TTS → 呼叫方。但生产系统的难点藏在组件之间——低延迟音频流、轮...

meng shao(@shao__meng)7月14日660 字 (约 3 分钟)

生产级语音Agent需解决低延迟、上下文注入等五大挑战，Telnyx平台提供基础设施支持。

入选理由：亚秒级往返延迟要求STT+LLM+TTS+电话层总和≤1秒

精选推文#语音AI#Telnyx#LLM工程化#客户支持系统中英混合

Safely run AI-generated code in Cloud Run sandboxes

Google Cloud Blog7月10日1021 字 (约 5 分钟)

Google Cloud Run沙箱公开预览版可安全运行AI生成代码，提供毫秒级启动和隔离执行环境。

入选理由：Cloud Run沙箱启动时间低至500ms，支持并发执行1000个实例

精选文章#Cloud Run#沙箱#AI代码执行#Google Cloud#安全计算英文

Hackers can use 9 of the most popular AI tools to assemble massive botnets

Ars Technica7月9日1767 字 (约 8 分钟)

黑客利用9种主流AI工具通过HalluSquatting攻击构建大规模僵尸网络，威胁AI编码助手和代理的安全。

入选理由：HalluSquatting攻击利用LLMs的幻觉漏洞，无需直接目标即可大规模感染设备

精选文章#AI安全#网络攻击#LLM漏洞#僵尸网络英文

Among Microsoft’s 100+ accepted papers, 3 oral presentations, and 1 expo demo at ICML in Seoul, high...

Microsoft Research(@MSFTResearch)7月7日105 字 (约 1 分钟)

微软在ICML 2026发布Fara 1.5、FLIP2等成果，涵盖计算机代理、基准测试和蛋白质ML领域，显著提升LLM推理稳定性。

入选理由：Fara 1.5计算机使用代理实现更自然的人机交互

精选推文#ICML#微软#机器学习#蛋白质ML#LLM英文

Podcast: Spite-Driven Engineering: A New Blueprint for Cloud Security in the AI Native Era

InfoQ7月6日333 字 (约 2 分钟)

本文提出‘spite-driven engineering’理念，强调通过解决真实技术痛点提升云安全，指出当前云原生架构的脆弱性及AI原生时代的工程实践方向。

入选理由：架构应源于真实技术痛点的解决，而非层叠复杂性。

精选文章#云安全#AI原生#DevOps#LLM英文

Multi-tenant LLM analytics with row-level security: How we built a secure agent on AWS

AWS Machine Learning Blog6月30日4070 字 (约 17 分钟)

AWS博客披露PAR公司通过三层架构实现多租户LLM分析系统的行级安全，结合SigV4签名、Bedrock语义验证和Split-Plane SQL隔离技术。

入选理由：使用AWS SigV4加密签名确保请求来源可信

精选文章#AWS#机器学习#安全架构#多租户系统#LLM英文

Tail Control: The Counterintuitive Engineering of Reliable Agentic Workflows

Towards Data Science6月28日5576 字 (约 23 分钟)

在客户API后运行LLM工作流时，确保结果的可靠性和及时性比答案正确性更重要，需应对时间、成本和令牌预算的挑战。

入选理由：LLM工作流在客户API后需应对时间窗口、成本和令牌预算三重限制。

精选文章#LLM#API#工程实践#可靠性#资源管理英文

What happens when your AI remembers you as an engineer, then learns you're CEO? Most systems just s...

Weaviate • vector database(@weaviate_io)6月27日256 字 (约 2 分钟)

Engram 通过主动整合记忆，避免了 AI 系统中常见的信息冗余和矛盾问题，提升上下文的准确性和清晰度。

入选理由：Engram 不只是存储信息，而是主动整合和更新记忆。

精选推文#AI#记忆管理#Weaviate#LLM英文

Understanding the brain with AI-driven explanations and experiments

Microsoft Research Blog6月27日1436 字 (约 6 分钟)

GCT框架通过AI生成可验证的理论，揭示大脑皮层对语言的响应机制，推动神经科学与AI的结合。

入选理由：GCT通过LLM生成故事，验证大脑特定区域对语言的响应。

精选文章#AI#神经科学#自然语言处理#微软研究英文

EP220: RAG vs Graph RAG vs Agentic RAG

ByteByteGo Newsletter6月27日1157 字 (约 5 分钟)

RAG、Graph RAG 和 Agentic RAG 是三种不同的 LLM 数据连接方式，各有适用场景和优缺点。

入选理由：标准 RAG 快速但容易因错误检索导致错误答案。

精选文章#RAG#LLM#AI#系统设计英文

Privacy-Aware Infrastructure in the AI-Native Era: An Asset Classification Case Study

Engineering at Meta6月27日5307 字 (约 22 分钟)

Meta 提出隐私感知基础设施（PAI）框架，通过结合 LLM 和确定性规则，实现对 AI 时代数据资产的高效分类与治理。

入选理由：Meta 使用 LLM 处理模糊和新颖的数据资产，但最终由确定性规则执行生产决策。

精选文章#AI#隐私治理#Meta#LLM#数据分类英文

𝗟𝗟𝗠𝘀 𝗸𝗲𝗲𝗽 𝗰𝗶𝘁𝗶𝗻𝗴 𝘀𝗼𝘂𝗿𝗰𝗲𝘀 𝘁𝗵𝗮𝘁 𝗱𝗼𝗻'𝘁 𝘀𝗮𝘆 𝘄𝗵𝗮𝘁 𝘁𝗵𝗲𝘆 ...

Milvus(@milvusio)6月26日301 字 (约 2 分钟)

LLM引用来源时可能不准确，问题通常出现在生成层或工程层，需分别处理。

入选理由：生成层错误（如虚构数据）可通过收紧提示约束或更换模型解决。

精选推文#LLM#RAG#工程实践#引用准确性英文

At test time, we wrap LLMs in scaffolds that scale compute every which way -- longer chains, paralle...

Stanford AI Lab(@StanfordAILab)6月26日198 字 (约 1 分钟)

斯坦福AI实验室提出Spiral方法，通过集合强化学习（set RL）和标准强化学习（RL）训练模型，使其在推理时能利用更长的链条、并行样本和聚合计算。

入选理由：Spiral方法结合集合强化学习和标准强化学习，提升模型推理能力。

精选推文#AI#强化学习#LLM#Stanford AI Lab英文

An LLM as arbiter in RAG retrieval: picking the right candidate with reasons

Towards Data Science6月25日6594 字 (约 27 分钟)

使用LLM作为仲裁者在RAG检索中选择最佳候选，提供理由并输出可审计的JSON结果。

入选理由：使用LLM仲裁者可以对RAG检索结果进行排序并提供理由，提升可解释性。

精选文章#RAG#LLM#企业文档智能#检索#JSON英文

The Hot Path Belongs to GBDTs, Agents Own the Cold Path: A Payment-Fraud Benchmark

Towards Data Science6月25日3819 字 (约 16 分钟)

在支付欺诈检测中，GBDT模型在同步路径上表现更优，而代理系统更适合异步处理。

入选理由：GBDT模型在单核CPU上的p99延迟为0.15 ms，而LLM模型的p99延迟约为1200 ms。

精选文章#支付欺诈#GBDT#LLM#机器学习英文

Axon CPTO on Build Only What Makes You Different: The AI Build vs. Buy Rule

Product School7月14日218 字 (约 1 分钟)

Axon选择内部构建关键AI模型以保持差异化，而购买现有LLM以节省成本。车牌检测用自研模型，Draft One产品使用通用LLM。

入选理由：自研模型在车牌检测等实时场景性能优于基础模型

精选视频#AI#技术策略#LLM#计算机视觉英文

llm wikis are a glimpse of the future of what agent memory looks like this blog i wrote resonated w...

Harrison Chase(@hwchase17)7月8日165 字 (约 1 分钟)

维基记忆可能成为代理记忆的未来方向，但当前缺乏标准化和具体实现细节。

入选理由：代理记忆领域尚未形成统一标准，不同团队定义差异大

精选推文#LLM#代理记忆#维基#AI英文

https://t.co/oFtjrlPxJU

mem0(@mem0ai)7月8日73 字 (约 1 分钟)

基于LLM的第二大脑知识管理系统面临数据安全、一致性与检索效率三大技术瓶颈，实际落地需结合RAG等技术优化。

入选理由：第二大脑依赖LLM的文档处理能力，但存在数据泄露风险

精选推文#AI#知识管理#LLM#技术挑战英文

J-space 是 LLM 的白板？

李继刚(@lijigang_com)7月8日39 字 (约 1 分钟)

J-space 被提出作为 LLM 的白板，但文章缺乏具体技术细节和论证。

入选理由：文章未明确解释 J-space 的技术实现机制

精选推文#LLM#J-space#技术观点中文

Scrolled on my LinkedIn feed for the first time in a while. It's almost entirely LLM-generated, but...

Justine Moore(@venturetwins)7月1日109 字 (约 1 分钟)

LinkedIn动态中LLM生成内容占比显著提升，但用户接受度提高。

入选理由：LLM生成内容已占据LinkedIn动态主流位置

精选推文#LLM#社交媒体#内容生成英文

I have two versions of prompt: read-quick-dont-validate: <link to paper> Teach me this paper. Break...

Suhail(@Suhail)6月27日215 字 (约 1 分钟)

文章介绍了两种提示策略，分别用于快速阅读和深度学习，适用于不同场景。

入选理由：快速阅读提示适用于初步了解论文内容，适合时间有限的读者。

精选推文#LLM#提示工程#深度学习英文

Quoting Tom MacWright

Simon Willison's Weblog6月25日230 字 (约 1 分钟)

本文引用了Tom MacWright对AI生成简历和作品集的担忧，认为其缺乏真实性和个性。

入选理由：AI生成的简历和作品集可能缺乏真实性和个性。

精选文章#AI#简历#Tom MacWright#技术趋势中英混合

We're launching 5x faster document parsing in the Firecrawl MCP. Use /parse to turn PDFs, spreadshe...

Firecrawl(@firecrawl_dev)6月25日127 字 (约 1 分钟)

Firecrawl 推出更快速的文档解析功能，但信息密度低，缺乏技术深度。

入选理由：Firecrawl 推出 5 倍更快的文档解析功能。

精选推文#Firecrawl#文档解析#LLM#AI英文

跨材料问答 · LLM

回答基于：LLM 相关 30 条材料