国产多模态Agent拿下医学分割SOTA!不用改模型、不加token
IBISAgent通过多步交互决策重新定义医学图像分割,解决了隐式token导致的推理退化问题,显著提升分割精度。
入选理由:将分割任务建模为多步马尔可夫决策过程,保留语言推理能力
traeai 主题雷达
覆盖 LLM 推理、模型部署、RAG、向量检索、评测、成本优化与生产化架构。
想找到大模型落地、推理成本、RAG 架构和生产化部署的可靠参考资料。
从模型能力到业务价值,中间隔着工程系统;基础设施主题页承担这个搜索入口。
按相关度、评分和更新时间筛出的可读内容。
IBISAgent通过多步交互决策重新定义医学图像分割,解决了隐式token导致的推理退化问题,显著提升分割精度。
入选理由:将分割任务建模为多步马尔可夫决策过程,保留语言推理能力
频繁开启新会话会导致提示缓存失效并触发全价重建,保持活跃会话反而更节省Token。 任务未切换且缓存未过期时应继续当前会话,任务变更或闲置超1小时再果断开新会话。 日常开发慎用1M上下文窗口,建议配置自动压缩阈值至20万Token以控制成本并维持性能。
入选理由:频繁开启新会话会导致提示缓存失效并触发全价重建,保持活跃会话反而更节省Token。
Cohere实现了生产级W4A8推理优化,并集成到vLLM中,显著提升性能。
入选理由:结合4-bit权重和8-bit激活实现内存与计算平衡。
OpenAI通过WebSocket优化Responses API,将复杂任务处理速度提升40%,支持高达1000 tokens/秒的推理速度。
入选理由:使用WebSocket减少API请求的网络延迟。
Google Cloud Next发布存储创新,优化AI工作负载性能。
入选理由:推出高性能存储基础设施,提升10倍性能
Adrien Grondin 展示了如何利用 MLX 在 iPhone 上高效运行 LLM 模型。
入选理由:实现了 40 tokens/s 的高性能推理速度。
探讨 MoE 模型中训练与推理数值一致性问题,揭示优化陷阱。
入选理由:数学等价的核融合可能引发数值漂移
Kimi K2.6 引入多Agent协作能力,支持300个子Agent并行完成复杂任务,革新AI协作模式。
入选理由:Kimi K2.6实现多Agent集群协作,可并行处理4000个步骤。
微软研究院联合高校提出ADeLe评估框架,通过18项核心能力维度对大模型与任务进行双向量化评分。该方法能构建模型能力画像,以约88%的准确率预测未知任务表现,并精准定位模型失败原因,有效弥补传统基准测试缺乏解释性与预测力的缺陷。
入选理由:ADeLe将模型与任务映射至18项核心能力维度(0-5分),实现需求与能力的结构化对齐。
QIMMA是首个对阿拉伯语LLM基准进行质量预验证的排行榜,揭示现有评测集普遍存在翻译失真、标注错误等问题,确保模型评分真实反映阿拉伯语能力。
入选理由:多数阿拉伯语基准未经过质量验证,存在翻译偏差和标注错误,影响评估可信度。
跨维智能DexWorldModel以机器人任务成功率为核心指标重构世界模型评价体系,通过四层协同架构解决表示、记忆、推理与数据瓶颈,推动具身智能从视频生成走向真机闭环执行。
入选理由:世界模型应以机器人任务成功率而非视觉质量为评价标准,避免指标错位导致落地失效。
Cloudflare在11个月内构建了基于自身平台的内部AI工程栈,覆盖93%研发人员,月处理4795万AI请求,显著提升代码合并效率。
入选理由:内部AI工具栈完全运行于Cloudflare对外产品上,实现自用即公测的开发闭环。
Jim Fan团队开源CaP-X,推出具身智能体框架,支持多机器人平台,包含感知、控制、仿真训练及真实部署能力。
入选理由:CaP-X提供统一API支持机器人臂与人形机器人,实现零样本任务执行
Mem0 推出新记忆算法,在 LoCoMo 等基准上以不到 7,000 tokens/query 实现媲美竞品的准确率,显著降低推理成本。
入选理由:新算法通过单次 LLM 调用实现仅 ADD 的记忆提取,保留完整状态变迁历史
论文揭示模型蒸馏中存在隐式信息传递:即使训练数据不含敏感语义,同源初始化的学生模型仍会继承教师的行为偏好。
入选理由:同源初始化的模型可通过数据中的数字分布隐式传递行为特征
美团发布 LongCat-AudioDiT,通过波形潜空间端到端生成与两项推理优化,在零样本语音克隆中实现 SOTA 音色相似度。
入选理由:抛弃梅尔谱中间表示,直接在波形潜空间建模可减少信息损失
文章揭示RLHF训练中FP32与BF16精度差异引发的‘幻影裁剪’问题,导致PPO算法意外失效。
入选理由:FP32训练与BF16推理间的精度差产生结构化偏差β,非随机噪声
文章指出大模型深度扩展受限于层间通信瓶颈,提出用深度注意力替代残差连接,并通过Flash Depth Attention实现高效检索式信息流动。
入选理由:当前大模型深度扩展存在信息稀释问题,残差连接导致深层难以有效利用浅层信息。
Kimi团队提出PrFaaS架构,通过混合注意力模型与跨数据中心调度,实现KV Cache高效传输,显著提升长上下文推理吞吐与延迟表现。
入选理由:混合注意力架构大幅降低KV Cache带宽需求,使以太网可替代RDMA
ZJU-REAL团队开源ClawGUI框架,打通GUI智能体训练、评测与真机部署全流程,2B小模型在MobileWorld上SR达17.1,显著超越基线。
入选理由:ClawGUI实现训练-评测-部署闭环,解决GUI智能体研发割裂问题
Anthropic 在 Claude Opus 4.7 系统提示中新增儿童安全标签、工具搜索机制,并优化交互逻辑以减少冗长和侵扰性行为。
入选理由:新增 <critical_child_safety_instructions> 标签,强化儿童安全策略
黄仁勋在深度访谈中阐释Nvidia以“电子转Token”为核心使命,强调CUDA生态、供应链协同与能源制约才是AI竞争关键。
入选理由:Nvidia护城河在于庞大GPU装机量、跨云可移植性及深度优化服务,而非单纯技术锁定。
NVIDIA 利用合成数据训练出高性能多语言 OCR 模型 Nemotron OCR v2,在六种语言上显著降低错误率并实现每秒 34.7 页的推理速度。
入选理由:合成数据可兼顾标注精度与规模,有效解决多语言 OCR 训练数据稀缺问题
前Meta AI研究总监田渊栋深入剖析大模型效率瓶颈、创新路径与AI洪水下的人类定位,强调自进化、持续学习和科研品位的重要性。
入选理由:大模型已陷入资源内卷,扼杀多元创新,需转向效率与持续学习
ElevenLabs CEO 揭示语音大模型如何通过神经网络实现情感与韵律的“涌现”,并分享其自服务驱动的高速增长与AI原生组织模式。
入选理由:语音模型近年才实现高拟真度,情感与口音通过大规模训练自然涌现
Cloudflare 推出 Unweight,一种无损压缩技术,在 H100 GPU 上将 LLM 模型体积减少 15–22%,不牺牲推理质量且无需专用硬件。
入选理由:Unweight 实现 LLM 权重无损压缩,节省约 3GB VRAM,提升 GPU 利用率。
Coding正推动AI从聊天机器人迈向能自主执行任务的Agent,成为AGI第二幕核心驱动力,并重塑硅谷大模型竞争格局。
入选理由:Coding是AGI发展的关键加速器,领先模型通过代码能力放大顶尖人才生产力10-50倍
Meta发布SAM 3.1,通过对象多路复用和全局推理实现更快、更高效的实时视频检测与跟踪。
入选理由:SAM 3.1支持单次前向传播同时跟踪最多16个对象,视频处理速度翻倍。
AI体验设计正从提示工程转向约束优先架构,以解决大模型幻觉与可信度问题。
入选理由:提示仅能引导风格,无法保证事实准确性或防止幻觉。
MiniMax M2.7 实现模型自主迭代,Cursor 通过持续预训练提升编程能力,Cloudflare 将大模型推理嵌入边缘基础设施。
入选理由:M2.7 能自主优化评测系统与工作流,在100轮迭代中提升性能30%