T
traeai
登录

traeai 主题雷达

多模态模型、视觉语言模型与跨媒体理解

追踪 VLM、多模态 LLM、图像理解、视频理解、语音、多模态 Agent、模型能力评测与应用场景。

搜索用户通常想解决什么

想了解多模态模型能力边界、最新模型发布,以及如何在产品中使用图像、视频和语音理解。

为什么值得持续追踪

多模态让 AI 从文本工具变成能理解真实世界输入的系统,是 Agent 和机器人能力的重要基础。

多模态模型VLMmultimodal LLM视觉语言模型图像理解视频理解语音模型多模态 Agent

长尾组合

这个主题可以沿着工具、实践、对比等搜索意图持续扩展,不靠空壳换词,而是用真实材料更新。

多模态模型 工具多模态模型 实践多模态模型 对比VLM 工具VLM 实践VLM 对比multimodal LLM 工具multimodal LLM 实践

可自动化内容模块

精选材料

持续抓取与 多模态模型 相关的高分文章、播客、视频和推文。

趋势判断

把最近变化、反复出现的观点和争议点整理成稳定摘要。

实体关联

自动连接相关公司、模型、产品、人物和概念,形成可继续深挖的入口。

精选内容

按相关度、评分和更新时间筛出的可读内容。

搜索更多
Gemma 4 12B:开发者指南

Gemma 4 12B:开发者指南

Google Developers Blog1171 字 (约 5 分钟)
92

Gemma 4 12B采用无编码器多模态架构,可在16GB显存设备上本地运行并原生支持音频输入。该模型通过移除独立视觉与音频编码器显著降低延迟,配合专用MTP模型提升推理速度,是首个支持macOS桌面端全离线交互的中型多模态模型。

入选理由:Gemma 4 12B移除独立编码器,视觉仅用35M参数嵌入层,音频直接线性投影至LLM输入空间

精选文章#Gemma 4#多模态大模型#无编码器架构#本地AI#Google英文
NVIDIA 推出 Cosmos 3:统一物理AI多模态模型

NVIDIA 推出 Cosmos 3:统一物理AI多模态模型

NVIDIA Developer543 字 (约 3 分钟)
92

NVIDIA 推出 Cosmos 3,首个融合语言、视频、声音与动作的多模态统一模型,采用 Mixture of Transformer 架构,支持开源定制与边缘部署,已在多项物理AI基准测试中登顶。

入选理由:Cosmos 3 是首个整合语言/视频/声音/动作输入输出的 omni 模型,基于 Mixture of Transformer 架构。

精选视频#NVIDIA#物理AI#多模态模型#Mixture of Transformer#开源模型英文
OpenAI Blog 图标

通过 API 中的新模型推进语音智能

OpenAI Blog1767 字 (约 8 分钟)
92

OpenAI 推出三款实时语音模型,提升语音应用的智能化水平。

入选理由:GPT-Realtime-2 能处理复杂请求并自然延续对话。

精选文章#OpenAI#语音模型#API中文
国产多模态Agent拿下医学分割SOTA!不用改模型、不加token

IBISAgent通过多步交互决策重新定义医学图像分割,解决了隐式token导致的推理退化问题,显著提升分割精度。

入选理由:将分割任务建模为多步马尔可夫决策过程,保留语言推理能力

精选文章#医学图像分割#多模态模型#强化学习#CVPR中文
不卷参数卷架构,这个开源模型把图像理解和生成统一了

商汤开源了全新架构模型SenseNova-U1,通过NEO-unify架构统一图像理解与生成,支持连续性图文创作和高密度信息图处理。

入选理由:SenseNova-U1以8B小尺寸实现GPT-Image-2级别的图像生成能力,尤其擅长信息图和文字密集排版。

精选文章#SenseNova#图像生成#AI模型#商汤中文
OpenAI 在 Realtime API 里上线了三款新语音模型

OpenAI 在 Realtime API 里上线了三款新语音模型

宝玉(@dotey)572 字 (约 3 分钟)
89

OpenAI发布了三款新语音模型:GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper,显著提升了对话、翻译和实时转录能力。

入选理由:GPT-Realtime-2在Big Bench Audio智能测试上从81.4%提升到96.6%,支持更复杂的任务编排。

精选推文#OpenAI#语音模型#API中文
Gemma-4 12B + Hermes,Google AI Edge:本地、高效与易用

Gemma-4 12B + Hermes,Google AI Edge:本地、高效与易用

AICodeKing3109 字 (约 13 分钟)
87

Gemma-4 12B 采用统一无编码器架构,图像与音频直连 LLM,可在 16GB 设备本地运行;性能接近 26B MOE 且内存不足其半,配套 Hermes 等 Agent 工具与 macOS Edge Gallery,采用 Apache 2.0 开源许可。

入选理由:图像与音频直接映射到 LLM,移除编码器以降延迟与内存。

精选视频#Gemma#412B#多模态#本地部署#Hermes英文
推出 Gemma 4 12B:面向本机的统一、无编码器多模态模型

推出 Gemma 4 12B:面向本机的统一、无编码器多模态模型

The Keyword (blog.google)693 字 (约 3 分钟)
87

Gemma 4 12B 是面向本机运行的统一、无编码器多模态模型,将视觉与音频直接接入 LLM,性能接近 26B MoE 但内存仅其一半,可在 16GB VRAM 紧凑设备上运行,支持离线语音处理与低延迟多步推理。

入选理由:Gemma 4 12B 性能接近 26B MoE,内存仅其一半,适合在 16GB VRAM 现代本机运行。

精选文章#Gemma 4#12B#多模态#统一架构#无编码器英文

相关主题

跨材料问答 · 多模态模型、视觉语言模型与跨媒体理解

回答基于:多模态模型、视觉语言模型与跨媒体理解 主题下 9 条材料
    0 / 500

    AI 可能会生成不准确的信息,请核实重要内容