# Granite 4.1 LLMs: How They’re Built Canonical URL: https://www.traeai.com/articles/b0c58a17-fa40-4607-93c1-e5ef4a05549c Original source: https://huggingface.co/blog/ibm-granite/granite-4-1 Source name: Hugging Face Blog Content type: article Language: 英文 Score: 9.0 Reading time: 13 分钟 Published: 2026-04-29T15:01:48+00:00 Tags: LLM, AI, 机器学习, 自然语言处理 ## Summary 文章详细介绍了IBM Granite 4.1 LLMs的构建过程,包括数据工程、预训练、监督微调和强化学习等阶段。 ## Key Takeaways - Granite 4.1使用多阶段预训练管道,处理约15万亿个令牌。 - 8B模型在多个任务上超越了之前的32B MoE模型。 - 模型采用Grouped Query Attention和Rotary Position Embeddings等技术。 ## Outline - 引言 — 简要介绍Granite 4.1 LLMs的主要特点和性能。 - 概述 — 强调高质量数据的重要性,并描述了五个预训练阶段的数据混合策略。 - 模型架构 — 详细介绍Granite 4.1的解码器密集型变压器架构及其核心设计选择。 - 预训练 — 描述了五阶段预训练管道,每个阶段的数据组成和学习率计划。 ## Highlights - > Granite 4.1是基于约15万亿个令牌进行多阶段预训练的。 — 第 2 段 - > 8B模型在多个任务上超越了之前的32B MoE模型。 — 第 2 段 - > 模型采用Grouped Query Attention和Rotary Position Embeddings等技术。 — 第 3 段 ## Citation Guidance When citing this item, prefer the canonical traeai article URL for the AI-readable summary and include the original source URL when discussing the underlying source material.