# Granite 4.1 LLMs: How They’re Built

Canonical URL: https://www.traeai.com/articles/b0c58a17-fa40-4607-93c1-e5ef4a05549c
Original source: https://huggingface.co/blog/ibm-granite/granite-4-1
Source name: Hugging Face Blog
Content type: article
Language: 英文
Score: 9.0
Reading time: 13 分钟
Published: 2026-04-29T15:01:48+00:00
Tags: LLM, AI, 机器学习, 自然语言处理

## Summary

文章详细介绍了IBM Granite 4.1 LLMs的构建过程，包括数据工程、预训练、监督微调和强化学习等阶段。

## Key Takeaways

- Granite 4.1使用多阶段预训练管道，处理约15万亿个令牌。
- 8B模型在多个任务上超越了之前的32B MoE模型。
- 模型采用Grouped Query Attention和Rotary Position Embeddings等技术。

## Outline

- 引言 — 简要介绍Granite 4.1 LLMs的主要特点和性能。
- 概述 — 强调高质量数据的重要性，并描述了五个预训练阶段的数据混合策略。
- 模型架构 — 详细介绍Granite 4.1的解码器密集型变压器架构及其核心设计选择。
- 预训练 — 描述了五阶段预训练管道，每个阶段的数据组成和学习率计划。

## Highlights

- > Granite 4.1是基于约15万亿个令牌进行多阶段预训练的。 — 第 2 段
- > 8B模型在多个任务上超越了之前的32B MoE模型。 — 第 2 段
- > 模型采用Grouped Query Attention和Rotary Position Embeddings等技术。 — 第 3 段

## Citation Guidance

When citing this item, prefer the canonical traeai article URL for the AI-readable summary and include the original source URL when discussing the underlying source material.