Hugging Face视频2026年6月2日

如何创建LLM数据集 | FineWeb概述

8.5Score

可直接观看的视频资源打开原视频

TL;DR · AI 摘要

Hugging Face的FineWeb数据集提供开源框架，通过Common Crawl清洗生成15万亿token训练集，显著提升LLM性能。

核心要点

FineWeb基于96个Common Crawl快照，清洗后生成15万亿token数据集。
FineWeb-Edu仅1.3万亿token，但通过开源模型提取教育内容，性能优于FineWeb。
关键清洗步骤包括去除代码、垃圾和非英语内容，确保数据质量。

结构提纲

按章节快速跳转。

§引言
FineWeb填补LLM训练数据集创建空白，提供开源框架。
·数据来源
使用96个自2013年发布的Common Crawl快照，包含数百TB原始HTML数据。
›清洗步骤
应用WARC文件处理，去除代码、垃圾和非英语内容，确保数据质量。
·FineWeb-Edu
使用开源模型提取教育内容，生成1.3万亿token数据集，性能更优。
§结论
工程师可参考此流程创建高质量LLM训练数据集。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

FineWeb数据集创建
- 数据来源
  - Common Crawl快照
- 清洗步骤
  - 去除噪声
- FineWeb-Edu
  - 教育数据集

金句 / Highlights

值得收藏与分享的关键句。

FineWeb数据集包含15万亿token，源自Common Crawl，清洗后用于训练高质量LLM。
— 第2段
⬇︎ 下载 PNG 𝕏 分享到 X
FineWeb-Edu仅1.3万亿token，但通过开源模型提取教育内容，性能优于15万亿token版本。
⬇︎ 下载 PNG 𝕏 分享到 X
关键清洗步骤包括去除代码、垃圾和非英语内容，确保数据质量。
⬇︎ 下载 PNG 𝕏 分享到 X

#LLM#数据集#Hugging Face#Common Crawl