Hugging Face视频
如何创建LLM数据集 | FineWeb概述
8.5Score
可直接观看的视频资源打开原视频
TL;DR · AI 摘要
Hugging Face的FineWeb数据集提供开源框架,通过Common Crawl清洗生成15万亿token训练集,显著提升LLM性能。
核心要点
- FineWeb基于96个Common Crawl快照,清洗后生成15万亿token数据集。
- FineWeb-Edu仅1.3万亿token,但通过开源模型提取教育内容,性能优于FineWeb。
- 关键清洗步骤包括去除代码、垃圾和非英语内容,确保数据质量。
结构提纲
按章节快速跳转。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- FineWeb数据集创建
- 数据来源
- Common Crawl快照
- 清洗步骤
- 去除噪声
- FineWeb-Edu
- 教育数据集
金句 / Highlights
值得收藏与分享的关键句。
FineWeb数据集包含15万亿token,源自Common Crawl,清洗后用于训练高质量LLM。
FineWeb-Edu仅1.3万亿token,但通过开源模型提取教育内容,性能优于15万亿token版本。
关键清洗步骤包括去除代码、垃圾和非英语内容,确保数据质量。
#LLM#数据集#Hugging Face#Common Crawl