Accelerating researchers and developers building multilingual AI with a new open dataset

The GitHub Blog

The GitHub Blog2026年6月15日

Accelerating researchers and developers building multilingual AI with a new open dataset

8.5Score

TL;DR · AI 摘要

GitHub 发布了一个新的开源数据集，用于加速多语言 AI 的研究和开发，包含超过 4000 万仓库的元数据。

核心要点

GitHub Multilingual Repositories Dataset 包含超过 4000 万仓库的元数据，覆盖 8000 万条分类数据。
数据集提供 README、Issue 和 Pull Request 的语言分类，使用 fastText、gcld3 和 lingua-py 三种工具进行分类。
数据集支持多语言 AI 研究，尤其对低资源语言的分类提供了灵活性。

结构提纲

按章节快速跳转。

§引言
GitHub 发布了一个新的开源数据集，用于加速多语言 AI 的研究和开发。
·数据集概述
GitHub Multilingual Repositories Dataset 是一个基于仓库元数据的分类数据集，用于发现包含非英语内容的仓库。
·数据集内容
数据集包含超过 8000 万条分类数据，涵盖 README、Issue 和 Pull Request 的语言分类。
›分类工具
数据集使用 fastText、gcld3 和 lingua-py 三种工具进行分类，每种工具都有置信度评分。
·数据集用途
该数据集可用于多语言 AI 研究，支持高精度和广覆盖的分类需求。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

GitHub Multilingual Repositories Dataset
- 数据集概述
  - 用于多语言 AI 研究
- 数据集内容
  - 覆盖 4000 万仓库
  - 8000 万条分类数据
- 分类工具
  - fastText
  - gcld3
  - lingua-py

金句 / Highlights

值得收藏与分享的关键句。

GitHub Multilingual Repositories Dataset 包含超过 4000 万仓库的元数据，覆盖 8000 万条分类数据。
— 第 2 段
⬇︎ 下载 PNG 𝕏 分享到 X
数据集使用 fastText、gcld3 和 lingua-py 三种工具进行分类，每种工具都有置信度评分。
— 第 3 段
⬇︎ 下载 PNG 𝕏 分享到 X
数据集支持多语言 AI 研究，尤其对低资源语言的分类提供了灵活性。
— 第 4 段
⬇︎ 下载 PNG 𝕏 分享到 X

#GitHub#AI#多语言#数据集#开源

打开原文

标题：通过新的开放数据集加速研究人员和开发者构建多语言AI

URL来源：https://github.blog/ai-and-ml/llms/accelerating-researchers-and-developers-building-multilingual-ai-with-a-new-open-dataset/

发布时间：2026-06-15T12:17:30-07:00

Markdown内容：软件可能用编程语言编写，但人类语言是开发者协作的核心。开发者在README中解释项目如何运作，他们在问题中请求帮助，他们在拉取请求中审查、讨论并改进代码。这种协作通常发生在英语中，但并非总是如此。随着AI在开发者构建软件过程中的作用日益重要，多语言开发者内容变得比以往任何时候都更加重要。

今天，GitHub发布了GitHub多语言仓库数据集，这是一个仓库级别的元数据集，旨在帮助研究人员和开发者发现包含非英语自然语言内容的公共GitHub仓库。在构建该数据集时，我们发现README、问题和拉取请求中的语言分布有所不同：韩语是问题文本中最常见的非英语语言，但在README中仅排在第五位。葡萄牙语在非英语README中位居榜首，拥有超过300万的仓库。

该数据集现已在GitHub上以CC0-1.0许可发布。它兑现了我们在2025年做出的承诺，作为微软欧洲数字承诺的一部分，使多语言数据更加易于访问，包括对开源AI开发者的访问。

数据集包含的内容

GitHub多语言仓库数据集故意不是仓库内容的转储。相反，它是一个元数据集，帮助开发者和研究人员找到可能发生多语言协作的仓库。该数据集涵盖超过4000万仓库中的8000多万条分类记录。对于每个公开仓库，我们提供以下信息：

README、评论最多的议题和评论最多的拉取请求的语言分类，每条分类的前150个字符作为输入样本。我们排除了字符数少于20的文本。
每个文本来源的分类，分别来自fastText、gcld3和lingua-py，每个分类都有一个置信度评分。数据集只包括置信度大于0.5的分类。
仓库元数据：创建时间戳、磁盘使用情况、收藏数、分支数、主要编程语言、SPDX许可证、议题和拉取请求数量以及快照日期。

我们故意没有将三个分类器合并为一个标签。不同的分类器覆盖范围和置信度校准不同，尤其是对于资源较少的语言。通过公开所有三个分类器，您可以决定自己需要多严格。想要一个高精度的希腊子集？要求所有三个分类器在某个置信度阈值以上达成一致。想要对罗曼语系语言进行探索性研究时的广泛召回？一个分类器可能就足够了。

您可以使用它构建什么

该数据集是为那些难以使用一般网页文本进行的工作而设计的：

发现可能包含特定语言中开发者文档或协作内容的仓库。
研究非英语开发者社区如何使用问题、拉取请求和 README 文件。
构建用于 AI 编程工具、文档生成器或代码审查助手的评估数据集，这些工具需要在多种语言中表现良好。
鼓励决策者通过数据支持的论据，扩大新开发者工具和 AI 功能的语言覆盖范围，以反映开发者丰富的多语言多样性。
衡量开源中欧洲及其他代表性不足语言的代表性。

一些注意事项

语言识别在软件仓库中尤其具有挑战性。仓库中的文本通常较短，可能包含徽章、模板、安装命令、代码片段、用户名或混合语言内容。一个 150 字符的样本可能无法代表整个仓库。分类器在覆盖范围和校准方面也存在差异，尤其是在低资源语言中。

因此，该数据集不应被视为语言识别的基准数据。相反，它被设计为一个透明的发现工具。用户可以检查分类、置信度评分和来源，然后根据自己的研究或开发流程选择适合的精确度和召回率权衡。

该数据集也不应用于推断仓库所有者、贡献者或社区的敏感属性。这些信号是仓库级别的元数据，而不是个人级别的属性。

为什么开放的多语言数据很重要

如今，许多欧洲语言在用于构建和评估 AI 系统的在线文本中仍代表性不足。这会带来一种风险，即 AI 工具对某些开发者、语言和社区表现良好，而忽略了其他群体。开放数据可以帮助弥合这一差距。我们创建这个数据集的原因是，开发者内容与一般网络文本不同。README 文件、问题和拉取请求包含了软件协作的语言：安装说明、错误报告、功能请求、审查评论和社区规范。这种上下文可以帮助构建更深入了解开发者实际工作方式的 AI 系统。

通过使多语言开发者内容信号更容易被发现和分析，该数据集为研究人员、开源开发者和模型构建者提供了另一个工具，用于研究软件开发中的语言代表性。它可以帮助识别差距，支持更好的评估，并为欧洲及更广泛地区的开发者提供更具包容性的 AI 工具。它还反映了更广泛的原则：为开发者构建 AI 应该包括开发者实际使用的社区、语言和工作流程。

接下来会发生什么

我们将在 6 月 16 日于斯特拉斯堡举行的 Open Innovation Dialogue Hub 上讨论该数据集以及开放数据对多语言 AI 的更广泛重要性。该活动由微软开放创新中心、欧洲委员会和 GitHub 共同组织，将汇聚政策制定者、研究人员、文化机构和开放创新领导者，讨论 AI、语言多样性、文化遗产和开放数据。

多语言 AI 需要多语言的开发者社区。我们希望这个数据集可以帮助更多人研究、支持并为这些社区构建工具。通过在 GitHub 上以 CC0-1.0 协议发布它，我们邀请研究人员、开源维护者和模型构建者使用它、批评它、扩展它，并在其基础上构建评估集和工具。

如果你用它做了什么有趣的事情，我们非常想听听你的故事。