Accelerating researchers and developers building multilingual AI with a new open dataset
TL;DR · AI 摘要
GitHub 发布了一个新的开源数据集,用于加速多语言 AI 的研究和开发,包含超过 4000 万仓库的元数据。
核心要点
- GitHub Multilingual Repositories Dataset 包含超过 4000 万仓库的元数据,覆盖 8000 万条分类数据。
- 数据集提供 README、Issue 和 Pull Request 的语言分类,使用 fastText、gcld3 和 lingua-py 三种工具进行分类。
- 数据集支持多语言 AI 研究,尤其对低资源语言的分类提供了灵活性。
结构提纲
按章节快速跳转。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- GitHub Multilingual Repositories Dataset
- 数据集概述
- 用于多语言 AI 研究
- 数据集内容
- 覆盖 4000 万仓库
- 8000 万条分类数据
- 分类工具
- fastText
- gcld3
- lingua-py
金句 / Highlights
值得收藏与分享的关键句。
GitHub Multilingual Repositories Dataset 包含超过 4000 万仓库的元数据,覆盖 8000 万条分类数据。
数据集使用 fastText、gcld3 和 lingua-py 三种工具进行分类,每种工具都有置信度评分。
数据集支持多语言 AI 研究,尤其对低资源语言的分类提供了灵活性。
标题:通过新的开放数据集加速研究人员和开发者构建多语言AI
URL来源:https://github.blog/ai-and-ml/llms/accelerating-researchers-and-developers-building-multilingual-ai-with-a-new-open-dataset/
发布时间:2026-06-15T12:17:30-07:00
Markdown内容: 软件可能用编程语言编写,但人类语言是开发者协作的核心。开发者在README中解释项目如何运作,他们在问题中请求帮助,他们在拉取请求中审查、讨论并改进代码。这种协作通常发生在英语中,但并非总是如此。随着AI在开发者构建软件过程中的作用日益重要,多语言开发者内容变得比以往任何时候都更加重要。
今天,GitHub发布了GitHub多语言仓库数据集,这是一个仓库级别的元数据集,旨在帮助研究人员和开发者发现包含非英语自然语言内容的公共GitHub仓库。在构建该数据集时,我们发现README、问题和拉取请求中的语言分布有所不同:韩语是问题文本中最常见的非英语语言,但在README中仅排在第五位。葡萄牙语在非英语README中位居榜首,拥有超过300万的仓库。
该数据集现已在GitHub上以CC0-1.0许可发布。它兑现了我们在2025年做出的承诺,作为微软欧洲数字承诺的一部分,使多语言数据更加易于访问,包括对开源AI开发者的访问。
数据集包含的内容
GitHub多语言仓库数据集故意不是仓库内容的转储。相反,它是一个元数据集,帮助开发者和研究人员找到可能发生多语言协作的仓库。该数据集涵盖超过4000万仓库中的8000多万条分类记录。对于每个公开仓库,我们提供以下信息:
- README、评论最多的议题和评论最多的拉取请求的语言分类,每条分类的前150个字符作为输入样本。我们排除了字符数少于20的文本。
- 每个文本来源的分类,分别来自fastText、gcld3和lingua-py,每个分类都有一个置信度评分。数据集只包括置信度大于0.5的分类。
- 仓库元数据:创建时间戳、磁盘使用情况、收藏数、分支数、主要编程语言、SPDX许可证、议题和拉取请求数量以及快照日期。
我们故意没有将三个分类器合并为一个标签。不同的分类器覆盖范围和置信度校准不同,尤其是对于资源较少的语言。通过公开所有三个分类器,您可以决定自己需要多严格。想要一个高精度的希腊子集?要求所有三个分类器在某个置信度阈值以上达成一致。想要对罗曼语系语言进行探索性研究时的广泛召回?一个分类器可能就足够了。
您可以使用它构建什么
该数据集是为那些难以使用一般网页文本进行的工作而设计的:
- 发现可能包含特定语言中开发者文档或协作内容的仓库。
- 研究非英语开发者社区如何使用问题、拉取请求和 README 文件。
- 构建用于 AI 编程工具、文档生成器或代码审查助手的评估数据集,这些工具需要在多种语言中表现良好。
- 鼓励决策者通过数据支持的论据,扩大新开发者工具和 AI 功能的语言覆盖范围,以反映开发者丰富的多语言多样性。
- 衡量开源中欧洲及其他代表性不足语言的代表性。
一些注意事项
语言识别在软件仓库中尤其具有挑战性。仓库中的文本通常较短,可能包含徽章、模板、安装命令、代码片段、用户名或混合语言内容。一个 150 字符的样本可能无法代表整个仓库。分类器在覆盖范围和校准方面也存在差异,尤其是在低资源语言中。
因此,该数据集不应被视为语言识别的基准数据。相反,它被设计为一个透明的发现工具。用户可以检查分类、置信度评分和来源,然后根据自己的研究或开发流程选择适合的精确度和召回率权衡。
该数据集也不应用于推断仓库所有者、贡献者或社区的敏感属性。这些信号是仓库级别的元数据,而不是个人级别的属性。
为什么开放的多语言数据很重要
如今,许多欧洲语言在用于构建和评估 AI 系统的在线文本中仍代表性不足。这会带来一种风险,即 AI 工具对某些开发者、语言和社区表现良好,而忽略了其他群体。开放数据可以帮助弥合这一差距。我们创建这个数据集的原因是,开发者内容与一般网络文本不同。README 文件、问题和拉取请求包含了软件协作的语言:安装说明、错误报告、功能请求、审查评论和社区规范。这种上下文可以帮助构建更深入了解开发者实际工作方式的 AI 系统。
通过使多语言开发者内容信号更容易被发现和分析,该数据集为研究人员、开源开发者和模型构建者提供了另一个工具,用于研究软件开发中的语言代表性。它可以帮助识别差距,支持更好的评估,并为欧洲及更广泛地区的开发者提供更具包容性的 AI 工具。它还反映了更广泛的原则:为开发者构建 AI 应该包括开发者实际使用的社区、语言和工作流程。
接下来会发生什么
我们将在 6 月 16 日于斯特拉斯堡举行的 Open Innovation Dialogue Hub 上讨论该数据集以及开放数据对多语言 AI 的更广泛重要性。该活动由微软开放创新中心、欧洲委员会和 GitHub 共同组织,将汇聚政策制定者、研究人员、文化机构和开放创新领导者,讨论 AI、语言多样性、文化遗产和开放数据。
多语言 AI 需要多语言的开发者社区。我们希望这个数据集可以帮助更多人研究、支持并为这些社区构建工具。通过在 GitHub 上以 CC0-1.0 协议发布它,我们邀请研究人员、开源维护者和模型构建者使用它、批评它、扩展它,并在其基础上构建评估集和工具。
如果你用它做了什么有趣的事情,我们非常想听听你的故事。
作者
CELA 的高级软件工程师
在 GitHub 上探索更多内容
文档
掌握 GitHub 所需的一切,尽在一处。
GitHub
在 GitHub 上构建未来,这里是来自世界各地的人们可以构建任何事物的地方。
客户案例
了解使用 GitHub 构建产品的公司和工程团队。
GitHub Universe 2026
10 月 28 日至 29 日,加入我们在旧金山或在线参加 GitHub Universe,我们的旗舰开发者活动,汇聚人们、代理和全球代码。