T
traeai
登录
返回首页
The GitHub Blog

Accelerating researchers and developers building multilingual AI with a new open dataset

8.5Score
Accelerating researchers and developers building multilingual AI with a new open dataset

TL;DR · AI 摘要

GitHub 发布了一个新的开源数据集,用于加速多语言 AI 的研究和开发,包含超过 4000 万仓库的元数据。

核心要点

  • GitHub Multilingual Repositories Dataset 包含超过 4000 万仓库的元数据,覆盖 8000 万条分类数据。
  • 数据集提供 README、Issue 和 Pull Request 的语言分类,使用 fastText、gcld3 和 lingua-py 三种工具进行分类。
  • 数据集支持多语言 AI 研究,尤其对低资源语言的分类提供了灵活性。

结构提纲

按章节快速跳转。

  1. GitHub 发布了一个新的开源数据集,用于加速多语言 AI 的研究和开发。

  2. GitHub Multilingual Repositories Dataset 是一个基于仓库元数据的分类数据集,用于发现包含非英语内容的仓库。

  3. 数据集包含超过 8000 万条分类数据,涵盖 README、Issue 和 Pull Request 的语言分类。

  4. 数据集使用 fastTextgcld3lingua-py 三种工具进行分类,每种工具都有置信度评分。

  5. 该数据集可用于多语言 AI 研究,支持高精度和广覆盖的分类需求。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • GitHub Multilingual Repositories Dataset
    • 数据集概述
      • 用于多语言 AI 研究
    • 数据集内容
      • 覆盖 4000 万仓库
      • 8000 万条分类数据
    • 分类工具
      • fastText
      • gcld3
      • lingua-py

金句 / Highlights

值得收藏与分享的关键句。

  • GitHub Multilingual Repositories Dataset 包含超过 4000 万仓库的元数据,覆盖 8000 万条分类数据。

    第 2 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 数据集使用 fastText、gcld3 和 lingua-py 三种工具进行分类,每种工具都有置信度评分。

    第 3 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 数据集支持多语言 AI 研究,尤其对低资源语言的分类提供了灵活性。

    第 4 段

    ⬇︎ 下载 PNG𝕏 分享到 X
#GitHub#AI#多语言#数据集#开源
打开原文

标题:通过新的开放数据集加速研究人员和开发者构建多语言AI

URL来源:https://github.blog/ai-and-ml/llms/accelerating-researchers-and-developers-building-multilingual-ai-with-a-new-open-dataset/

发布时间:2026-06-15T12:17:30-07:00

Markdown内容: 软件可能用编程语言编写,但人类语言是开发者协作的核心。开发者在README中解释项目如何运作,他们在问题中请求帮助,他们在拉取请求中审查、讨论并改进代码。这种协作通常发生在英语中,但并非总是如此。随着AI在开发者构建软件过程中的作用日益重要,多语言开发者内容变得比以往任何时候都更加重要。

今天,GitHub发布了GitHub多语言仓库数据集,这是一个仓库级别的元数据集,旨在帮助研究人员和开发者发现包含非英语自然语言内容的公共GitHub仓库。在构建该数据集时,我们发现README、问题和拉取请求中的语言分布有所不同:韩语是问题文本中最常见的非英语语言,但在README中仅排在第五位。葡萄牙语在非英语README中位居榜首,拥有超过300万的仓库。

该数据集现已在GitHub上以CC0-1.0许可发布。它兑现了我们在2025年做出的承诺,作为微软欧洲数字承诺的一部分,使多语言数据更加易于访问,包括对开源AI开发者的访问。

数据集包含的内容

GitHub多语言仓库数据集故意不是仓库内容的转储。相反,它是一个元数据集,帮助开发者和研究人员找到可能发生多语言协作的仓库。该数据集涵盖超过4000万仓库中的8000多万条分类记录。对于每个公开仓库,我们提供以下信息:

  • README、评论最多的议题和评论最多的拉取请求的语言分类,每条分类的前150个字符作为输入样本。我们排除了字符数少于20的文本。
  • 每个文本来源的分类,分别来自fastTextgcld3lingua-py,每个分类都有一个置信度评分。数据集只包括置信度大于0.5的分类。
  • 仓库元数据:创建时间戳、磁盘使用情况、收藏数、分支数、主要编程语言、SPDX许可证、议题和拉取请求数量以及快照日期。

我们故意没有将三个分类器合并为一个标签。不同的分类器覆盖范围和置信度校准不同,尤其是对于资源较少的语言。通过公开所有三个分类器,您可以决定自己需要多严格。想要一个高精度的希腊子集?要求所有三个分类器在某个置信度阈值以上达成一致。想要对罗曼语系语言进行探索性研究时的广泛召回?一个分类器可能就足够了。

您可以使用它构建什么

该数据集是为那些难以使用一般网页文本进行的工作而设计的:

  • 发现可能包含特定语言中开发者文档或协作内容的仓库。
  • 研究非英语开发者社区如何使用问题、拉取请求和 README 文件。
  • 构建用于 AI 编程工具、文档生成器或代码审查助手的评估数据集,这些工具需要在多种语言中表现良好。
  • 鼓励决策者通过数据支持的论据,扩大新开发者工具和 AI 功能的语言覆盖范围,以反映开发者丰富的多语言多样性。
  • 衡量开源中欧洲及其他代表性不足语言的代表性。

一些注意事项

语言识别在软件仓库中尤其具有挑战性。仓库中的文本通常较短,可能包含徽章、模板、安装命令、代码片段、用户名或混合语言内容。一个 150 字符的样本可能无法代表整个仓库。分类器在覆盖范围和校准方面也存在差异,尤其是在低资源语言中。

因此,该数据集不应被视为语言识别的基准数据。相反,它被设计为一个透明的发现工具。用户可以检查分类、置信度评分和来源,然后根据自己的研究或开发流程选择适合的精确度和召回率权衡。

该数据集也不应用于推断仓库所有者、贡献者或社区的敏感属性。这些信号是仓库级别的元数据,而不是个人级别的属性。

为什么开放的多语言数据很重要

如今,许多欧洲语言在用于构建和评估 AI 系统的在线文本中仍代表性不足。这会带来一种风险,即 AI 工具对某些开发者、语言和社区表现良好,而忽略了其他群体。开放数据可以帮助弥合这一差距。我们创建这个数据集的原因是,开发者内容与一般网络文本不同。README 文件、问题和拉取请求包含了软件协作的语言:安装说明、错误报告、功能请求、审查评论和社区规范。这种上下文可以帮助构建更深入了解开发者实际工作方式的 AI 系统。

通过使多语言开发者内容信号更容易被发现和分析,该数据集为研究人员、开源开发者和模型构建者提供了另一个工具,用于研究软件开发中的语言代表性。它可以帮助识别差距,支持更好的评估,并为欧洲及更广泛地区的开发者提供更具包容性的 AI 工具。它还反映了更广泛的原则:为开发者构建 AI 应该包括开发者实际使用的社区、语言和工作流程。

接下来会发生什么

我们将在 6 月 16 日于斯特拉斯堡举行的 Open Innovation Dialogue Hub 上讨论该数据集以及开放数据对多语言 AI 的更广泛重要性。该活动由微软开放创新中心、欧洲委员会和 GitHub 共同组织,将汇聚政策制定者、研究人员、文化机构和开放创新领导者,讨论 AI、语言多样性、文化遗产和开放数据。

多语言 AI 需要多语言的开发者社区。我们希望这个数据集可以帮助更多人研究、支持并为这些社区构建工具。通过在 GitHub 上以 CC0-1.0 协议发布它,我们邀请研究人员、开源维护者和模型构建者使用它、批评它、扩展它,并在其基础上构建评估集和工具。

如果你用它做了什么有趣的事情,我们非常想听听你的故事

作者

图片 1:Kevin Xu

CELA 的高级软件工程师

在 GitHub 上探索更多内容

图片 2:文档

文档

掌握 GitHub 所需的一切,尽在一处。

前往文档

图片 3:GitHub

GitHub

在 GitHub 上构建未来,这里是来自世界各地的人们可以构建任何事物的地方。

立即开始构建

图片 4:客户案例

客户案例

了解使用 GitHub 构建产品的公司和工程团队。

了解更多

图片 5:GitHub Universe 2026

GitHub Universe 2026

10 月 28 日至 29 日,加入我们在旧金山或在线参加 GitHub Universe,我们的旗舰开发者活动,汇聚人们、代理和全球代码。

立即注册

AI 可能会生成不准确的信息,请核实重要内容

Accelerating researchers and developers building multilingual AI with a new open dataset | The GitHub Blog | traeai