T
traeai
登录
返回首页
InfoQ

Pinterest Uses Content Fingerprints for URL Deduplication Across Millions of Domains

6.9Score
Pinterest Uses Content Fingerprints for URL Deduplication Across Millions of Domains

TL;DR · AI 摘要

Pinterest Uses Content Fingerprints for URL Deduplication Across Millions of Domains - InfoQ InfoQ Homepage News Pintere...

核心要点

  • 主题聚焦:Pinterest Uses Content Fingerprints for URL Dedu
  • 来源:InfoQ,建议结合原文判断细节。
  • AI 分析暂不可用,本条为保底评分与摘要。
#AI#编程#安全#产品
打开原文

Pinterest 使用内容指纹实现数百万域名下的 URL 去重 - InfoQ

InfoQ 首页 News Pinterest 使用内容指纹实现数百万域名下的 URL 去重

架构与设计

在线 InfoQ 架构师认证(6月10日):改变你思维方式的同行对话。

Pinterest 使用内容指纹实现数百万域名下的 URL 去重

6月8日,2026年 2分钟阅读

作者:

  • Leela Kumili

#### 为 InfoQ 撰写文章

激发你的好奇心。

帮助全球 55 万名高级开发人员每月保持领先。

联系我们

收听这篇文章 -

0:00

音频准备就绪

你的浏览器不支持音频元素。

正常

1.25x

1.5x

喜欢

新下拉阅读列表

  • 阅读列表

Pinterest 的工程师开发了一个名为“最小重要查询参数集”(MIQPS)的 URL 规范化系统,以改进其大规模数据摄入管道中的内容去重。该系统用于确定哪些 URL 查询参数影响页面身份并应保留,哪些参数被认为是不重要的,可以安全地移除。目标是在保持摄入数据准确性的同时,减少数百万个域名中的重复内容处理。

该系统用于 Pinterest 的内容摄入基础设施,该基础设施处理来自各种商家和出版商网站的 URL。这些 URL 中的许多都指向相同的底层页面,但由于跟踪参数、活动标识符、会话令牌和其他查询字符串变化而有所不同。尽管下游系统最终可以检测到重复项,但每个 URL 变体仍会产生单独的获取、渲染和索引成本,从而在大规模情况下增加基础设施的开销。

具有不同查询参数的多个 URL 都指向相同的底层产品(来源:Pinterest 博客文章)

Pinterest 的软件工程师 Shanhai Liao 在 LinkedIn 帖子中强调了这个问题的规模。

这种问题在小规模下看似微不足道,但当你在 Pinterest 的规模下处理数百万个商家域名时,这些域名的 URL 规范差异极大。静态白名单适用于顶级平台。对于长尾部分,我们需要更智能的解决方案。

为了解决这个问题,MIQPS 取代了依赖于手动维护的白名单、黑名单或特定于域名的启发式方法的传统基于规则的 URL 规范化方法。这些方法难以扩展到具有不一致 URL 结构的异构域名长尾部分。相反,MIQPS 使用一种数据驱动的方法,评估移除查询参数是否会改变页面的渲染内容。如果内容变化超过定义的阈值,该参数将被归类为重要并保留;否则,它将被视为噪声并在规范化过程中被移除。

该系统首先通过从 Pinterest 的摄入管道中收集大量 URL 并根据查询参数模式进行分组来运行。然后,它渲染页面并生成内容指纹,以比较移除单个参数的影响。这使得系统可以根据观察到的内容行为推断参数的重要性,而不是依赖于预定义的规则或元数据,如规范标签。Pinterest 指出,规范标签通常缺失、不一致或被跟踪参数污染,因此对于大规模去重来说不可靠。

端到端系统架构(来源:Pinterest 博客文章)

MIQPS 使用一组少量的可调节参数,这些参数控制不匹配阈值和最小样本大小。为了提高效率,它采用了一种提前退出的逻辑,一旦在有限的测试后不匹配率超过阈值,就会停止评估,从而避免不必要的页面渲染。它还使用了一种保守的默认设置,当数据不足时,将参数视为非中性。输出是一个参数重要性图,存储在配置服务中,并在运行时与静态规则一起应用。MIQPS 通过异常检测进行保护,当重要参数被降级时,会拒绝更新,同时安全地允许将参数添加到非中性集合中。

架构将离线分析与运行时处理分开。昂贵的内容渲染和参数评估在离线时进行,而运行时系统在处理 URL 时应用预计算的规则。Pinterest 表示,URL 结构往往演变缓慢,使得离线计算在大规模数据摄入系统中,成为新鲜度、成本和操作复杂性之间的一种实际权衡。

作者部分的主要包装器

关于作者

部分标题

每个作者的主要包装器

#### Leela Kumili

显示更多

显示更少

#### 此内容属于“以离线优先”主题

##### 相关主题:

  • 开发
  • 架构与设计
  • 查询
  • 分布式系统
  • 扩展性
  • 平台工程
  • 离线优先
  • 低延迟
  • 算法
  • 模式
  • 相关编辑内容
  • 相关赞助商
  • 相关赞助商 2026 年 6 月 25 日,东部时间下午 1 点 自主可靠性架构:将 AI 嵌入您的可观测性堆栈 演讲者:Justin Griffin - NeuBird AI 产品负责人

InfoQ 新闻通讯

每周内容回顾,每星期二发送。加入超过 25 万名高级开发者的社区。查看示例

我们保护您的隐私。

AI 可能会生成不准确的信息,请核实重要内容

Pinterest Uses Content Fingerprints for URL Deduplication Across Millions of Domains | InfoQ | traeai