T
traeai
登录
返回首页
Firecrawl(@firecrawl_dev)

Firecrawl v2.10 正式上线

8.5Score
Firecrawl v2.10 正式上线

TL;DR · AI 摘要

Firecrawl v2.10 引入了本地文件解析、沙盒抓取模式、三种新抓取格式和四个新 SDK,同时修复了多个可靠性问题。

核心要点

  • v2.10 支持上传至 50MB 的本地文件并返回 LLM 友好的 Markdown、JSON 或摘要
  • Lockdown 模式实现零数据保留和零外部请求的抓取
  • 新增三种抓取格式:question、highlights 和 video

结构提纲

按章节快速跳转。

  1. Firecrawl v2.10 正式上线,带来多项新功能和改进。

  2. 支持本地文件解析、沙盒抓取模式和多种新格式。

  3. 修复了多个关键问题,包括数据保留、代理计费和缓存失效等。

  4. 新增四种官方 SDK 并提升多个语言的支持。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • Firecrawl v2.10 发布
    • 核心功能
      • 本地文件解析
      • 沙盒抓取模式
      • 新抓取格式
    • 可靠性改进
      • 数据保留与外部请求控制
      • 代理计费与缓存失效修复
    • SDK 支持
      • 新增四种官方 SDK
      • 多语言支持增强

金句 / Highlights

值得收藏与分享的关键句。

#Firecrawl#SDK#爬虫
打开原文

文章

图片1:方形个人资料图
图片2:图片

Firecrawl v2.10 正式上线

v2.10 带来了本地文件解析、完全沙箱化的抓取模式、三种新的抓取格式、四个新的 SDK,以及一系列可靠性修复。

  • /parse 端点 — 上传本地文件(PDF、DOCX、DOC、ODT、RTF、XLSX、XLS、HTML)最多 50 MB,并返回干净的、适合 LLM 的 Markdown、JSON 或摘要。表格和阅读顺序得以保留,企业计划支持全零数据保留。适用于所有 SDK
  • 锁定模式 — 在 /scrape 设置 lockdown: true,仅从 Firecrawl 的索引中提供结果,不发出任何外部请求,默认情况下也不保留数据。适用于所有 SDK、CLI 和 MCP
  • /scrape 的 question 格式 — 传递一个自然语言提示,返回基于数据的 answer,在 data.question 中
  • highlights 格式 — 返回页面上与查询匹配的精确句子、代码块和表格行,重新组织成段落、带边框的代码和 Markdown 表格
  • video 格式 — 从支持的网站(例如 YouTube)请求带有签名下载链接的视频 URL,支持通过 cookie 下载已认证的内容
  • /search 域过滤 — includeDomains 和 excludeDomains 用于限定结果到特定网站
  • /search 反馈端点 — 评价搜索结果,每接受一次提交可获得 1 个信用额度
  • 自定义 robots.txt 用户代理 — 在爬虫中根据自定义代理字符串评估 robots.txt 规则
  • PDF 上传大小从 10 MB 提高到 30 MB
  • PDF 计费现在反映处理的页面数,而不是原始页面数
  • Go、Ruby、PHP、.NET SDK — 官方、完整的 v2 API 支持
  • Rust SDK 升级为官方 v2,与 scrape、search、crawl、map、agent 和 parse 的功能一致
  • Elixir SDK 添加了 parse_file/3
  • JS SDK 中添加了显式请求超时选项
  • Lockdown 请求在 ZDR 上被计费两次
  • 代理计费错误地对缓存抓取计费代理信用额度
  • 截图签名 URL 在过期后返回过时的缓存结果
  • Playwright 服务忽略调用者的 User-Agent 头部
  • YouTube 字幕脚本在仅音频抓取中运行
  • marked.parse 在某些 PDF 输出上出现堆栈溢出
  • robotsUserAgent 不被原生链接过滤器认可
  • /v1 状态端点在非 UUID 作业 ID 上返回 500 错误
  • JS SDK 监听器发出重复事件并在超时上挂起
  • Java SDK 接受空的 API 密钥
  • Python、Java 和 Go SDK 中缺少负限制验证
  • 多个 CVE 包括 axios、postcss、fast-xml-parser、protobufjs、follow-redirects 等其他
  • 爬虫积压超时限制为 48 小时(之前无限制)
  • POST /v2/parse 支持最多 50 MB 的多部分文件上传
  • /scrape 上的 lockdown: 布尔值 — 缓存未命中返回 404 与 SCRAPE_LOCKDOWN_CACHE_MISS
  • question、highlights 和 video 添加到 /scrape 格式中
  • /v2/search 上的 includeDomains 和 excludeDomains 数组
  • POST /v2/search/:jobId/feedback 用于评分结果(每提交一次返还 1 个信用额度,每日上限)
  • /v2/crawl 上的 robotsUserAgent 有单独的 customRobotsAgent 组标志
  • ignoreRobots 组标志从布尔值迁移到 disabled / allowed / forced — 旧的布尔值形状已移除
  • 多个端点已弃用:/v0/*、/v1/extract、/v2/extract、/v1/deep-research、/v1/llmstxt — 所有现在返回符合 RFC 的弃用、警告、链接和夕阳头信息,响应体中包含替换字段

阅读完整变更日志

AI 可能会生成不准确的信息,请核实重要内容

Firecrawl v2.10 正式上线 | Firecrawl(@firecrawl_dev) | traeai