Firecrawl(@firecrawl_dev)
Firecrawl v2.10 正式上线
8.5Score

TL;DR · AI 摘要
Firecrawl v2.10 引入了本地文件解析、沙盒抓取模式、三种新抓取格式和四个新 SDK,同时修复了多个可靠性问题。
核心要点
- v2.10 支持上传至 50MB 的本地文件并返回 LLM 友好的 Markdown、JSON 或摘要
- Lockdown 模式实现零数据保留和零外部请求的抓取
- 新增三种抓取格式:question、highlights 和 video
结构提纲
按章节快速跳转。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- Firecrawl v2.10 发布
- 核心功能
- 本地文件解析
- 沙盒抓取模式
- 新抓取格式
- 可靠性改进
- 数据保留与外部请求控制
- 代理计费与缓存失效修复
- SDK 支持
- 新增四种官方 SDK
- 多语言支持增强
金句 / Highlights
值得收藏与分享的关键句。
支持上传至 50MB 的本地文件并返回 LLM 友好的 Markdown、JSON 或摘要。
Lockdown 模式实现零数据保留和零外部请求的抓取。
新增三种抓取格式:question、highlights 和 video,提升数据提取灵活性。
#Firecrawl#SDK#爬虫
打开原文文章

Firecrawl v2.10 正式上线
v2.10 带来了本地文件解析、完全沙箱化的抓取模式、三种新的抓取格式、四个新的 SDK,以及一系列可靠性修复。
- /parse 端点 — 上传本地文件(PDF、DOCX、DOC、ODT、RTF、XLSX、XLS、HTML)最多 50 MB,并返回干净的、适合 LLM 的 Markdown、JSON 或摘要。表格和阅读顺序得以保留,企业计划支持全零数据保留。适用于所有 SDK
- 锁定模式 — 在 /scrape 设置 lockdown: true,仅从 Firecrawl 的索引中提供结果,不发出任何外部请求,默认情况下也不保留数据。适用于所有 SDK、CLI 和 MCP
- /scrape 的 question 格式 — 传递一个自然语言提示,返回基于数据的 answer,在 data.question 中
- highlights 格式 — 返回页面上与查询匹配的精确句子、代码块和表格行,重新组织成段落、带边框的代码和 Markdown 表格
- video 格式 — 从支持的网站(例如 YouTube)请求带有签名下载链接的视频 URL,支持通过 cookie 下载已认证的内容
- /search 域过滤 — includeDomains 和 excludeDomains 用于限定结果到特定网站
- /search 反馈端点 — 评价搜索结果,每接受一次提交可获得 1 个信用额度
- 自定义 robots.txt 用户代理 — 在爬虫中根据自定义代理字符串评估 robots.txt 规则
- PDF 上传大小从 10 MB 提高到 30 MB
- PDF 计费现在反映处理的页面数,而不是原始页面数
- Go、Ruby、PHP、.NET SDK — 官方、完整的 v2 API 支持
- Rust SDK 升级为官方 v2,与 scrape、search、crawl、map、agent 和 parse 的功能一致
- Elixir SDK 添加了 parse_file/3
- JS SDK 中添加了显式请求超时选项
- Lockdown 请求在 ZDR 上被计费两次
- 代理计费错误地对缓存抓取计费代理信用额度
- 截图签名 URL 在过期后返回过时的缓存结果
- Playwright 服务忽略调用者的 User-Agent 头部
- YouTube 字幕脚本在仅音频抓取中运行
- marked.parse 在某些 PDF 输出上出现堆栈溢出
- robotsUserAgent 不被原生链接过滤器认可
- /v1 状态端点在非 UUID 作业 ID 上返回 500 错误
- JS SDK 监听器发出重复事件并在超时上挂起
- Java SDK 接受空的 API 密钥
- Python、Java 和 Go SDK 中缺少负限制验证
- 多个 CVE 包括 axios、postcss、fast-xml-parser、protobufjs、follow-redirects 等其他
- 爬虫积压超时限制为 48 小时(之前无限制)
- POST /v2/parse 支持最多 50 MB 的多部分文件上传
- /scrape 上的 lockdown: 布尔值 — 缓存未命中返回 404 与 SCRAPE_LOCKDOWN_CACHE_MISS
- question、highlights 和 video 添加到 /scrape 格式中
- /v2/search 上的 includeDomains 和 excludeDomains 数组
- POST /v2/search/:jobId/feedback 用于评分结果(每提交一次返还 1 个信用额度,每日上限)
- /v2/crawl 上的 robotsUserAgent 有单独的 customRobotsAgent 组标志
- ignoreRobots 组标志从布尔值迁移到 disabled / allowed / forced — 旧的布尔值形状已移除
- 多个端点已弃用:/v0/*、/v1/extract、/v2/extract、/v1/deep-research、/v1/llmstxt — 所有现在返回符合 RFC 的弃用、警告、链接和夕阳头信息,响应体中包含替换字段
阅读完整变更日志