Firecrawl 產品資訊
Firecrawl 是什麼 ?
爬取、捕獲、清理。我們爬取所有可訪問的子頁面,為您提供每個清潔的markdown。不需要网站地图。
Firecrawl 的核心功能
爬取並轉換任何網站為乾淨的markdown或結構化數據。
爬取所有可访问的子页面,并为您提供每个页面干净的Markdown格式。
即使網站使用JavaScript渲染內容,也要收集數據。
回傳清潔、格式良好的markdown。
協調爬取過程,並以平行方式進行,以獲得最快的結果。
緩存內容,因此除非有新內容存在,否則您不必等待完整抓取。
Firecrawl 的使用案例
#1
訓練機器學習模型
#2
市場調查
#3
內容聚合
Firecrawl的價格
免費方案 500個信用點 $0 /月 刮取 500頁面 每次刮取費 5 美元 每分鐘可執行 1 個並行爬蟲作業
嗜好 3,000個信用點 $19 /月 刮取 3,000頁面 每次刮取費 10 分鐘 3 個同時進行的爬蟲工作*
標準 最受歡迎 100,000個信用點 $99 /月 刮取 1,000,000頁面 每分鐘刮取 50次 並行爬蟲作業 10個*
成長 500 萬個信用點 $399 / 個月 刮取 500 萬頁 500 元 / 每分鐘刮取 50 個同時進行的爬蟲工作* 高優先級支持
企業方案:無限積分。自訂RPM。與我們聯繫。優先支持特點加速SLA專案經理自定義速率限制及量度自定義並行限制測試功能訪問CEO的電話號碼
來自 Firecrawl 的常見問題
Firecrawl是什麼?
- 火爬虫將整個網站轉換為清潔的、適用於大語言模型(LLM)的markdown或結構化數據。使用單一API抓取、爬行和提取網頁。對於希望借助網絡數據強大其LLM應用的AI公司來說,非常理想。
如何試用Firecrawl?
- 您可以從 Firecrawl 開始,試用我們的免費試用版,包括 100 個頁面。這個試用讓您親身體驗 Firecrawl 如何簡化您的數據收集和轉換流程。 立即登記,開始將網頁內容轉換為 LLM 數據準備今天就做吧!
誰能從使用 Firecrawl 中受益?
- Firecrawl 是專為大模型工程師、數據科學家、AI 研究人員和希望利用網絡數據訓練機器學習模型、市場研究、內容聚合等專業人士設計的。它簡化了數據準備過程,讓專業人士能夠專注於洞察力和模型開發。
Firecrawl是开源的嗎?
- 是的,就是它。你可以在GitHub上查看仓库。请记住,这个仓库目前还处于开发初期阶段。我们正在将自定义模块合并到这个单体仓库中。
Firecrawl如何處理網站上的動態內容?
- 與傳統的網頁抓取工具不同,Firecrawl 配備了處理以 JavaScript 渲染的動態內容的能力。它確保從所有可訪問的子頁面中全面收集數據,使其成為可靠工具,能夠抓取那些高度依賴 JS 來傳遞內容的網站。
為什麼它無法爬取所有頁面?
- 火crawl無法爬取網站所有頁面的原因有幾個。常見的理由包括速率限制和反抓取機制,這些會阻止爬蟲訪問某些頁面。如果您在使用爬蟲時遇到問題,請聯繫我們的支援團隊,電郵地址為[email protected]。
Firecrawl能夠在沒有网站地图的情況下爬取網站嗎?
- 是的,Firecrawl 可以访问并爬取一个网站所有可访问的子页面,即使没有网站地图也能做到。这个功能让用户能够从各种网络来源中收集数据,而无需太多的设置。
Firecrawl可以將網頁數據轉換成哪些格式?
- 火爬蟲專注於將網頁數據轉換為乾淨、格式良好的markdown。這種格式特別適合LLM應用,提供了一種結構化但又靈活的方式來表示網頁內容。
Firecrawl是如何確保數據的清潔度的?
- Firecrawl 使用先進算法清理和結構化抓取的數據,移除不必要的元素並格式化內容為易讀的markdown。這個過程確保了數據已經準備好供LLM應用程序使用,無需進一步預處理。
Firecrawl適合大規模數據抓取專案嗎?
- 當然可以。Firecrawl 提供多種定价計劃,包括「Scale」計劃,支持數百萬頁面的抓取。它具有緩存和預定時同步等功能,旨在高效處理大規模數據抓取和持續更新,因此非常適合企業和大型項目使用。
它尊重robots.txt嗎?
- 是的,Firecrawl爬蟲尊重網站在robots.txt檔案中設定的規則。如果您注意到Firecrawl與您的網站互動時有任何問題,您可以調整robots.txt檔案以控制爬蟲的行为。Firecrawl用戶代理名稱為'FirecrawlAgent'。如果您發現任何不期望的行為,請透過[email protected]通知我們。
Firecrawl採取了哪些措施來應對如速率限制和緩存等網頁抓取的挑戰?
- Firecrawl 是為了應對常見的網頁抓取挑戰而設計的,包括反向代理、速率限制和緩存。它聰明地管理請求並採用緩存技術,以減少帶寬使用並避免觸發反反爬蟲機制,確保可靠的數據收集。
Firecrawl會處理 Captcha 或認證嗎?
- 火爬蟲目前不支援 Captcha 或認證,但這已列入開發計劃。若網站有使用 Captcha 或認證,火爬蟲將無法訪問該網站。
API金鑰會過期嗎?
- 火爬蟲API金鑰不會過期,除非被撤銷。
我可以用同一個API金鑰進行抓取、爬行和提取嗎?
- 是的,您可以使用 API 密钥进行抓取、爬行和提取。
Firecrawl是免費的嗎?
- 火爬虫在首次抓取的前300页是免费的(300个免费积分)。之后,您可以升级到我们的标准或规模计划,以获取更多积分。
是否有按使用次数计费的计划,而不是月付?
- 目前我們並未提供按次使用的計費方案。相反,您可以升級至我們的標準計劃或擴展計劃,以獲得更多的信用點。
每個方案我可獲得多少學分?
- 免費方案每月提供300個免費信用(可抓取300頁)。標準方案每月提供50,000個信用(可抓取50,000頁),而擴展方案每月則提供25,000,000個信用(可抓取250,000,000頁)。如果您認為需要更多信用,請聯繫我們。
抓取、爬行和提取所需多少信用?
- 刮取每頁的成本為1個信用點。爬取每頁的成本為1個信用點。提取每頁的成本為1個信用點。
你會對失敗的請求(如抓取、爬行、提取)收取費用嗎?
- 我們不會對任何失敗的請求(抓取、爬行、提取)收取費用。如果您有任何問題,請聯繫支援,電郵地址為[email protected]。
你们接受哪些支付方式?
- 我們接受透過Stripe付款,Stripe支援信用卡、借記卡以及PayPal。