目錄
在大規模語言模型(LLM)訓練和數據分析過程中,乾淨、高質量的文本數據至關重要。 Firecrawl 提供的LLMs.txt 生成器API能夠從任何網站提取結構化文本,並生成適用於LLM 的llms.txt和llms-full.txt文件。本文將詳細介紹其工作原理、使用方法及關鍵參數,幫助您快速掌握該工具的高效使用方式。
Firecrawl 的/llmstxt端點可以抓取指定網站的內容,並生成適用於LLM 訓練和分析的文本數據。該API 提供兩種文本輸出格式:
llms.txt :包含網站的關鍵信息和摘要。
llms-full.txt :完整的網頁文本內容,適用於更深入的AI 訓練。
1️⃣ 抓取目標網站及其鏈接的頁面
2️⃣ 提取網站的核心文本內容,去除HTML 代碼和無用信息
3️⃣ 生成兩種格式的文本文件(簡要版與完整版)
4️⃣ 通過API 返回數據,供LLM 訓練或分析使用
Python 代碼示例
from firecrawl import FirecrawlApp
# 初始化 API 客戶端firecrawl = FirecrawlApp(api_key="your_api_key")
# 定義生成參數params = {
"maxUrls": 2, # 抓取的最大 URL 數量 "showFullText": True # 是否包含完整文本}
# 生成 LLMs.txt
results = firecrawl.generate_llms_text(
url="https://example.com",
params=params
)
# 處理返回數據if results['success']:
print(f"Status: {results['status']}")
print(f"Generated Data: {results['data']}")
else:
print(f"Error: {results.get('error', 'Unknown error')}")url :需要提取文本的網站URL
maxUrls (可選):抓取的最大頁面數,範圍1-100(默認值10)
showFullText (可選):是否生成llms-full.txt (默認值False)
LLMs.txt 的生成是異步執行的,可以通過API 輪詢狀態。
使用cURL 進行狀態檢查
curl "https://api.firecrawl.dev/v1/llmstxt/job_id" -H "Authorization: Bearer your_api_key"
示例返回結果:
處理中(processing)
{
"success": true,
"data": {
"llmstxt": "# Firecrawl.dev llms.txtnn- [Web Data Extraction Tool](https://www.firecrawl.dev/)...",
"llmsfulltxt": "# Firecrawl.dev llms-full.txtnn"
},
"status": "processing",
"expiresAt": "2025-03-03T23:19:18.000Z"
}完成(completed)
{
"success": true,
"data": {
"llmstxt": "# http://firecrawl.dev llms.txtnn- [Web Data Extraction Tool](https://www.firecrawl.dev/)...",
"llmsfulltxt": "# http://firecrawl.dev llms-full.txtnn## Web Data Extraction Tool..."
},
"status": "completed",
"expiresAt": "2025-03-03T22:45:50.000Z"
}僅支持公開網頁,無法抓取登錄受限或付費牆後的內容。
最大URL 抓取數量為5000(Alpha 版限制)。
輸出格式可能會調整,請關注Firecrawl 官方更新。
每抓取1 個URL 計1 個信用點
通過maxUrls 控製成本,例如maxUrls=10 則消耗10 個信用點
Firecrawl 的LLMs.txt 生成API是AI 訓練與數據分析的理想工具,能夠快速抓取網頁並生成清晰、結構化的文本數據。無論是簡要摘要(llms.txt),還是完整文本(llms-full.txt),都能滿足不同的LLM 需求。
如果您正在尋找自動化、高效的數據抓取方案,不妨試試Firecrawl API ,讓您的LLM 訓練更高效、更精準!