目錄
在AI 訓練和數據分析中,乾淨、高質量的文本數據至關重要。 Firecrawl 提供的NPX 包generate-llmstxt允許用戶直接從網站提取結構化文本,並生成適用於LLM 的llms.txt和llms-full.txt文件。本文將介紹其安裝、使用方法及優化技巧,助您高效提取LLM 訓練數據。
generate-llmstxt是一個NPX 包,利用Firecrawl API將網頁轉換為結構化文本文件,適用於LLM 訓練或數據分析。
輸出文件
llms.txt :提取網頁關鍵信息,形成摘要文本
llms-full.txt :完整抓取網頁文本,適用於更深入的AI 訓練
默認存儲位置
public/llms.txt
public/llms-full.txt
方式1 直接使用命令行提供API Key
npx generate-llmstxt --api-key YOUR_FIRECRAWL_API_KEY
方式2 使用.env文件存儲API Key
在項目根目錄創建.env文件,並添加以下內容
FIRECRAWL_API_KEY=your_api_key_here
然後運行
npx generate-llmstxt
參數 | 作用 | 預設值 |
---|---|---|
-k, --api-key <key> | Firecrawl API Key(如使用.env可省略) | 必填 |
-u, --url <url> | 要抓取的目標網站URL | https://example.com |
-m, --max-urls <number> | 最大抓取頁面數量(1-100) | 50 |
-o, --output-dir <path> | 指定輸出目錄 | public |
直接運行(使用默認輸出目錄public/)
npx generate-llmstxt -k your_api_key -u https://your-website.com -m 20
結.env文件(無需--api-key)
npx generate-llmstxt -u https://your-website.com -m 20
指定自定義輸出目錄
npx generate-llmstxt -k your_api_key -u https://your-website.com -o custom/output/path
使用.env文件+ 自定義輸出目錄
npx generate-llmstxt -u https://your-website.com -o content/llms
llms.txt 示例(摘要版)
# LLMs.txt - AI 訓練摘要數據- 網站名稱:Your Website - 主題:人工智能數據處理- 關鍵點: 1. 提供數據抓取 API 2. 適用於 LLM 訓練 3. 支持文本分析
llms-full.txt 示例(完整版)
# LLMs-Full.txt - 全文數據## 網站標題:Your Website - AI 數據提取網站提供了一種自動化方式,可將網頁內容轉換為 LLM 訓練數據。其 API 允許用戶抓取文本,並生成結構化的摘要和全文數據...
需要Node.js 14+
必須提供有效的Firecrawl API Key (命令行或.env文件)
使用generate-llmstxt,你可以輕鬆抓取網頁內容,並生成適用於LLM 訓練的結構化文本數據。無論是摘要(llms.txt)還是完整文本(llms-full.txt),都能滿足不同的AI 需求。
立即嘗試npx generate-llmstxt,提升AI 訓練效率!