中文(繁體)

目前位置: 首頁> AI 課程> AI 基礎入門

【2025】使用NPX 生成LLMs.txt 文件

作者: LoRA 時間: 2025年03月11日 1085

在AI 訓練和數據分析中,乾淨、高質量的文本數據至關重要。 Firecrawl 提供的NPX 包generate-llmstxt允許用戶直接從網站提取結構化文本,並生成適用於LLM 的llms.txtllms-full.txt文件。本文將介紹其安裝、使用方法及優化技巧,助您高效提取LLM 訓練數據。

什麼是generate-llmstxt?

generate-llmstxt是一個NPX 包,利用Firecrawl API將網頁轉換為結構化文本文件,適用於LLM 訓練或數據分析。

輸出文件

  • llms.txt :提取網頁關鍵信息,形成摘要文本

  • llms-full.txt :完整抓取網頁文本,適用於更深入的AI 訓練

默認存儲位置

  • public/llms.txt

  • public/llms-full.txt

如何使用generate-llmstxt 生成LLMs.txt?

方式1 直接使用命令行提供API Key

 npx generate-llmstxt --api-key YOUR_FIRECRAWL_API_KEY

方式2 使用.env文件存儲API Key

在項目根目錄創建.env文件,並添加以下內容

FIRECRAWL_API_KEY=your_api_key_here

然後運行

npx generate-llmstxt

常用選項解析

參數作用預設值
-k, --api-key <key> Firecrawl API Key(如使用.env可省略)必填
-u, --url <url>要抓取的目標網站URL https://example.com
-m, --max-urls <number>最大抓取頁面數量(1-100) 50
-o, --output-dir <path>指定輸出目錄public

示例用法

直接運行(使用默認輸出目錄public/)

 npx generate-llmstxt -k your_api_key -u https://your-website.com -m 20

結.env文件(無需--api-key)

 npx generate-llmstxt -u https://your-website.com -m 20

指定自定義輸出目錄

npx generate-llmstxt -k your_api_key -u https://your-website.com -o custom/output/path

使用.env文件+ 自定義輸出目錄

npx generate-llmstxt -u https://your-website.com -o content/llms

生成文件示例

llms.txt 示例(摘要版)

 # LLMs.txt - AI 訓練摘要數據- 網站名稱:Your Website
- 主題:人工智能數據處理- 關鍵點:
  1. 提供數據抓取 API
  2. 適用於 LLM 訓練  3. 支持文本分析

llms-full.txt 示例(完整版)

 # LLMs-Full.txt - 全文數據## 網站標題:Your Website - AI 數據提取網站提供了一種自動化方式,可將網頁內容轉換為 LLM 訓練數據。其 API 允許用戶抓取文本,並生成結構化的摘要和全文數據...

運行要求

需要Node.js 14+
必須提供有效的Firecrawl API Key (命令行或.env文件)

結論

使用generate-llmstxt,你可以輕鬆抓取網頁內容,並生成適用於LLM 訓練的結構化文本數據。無論是摘要(llms.txt)還是完整文本(llms-full.txt),都能滿足不同的AI 需求。

立即嘗試npx generate-llmstxt,提升AI 訓練效率!