跳轉到

RAG 使用案例

本頁列出 NextPDF RAG 管線的典型應用場景,每個使用案例包含業務背景、技術架構與實作要點。


使用案例一:企業內部知識庫

業務背景

企業積累了大量 PDF 形式的內部文件(操作手冊、規範流程、培訓教材),員工需要快速查詢特定資訊,但傳統的全文搜尋精度不足。

技術架構

員工提問(自然語言)
  → 向量化查詢
  → 語意搜尋知識庫
  → 提取最相關段落(帶頁碼引用)
  → LLM 整合上下文生成答案
  → 員工獲得精確答案 + 原始文件來源

實作要點

// 初始索引(一次性)
$pipeline->index(
    paths: glob('/knowledge-base/**/*.pdf'),
    namespace: 'company-internal',
    options: [
        'chunking_strategy' => 'semantic',
        'max_chunk_size' => 512,
        'include_tables' => true,
    ]
);

// 增量更新(文件修訂時)
$pipeline->upsert(
    path: '/knowledge-base/hr-policy-v4.pdf',
    namespace: 'company-internal',
    document_id: 'hr-policy',  // 覆蓋舊版
);

關鍵設定建議

  • 分塊策略semantic,保留段落完整性
  • 向量維度:1,536(nextpdf-embed-v1
  • 命名空間:以部門或主題分隔(hr/engineering/legal/
  • 更新頻率:文件發版時觸發增量更新

使用案例二:法規合規文件搜尋

業務背景

法律、金融、醫療等受嚴格監管的行業需要快速查詢相關法規條文,確保業務操作符合最新規範。

挑戰

  • 法規文件更新頻繁,必須確保搜尋結果反映最新版本
  • 需要精確引用條文編號(「第 X 條第 Y 項」)
  • 查詢需跨多個法規文件進行交叉比對

技術架構

法規文件 PDF(定期更新)
  → 增量索引(新版覆蓋舊版)
  → 帶結構路徑的語意分塊
  → 查詢時自動附加條文路徑引用

查詢範例:「GDPR 對個人資料保留期限有何規定?」
回應範例:「根據 GDPR 第 5 條第 1(e) 項...(來源:GDPR-2018.pdf,第 12 頁)」

實作要點

// 法規文件的特殊分塊設定
$pipeline->index(
    paths: ['/regulations/gdpr.pdf', '/regulations/ccpa.pdf'],
    namespace: 'compliance-docs',
    options: [
        'chunking_strategy' => 'paragraph',  // 以條文段落為分界
        'preserve_article_numbers' => true,   // 保留條文編號
        'include_cross_references' => true,   // 處理條文內的交叉引用
    ]
);

// 帶過濾器的查詢
$results = $pipeline->search(
    query: 'personal data retention period',
    namespace: 'compliance-docs',
    filter: ['document_tags' => ['gdpr', 'eu']],
    topK: 5,
);

使用案例三:客服問答系統

業務背景

SaaS 產品將所有文件(使用者手冊、FAQ、API 文件、服務條款)索引為知識庫,讓 AI 客服能準確回答使用者問題。

架構特點

  • 多語言支援:同一知識庫支援中英日多語言查詢
  • 版本管理:不同產品版本的文件以獨立命名空間隔離
  • 引用型回答:每個答案附帶「詳見文件 X,第 Y 頁」的精確引用

MCP 整合範例

AI 客服收到問題:「如何設定 SMTP 寄信?」

1. semantic_search("how to configure SMTP email settings", collection="docs-v2")
2. 取得相關 Chunks(來自 email-guide.pdf,第 23-25 頁)
3. 整合 Chunks 生成回答,附帶引用

效果指標


使用案例四:法律文件分析

業務背景

律師事務所需要在大量合約文件(有時超過數千頁)中快速定位特定條款,或比對多份合約的差異。

技術架構(結合多個 MCP 工具)

工作流:合約審查助理

Step 1: parse_pdf → 確認合約頁數與結構
Step 2: forensic_analyze → 確認文件真實性(未經篡改)
Step 3: embed_documents → 將合約索引至「案件知識庫」
Step 4: semantic_search → 搜尋特定條款
Step 5: extract_tables → 提取付款條件、交付時間表等表格
Step 6: compare_pdfs → 與標準合約範本比對差異

律師查詢範例

查詢:「這份合約的違約賠償條款有哪些限制?」
→ 語意搜尋找到第 18 條(第 32 頁)
→ 回答:「賠償上限為合約金額的 20%,且需在違約日起 30 天內提出索賠...(合約 §18.3)」

使用案例五:財務報告智慧查詢

業務背景

投資分析師需要從大量上市公司年報(PDF 格式)中提取財務數據進行分析,傳統人工閱讀效率極低。

管線設計

多公司年報索引策略:

1. 依公司股票代碼建立命名空間(namespace: "AAPL-2025", "GOOGL-2025")
2. 重點提取財務報表(表格為主,保留數字精度)
3. 特殊處理:財務數字附帶單位標記(百萬美元、TWD 億等)

跨公司比對查詢:
"各公司 2025 年度研發費用佔營收比例"
→ 跨 namespace 搜尋
→ 彙整多公司數據
→ 生成比較分析

實作要點

// 財務文件的特殊設定
$pipeline->index(
    path: '/annual-reports/TSMC-2025.pdf',
    namespace: 'TSMC-2025',
    options: [
        'chunking_strategy' => 'semantic',
        'extract_tables' => true,         // 財務報表精確提取
        'preserve_numbers' => true,       // 數字精度保留
        'currency_normalize' => false,    // 不自動換算貨幣
    ]
);

使用案例六:政府公文搜尋

業務背景

政府機關或需要與政府交互的企業,需要在大量公文、法令、行政規則中快速查詢。

特殊需求

  • 繁體中文優先nextpdf-embed-v1 對中文語意的理解
  • 公文格式處理:識別公文的主旨、說明、辦理事項等結構
  • 時效性:舊版公文不影響最新搜尋結果(透過版本過濾)

使用案例七:教育資料庫

業務背景

教育機構將課程教材、研究論文、教學指引建立為知識庫,學生和教師可自然語言查詢。

分塊策略建議

  • 教科書semantic 策略,max_chunk_size: 400(確保概念完整)
  • 研究論文paragraph 策略,保留摘要/引言/結論的完整段落
  • 試題庫:每題作為獨立 Chunk,附帶難度、章節等元資料

選擇使用案例的決策指南

文件特性 建議分塊策略 建議 top_k 特殊設定
敘事型文件(報告、手冊) semantic 5 保留標題路徑
法規條文型文件 paragraph 3 保留條文編號
財務報表為主 semantic + 表格提取 3 數字精度保留
短文件 FAQ fixed-size(256) 5 高 overlap(64)
混合型文件集 semantic 5 通用設定

參見

Commercial License

This feature requires a commercial license. Contact our team for pricing and deployment support.

Contact Sales