RAG 使用案例¶

本頁列出 NextPDF RAG 管線的典型應用場景，每個使用案例包含業務背景、技術架構與實作要點。

使用案例一：企業內部知識庫¶

業務背景¶

企業積累了大量 PDF 形式的內部文件（操作手冊、規範流程、培訓教材），員工需要快速查詢特定資訊，但傳統的全文搜尋精度不足。

技術架構¶

員工提問（自然語言）
  → 向量化查詢
  → 語意搜尋知識庫
  → 提取最相關段落（帶頁碼引用）
  → LLM 整合上下文生成答案
  → 員工獲得精確答案 + 原始文件來源

實作要點¶

// 初始索引（一次性）
$pipeline->index(
    paths: glob('/knowledge-base/**/*.pdf'),
    namespace: 'company-internal',
    options: [
        'chunking_strategy' => 'semantic',
        'max_chunk_size' => 512,
        'include_tables' => true,
    ]
);

// 增量更新（文件修訂時）
$pipeline->upsert(
    path: '/knowledge-base/hr-policy-v4.pdf',
    namespace: 'company-internal',
    document_id: 'hr-policy',  // 覆蓋舊版
);

關鍵設定建議¶

分塊策略：semantic，保留段落完整性
向量維度：1,536（nextpdf-embed-v1）
命名空間：以部門或主題分隔（hr/、engineering/、legal/）
更新頻率：文件發版時觸發增量更新

使用案例二：法規合規文件搜尋¶

業務背景¶

法律、金融、醫療等受嚴格監管的行業需要快速查詢相關法規條文，確保業務操作符合最新規範。

挑戰¶

法規文件更新頻繁，必須確保搜尋結果反映最新版本
需要精確引用條文編號（「第 X 條第 Y 項」）
查詢需跨多個法規文件進行交叉比對

技術架構¶

法規文件 PDF（定期更新）
  → 增量索引（新版覆蓋舊版）
  → 帶結構路徑的語意分塊
  → 查詢時自動附加條文路徑引用

查詢範例：「GDPR 對個人資料保留期限有何規定？」
回應範例：「根據 GDPR 第 5 條第 1(e) 項...（來源：GDPR-2018.pdf，第 12 頁）」

實作要點¶

// 法規文件的特殊分塊設定
$pipeline->index(
    paths: ['/regulations/gdpr.pdf', '/regulations/ccpa.pdf'],
    namespace: 'compliance-docs',
    options: [
        'chunking_strategy' => 'paragraph',  // 以條文段落為分界
        'preserve_article_numbers' => true,   // 保留條文編號
        'include_cross_references' => true,   // 處理條文內的交叉引用
    ]
);

// 帶過濾器的查詢
$results = $pipeline->search(
    query: 'personal data retention period',
    namespace: 'compliance-docs',
    filter: ['document_tags' => ['gdpr', 'eu']],
    topK: 5,
);

使用案例三：客服問答系統¶

業務背景¶

SaaS 產品將所有文件（使用者手冊、FAQ、API 文件、服務條款）索引為知識庫，讓 AI 客服能準確回答使用者問題。

架構特點¶

多語言支援：同一知識庫支援中英日多語言查詢
版本管理：不同產品版本的文件以獨立命名空間隔離
引用型回答：每個答案附帶「詳見文件 X，第 Y 頁」的精確引用

MCP 整合範例¶

AI 客服收到問題：「如何設定 SMTP 寄信？」

1. semantic_search("how to configure SMTP email settings", collection="docs-v2")
2. 取得相關 Chunks（來自 email-guide.pdf，第 23-25 頁）
3. 整合 Chunks 生成回答，附帶引用

效果指標¶

使用案例四：法律文件分析¶

業務背景¶

律師事務所需要在大量合約文件（有時超過數千頁）中快速定位特定條款，或比對多份合約的差異。

技術架構（結合多個 MCP 工具）¶

工作流：合約審查助理

Step 1: parse_pdf → 確認合約頁數與結構
Step 2: forensic_analyze → 確認文件真實性（未經篡改）
Step 3: embed_documents → 將合約索引至「案件知識庫」
Step 4: semantic_search → 搜尋特定條款
Step 5: extract_tables → 提取付款條件、交付時間表等表格
Step 6: compare_pdfs → 與標準合約範本比對差異

律師查詢範例¶

查詢：「這份合約的違約賠償條款有哪些限制？」
→ 語意搜尋找到第 18 條（第 32 頁）
→ 回答：「賠償上限為合約金額的 20%，且需在違約日起 30 天內提出索賠...（合約 §18.3）」

使用案例五：財務報告智慧查詢¶

業務背景¶

投資分析師需要從大量上市公司年報（PDF 格式）中提取財務數據進行分析，傳統人工閱讀效率極低。

管線設計¶

多公司年報索引策略：

1. 依公司股票代碼建立命名空間（namespace: "AAPL-2025", "GOOGL-2025"）
2. 重點提取財務報表（表格為主，保留數字精度）
3. 特殊處理：財務數字附帶單位標記（百萬美元、TWD 億等）

跨公司比對查詢：
"各公司 2025 年度研發費用佔營收比例"
→ 跨 namespace 搜尋
→ 彙整多公司數據
→ 生成比較分析

實作要點¶

// 財務文件的特殊設定
$pipeline->index(
    path: '/annual-reports/TSMC-2025.pdf',
    namespace: 'TSMC-2025',
    options: [
        'chunking_strategy' => 'semantic',
        'extract_tables' => true,         // 財務報表精確提取
        'preserve_numbers' => true,       // 數字精度保留
        'currency_normalize' => false,    // 不自動換算貨幣
    ]
);

使用案例六：政府公文搜尋¶

業務背景¶

政府機關或需要與政府交互的企業，需要在大量公文、法令、行政規則中快速查詢。

特殊需求¶

繁體中文優先：nextpdf-embed-v1 對中文語意的理解
公文格式處理：識別公文的主旨、說明、辦理事項等結構
時效性：舊版公文不影響最新搜尋結果（透過版本過濾）

使用案例七：教育資料庫¶

業務背景¶

教育機構將課程教材、研究論文、教學指引建立為知識庫，學生和教師可自然語言查詢。

分塊策略建議¶

教科書：semantic 策略，max_chunk_size: 400（確保概念完整）
研究論文：paragraph 策略，保留摘要/引言/結論的完整段落
試題庫：每題作為獨立 Chunk，附帶難度、章節等元資料

選擇使用案例的決策指南¶

文件特性	建議分塊策略	建議 top_k	特殊設定
敘事型文件（報告、手冊）	`semantic`	5	保留標題路徑
法規條文型文件	`paragraph`	3	保留條文編號
財務報表為主	`semantic` + 表格提取	3	數字精度保留
短文件 FAQ	`fixed-size`(256)	5	高 overlap(64)
混合型文件集	`semantic`	5	通用設定

參見¶

RAG 管線概覽 — 架構設計與核心元件說明
Enterprise MCP 工具 — embed_documents 與 semantic_search
Prisma Enterprise API — REST API 規格

Commercial License

This feature requires a commercial license. Contact our team for pricing and deployment support.

Contact Sales