RAG 使用案例¶
本頁列出 NextPDF RAG 管線的典型應用場景,每個使用案例包含業務背景、技術架構與實作要點。
使用案例一:企業內部知識庫¶
業務背景¶
企業積累了大量 PDF 形式的內部文件(操作手冊、規範流程、培訓教材),員工需要快速查詢特定資訊,但傳統的全文搜尋精度不足。
技術架構¶
實作要點¶
// 初始索引(一次性)
$pipeline->index(
paths: glob('/knowledge-base/**/*.pdf'),
namespace: 'company-internal',
options: [
'chunking_strategy' => 'semantic',
'max_chunk_size' => 512,
'include_tables' => true,
]
);
// 增量更新(文件修訂時)
$pipeline->upsert(
path: '/knowledge-base/hr-policy-v4.pdf',
namespace: 'company-internal',
document_id: 'hr-policy', // 覆蓋舊版
);
關鍵設定建議¶
- 分塊策略:
semantic,保留段落完整性 - 向量維度:1,536(
nextpdf-embed-v1) - 命名空間:以部門或主題分隔(
hr/、engineering/、legal/) - 更新頻率:文件發版時觸發增量更新
使用案例二:法規合規文件搜尋¶
業務背景¶
法律、金融、醫療等受嚴格監管的行業需要快速查詢相關法規條文,確保業務操作符合最新規範。
挑戰¶
- 法規文件更新頻繁,必須確保搜尋結果反映最新版本
- 需要精確引用條文編號(「第 X 條第 Y 項」)
- 查詢需跨多個法規文件進行交叉比對
技術架構¶
法規文件 PDF(定期更新)
→ 增量索引(新版覆蓋舊版)
→ 帶結構路徑的語意分塊
→ 查詢時自動附加條文路徑引用
查詢範例:「GDPR 對個人資料保留期限有何規定?」
回應範例:「根據 GDPR 第 5 條第 1(e) 項...(來源:GDPR-2018.pdf,第 12 頁)」
實作要點¶
// 法規文件的特殊分塊設定
$pipeline->index(
paths: ['/regulations/gdpr.pdf', '/regulations/ccpa.pdf'],
namespace: 'compliance-docs',
options: [
'chunking_strategy' => 'paragraph', // 以條文段落為分界
'preserve_article_numbers' => true, // 保留條文編號
'include_cross_references' => true, // 處理條文內的交叉引用
]
);
// 帶過濾器的查詢
$results = $pipeline->search(
query: 'personal data retention period',
namespace: 'compliance-docs',
filter: ['document_tags' => ['gdpr', 'eu']],
topK: 5,
);
使用案例三:客服問答系統¶
業務背景¶
SaaS 產品將所有文件(使用者手冊、FAQ、API 文件、服務條款)索引為知識庫,讓 AI 客服能準確回答使用者問題。
架構特點¶
- 多語言支援:同一知識庫支援中英日多語言查詢
- 版本管理:不同產品版本的文件以獨立命名空間隔離
- 引用型回答:每個答案附帶「詳見文件 X,第 Y 頁」的精確引用
MCP 整合範例¶
AI 客服收到問題:「如何設定 SMTP 寄信?」
1. semantic_search("how to configure SMTP email settings", collection="docs-v2")
2. 取得相關 Chunks(來自 email-guide.pdf,第 23-25 頁)
3. 整合 Chunks 生成回答,附帶引用
效果指標¶
使用案例四:法律文件分析¶
業務背景¶
律師事務所需要在大量合約文件(有時超過數千頁)中快速定位特定條款,或比對多份合約的差異。
技術架構(結合多個 MCP 工具)¶
工作流:合約審查助理
Step 1: parse_pdf → 確認合約頁數與結構
Step 2: forensic_analyze → 確認文件真實性(未經篡改)
Step 3: embed_documents → 將合約索引至「案件知識庫」
Step 4: semantic_search → 搜尋特定條款
Step 5: extract_tables → 提取付款條件、交付時間表等表格
Step 6: compare_pdfs → 與標準合約範本比對差異
律師查詢範例¶
使用案例五:財務報告智慧查詢¶
業務背景¶
投資分析師需要從大量上市公司年報(PDF 格式)中提取財務數據進行分析,傳統人工閱讀效率極低。
管線設計¶
多公司年報索引策略:
1. 依公司股票代碼建立命名空間(namespace: "AAPL-2025", "GOOGL-2025")
2. 重點提取財務報表(表格為主,保留數字精度)
3. 特殊處理:財務數字附帶單位標記(百萬美元、TWD 億等)
跨公司比對查詢:
"各公司 2025 年度研發費用佔營收比例"
→ 跨 namespace 搜尋
→ 彙整多公司數據
→ 生成比較分析
實作要點¶
// 財務文件的特殊設定
$pipeline->index(
path: '/annual-reports/TSMC-2025.pdf',
namespace: 'TSMC-2025',
options: [
'chunking_strategy' => 'semantic',
'extract_tables' => true, // 財務報表精確提取
'preserve_numbers' => true, // 數字精度保留
'currency_normalize' => false, // 不自動換算貨幣
]
);
使用案例六:政府公文搜尋¶
業務背景¶
政府機關或需要與政府交互的企業,需要在大量公文、法令、行政規則中快速查詢。
特殊需求¶
- 繁體中文優先:
nextpdf-embed-v1對中文語意的理解 - 公文格式處理:識別公文的主旨、說明、辦理事項等結構
- 時效性:舊版公文不影響最新搜尋結果(透過版本過濾)
使用案例七:教育資料庫¶
業務背景¶
教育機構將課程教材、研究論文、教學指引建立為知識庫,學生和教師可自然語言查詢。
分塊策略建議¶
- 教科書:
semantic策略,max_chunk_size: 400(確保概念完整) - 研究論文:
paragraph策略,保留摘要/引言/結論的完整段落 - 試題庫:每題作為獨立 Chunk,附帶難度、章節等元資料
選擇使用案例的決策指南¶
| 文件特性 | 建議分塊策略 | 建議 top_k | 特殊設定 |
|---|---|---|---|
| 敘事型文件(報告、手冊) | semantic | 5 | 保留標題路徑 |
| 法規條文型文件 | paragraph | 3 | 保留條文編號 |
| 財務報表為主 | semantic + 表格提取 | 3 | 數字精度保留 |
| 短文件 FAQ | fixed-size(256) | 5 | 高 overlap(64) |
| 混合型文件集 | semantic | 5 | 通用設定 |
參見¶
- RAG 管線概覽 — 架構設計與核心元件說明
- Enterprise MCP 工具 —
embed_documents與semantic_search - Prisma Enterprise API — REST API 規格
Commercial License
This feature requires a commercial license. Contact our team for pricing and deployment support.
Contact Sales