Python SDK 套件
當 Python 應用程式、asyncio 服務、AI Agent 或終端機工作流程需要具備 provenance(來源資訊)的 PDF 擷取時,請使用 NextPDF Python 軟體開發套件(SDK)。SDK 回傳的每個結構化區塊都帶有引用錨點,包括頁面 Index(索引)、信心值、選用的定界框,以及語意節點識別碼,因此每個擷取出的值都能追溯到其在來源文件中的位置。
這個套件提供:供指令稿與 notebook 使用的同步 NextPDF 用戶端、供 asyncio 執行環境使用的非同步 AsyncNextPDF 用戶端、用於從大型檔案串流擷取的 nextpdf 命令列介面(CLI),以及選用的 Model Context Protocol(MCP)伺服器,讓 AI Agent 能直接呼叫擷取工具。這四種使用路徑都透過 NextPDF Connect endpoint 連接至同一個抽象語法樹(AST)介面。
你需要 Python 3.10 或更新版本;若要在正式環境執行擷取,還需要一個 NextPDF Connect endpoint。使用 pip install nextpdf 安裝 SDK;若要安裝代理伺服器,請使用 pip install nextpdf[mcp]。
章節地圖
標題為「章節地圖」的區段| 頁面 | 適用情境 |
|---|---|
| 概觀 | SDK 的功能、後端選擇與限制。 |
| 快速上手 | 安裝 SDK,並擷取帶有頁面層級 provenance 的引用文字。 |
| API 參考 | 用戶端、AST 方法鏈、Pydantic 模型、CLI 指令與例外。 |
| 開發者指南 | 架構邊界、執行期生命週期、非同步批次處理與失敗處理。 |
| CLI | 從終端機執行具引用感知能力的擷取,並串流處理大型文件。 |
| MCP 伺服器 | 向支援 MCP 的 AI Agent 開放擷取工具。 |
主要 API
標題為「主要 API」的區段| 符號 | 角色 |
|---|---|
NextPDF | 供指令稿、批次作業與 notebook 使用的同步用戶端。 |
AsyncNextPDF | 供 asyncio 執行環境使用的非同步用戶端與非同步情境管理器。 |
client.ast.get_document_ast() | 從 PDF 位元組建構完整的語意 AST。 |
client.ast.extract_cited_text() | 擷取帶有引用錨點的文字區塊。 |
client.ast.extract_cited_tables() | 擷取帶有儲存格層級引用錨點的表格。 |
client.ast.search_ast_nodes() | 依類型、頁面或文字查詢來尋找節點。 |
client.ast.get_ast_diff() | 對兩個 PDF 版本進行結構性比較。 |
nextpdf | 供終端機與管線擷取流程使用的命令列介面。 |
另請參閱
標題為「另請參閱」的區段- Python SDK 概觀 — 功能、後端與限制。
- Python SDK 快速上手 — 你的第一次擷取。
- Python API 參考 — 每個公開符號。