Python SDK 套件

概覽

當 Python 應用程式、asyncio 服務、AI Agent 或終端機工作流程需要具備 provenance（來源資訊）的 PDF 擷取時，請使用 NextPDF Python 軟體開發套件（SDK）。SDK 回傳的每個結構化區塊都帶有引用錨點，包括頁面 Index（索引）、信心值、選用的定界框，以及語意節點識別碼，因此每個擷取出的值都能追溯到其在來源文件中的位置。

這個套件提供：供指令稿與 notebook 使用的同步 NextPDF 用戶端、供 asyncio 執行環境使用的非同步 AsyncNextPDF 用戶端、用於從大型檔案串流擷取的 nextpdf 命令列介面（CLI），以及選用的 Model Context Protocol（MCP）伺服器，讓 AI Agent 能直接呼叫擷取工具。這四種使用路徑都透過 NextPDF Connect endpoint 連接至同一個抽象語法樹（AST）介面。

你需要 Python 3.10 或更新版本；若要在正式環境執行擷取，還需要一個 NextPDF Connect endpoint。使用 pip install nextpdf 安裝 SDK；若要安裝代理伺服器，請使用 pip install nextpdf[mcp]。

章節地圖

頁面	適用情境
概觀	SDK 的功能、後端選擇與限制。
快速上手	安裝 SDK，並擷取帶有頁面層級 provenance 的引用文字。
API 參考	用戶端、AST 方法鏈、Pydantic 模型、CLI 指令與例外。
開發者指南	架構邊界、執行期生命週期、非同步批次處理與失敗處理。
CLI	從終端機執行具引用感知能力的擷取，並串流處理大型文件。
MCP 伺服器	向支援 MCP 的 AI Agent 開放擷取工具。

主要 API

符號	角色
`NextPDF`	供指令稿、批次作業與 notebook 使用的同步用戶端。
`AsyncNextPDF`	供 asyncio 執行環境使用的非同步用戶端與非同步情境管理器。
`client.ast.get_document_ast()`	從 PDF 位元組建構完整的語意 AST。
`client.ast.extract_cited_text()`	擷取帶有引用錨點的文字區塊。
`client.ast.extract_cited_tables()`	擷取帶有儲存格層級引用錨點的表格。
`client.ast.search_ast_nodes()`	依類型、頁面或文字查詢來尋找節點。
`client.ast.get_ast_diff()`	對兩個 PDF 版本進行結構性比較。
`nextpdf`	供終端機與管線擷取流程使用的命令列介面。

另請參閱

Python SDK 概觀 — 功能、後端與限制。
Python SDK 快速上手 — 你的第一次擷取。
Python API 參考 — 每個公開符號。