跳到內容

Python SDK 套件

當 Python 應用程式、asyncio 服務、AI Agent 或終端機工作流程需要具備 provenance(來源資訊)的 PDF 擷取時,請使用 NextPDF Python 軟體開發套件(SDK)。SDK 回傳的每個結構化區塊都帶有引用錨點,包括頁面 Index(索引)、信心值、選用的定界框,以及語意節點識別碼,因此每個擷取出的值都能追溯到其在來源文件中的位置。

這個套件提供:供指令稿與 notebook 使用的同步 NextPDF 用戶端、供 asyncio 執行環境使用的非同步 AsyncNextPDF 用戶端、用於從大型檔案串流擷取的 nextpdf 命令列介面(CLI),以及選用的 Model Context Protocol(MCP)伺服器,讓 AI Agent 能直接呼叫擷取工具。這四種使用路徑都透過 NextPDF Connect endpoint 連接至同一個抽象語法樹(AST)介面。

你需要 Python 3.10 或更新版本;若要在正式環境執行擷取,還需要一個 NextPDF Connect endpoint。使用 pip install nextpdf 安裝 SDK;若要安裝代理伺服器,請使用 pip install nextpdf[mcp]

頁面適用情境
概觀SDK 的功能、後端選擇與限制。
快速上手安裝 SDK,並擷取帶有頁面層級 provenance 的引用文字。
API 參考用戶端、AST 方法鏈、Pydantic 模型、CLI 指令與例外。
開發者指南架構邊界、執行期生命週期、非同步批次處理與失敗處理。
CLI從終端機執行具引用感知能力的擷取,並串流處理大型文件。
MCP 伺服器向支援 MCP 的 AI Agent 開放擷取工具。
符號角色
NextPDF供指令稿、批次作業與 notebook 使用的同步用戶端。
AsyncNextPDF供 asyncio 執行環境使用的非同步用戶端與非同步情境管理器。
client.ast.get_document_ast()從 PDF 位元組建構完整的語意 AST。
client.ast.extract_cited_text()擷取帶有引用錨點的文字區塊。
client.ast.extract_cited_tables()擷取帶有儲存格層級引用錨點的表格。
client.ast.search_ast_nodes()依類型、頁面或文字查詢來尋找節點。
client.ast.get_ast_diff()對兩個 PDF 版本進行結構性比較。
nextpdf供終端機與管線擷取流程使用的命令列介面。