Python SDK

概览

当 Python 应用程序、asyncio 服务、AI Agent 或终端工作流程需要带有 provenance（来源信息）的 PDF 提取能力时，请使用 NextPDF Python SDK。SDK 返回的每个结构化区块都附带引用锚点，包含页面 Index（索引）、置信值、可选的定界框以及语义节点标识符，因此每个提取值都能追溯到其在来源中的位置。

这个包提供面向脚本与 notebook 的同步 NextPDF 客户端、面向 asyncio 运行时的异步 AsyncNextPDF 客户端、用于从大型文件流式提取的 nextpdf 命令行接口（CLI），以及可选的 Model Context Protocol（MCP）服务器，让 AI Agent 能直接调用提取工具。这四种路径都通过 NextPDF Connect endpoint 连接到同一个抽象语法树（AST）接口。

你需要 Python 3.10 或更新版本；若要在生产环境中提取，还需要一个 NextPDF Connect endpoint。使用 pip install nextpdf 安装 SDK，或使用 pip install nextpdf[mcp] 安装 MCP 服务器。

章节地图

页面	适用场景
概述	SDK 的功能、后端选择与限制。
快速上手	安装 SDK，并提取带有页面级 provenance 的引用文本。
API 参考	客户端、AST 方法链、Pydantic 模型、CLI 命令与异常。
开发者指南	架构边界、运行时生命周期、异步批处理与失败处理。
CLI	从终端运行引用感知型提取，并流式处理大型文档。
MCP 服务器	向支持 MCP 的 AI Agent 开放提取工具。

主要 API

符号	角色
`NextPDF`	面向脚本、批处理作业与 notebook 的同步客户端。
`AsyncNextPDF`	面向 asyncio 运行时的异步客户端与异步上下文管理器。
`client.ast.get_document_ast()`	从 PDF 字节构建完整的语义 AST。
`client.ast.extract_cited_text()`	提取带有引用锚点的文本区块。
`client.ast.extract_cited_tables()`	提取带有单元格级引用锚点的表格。
`client.ast.search_ast_nodes()`	按类型、页面或文本查询节点。
`client.ast.get_ast_diff()`	对两个 PDF 版本进行结构性比较。
`nextpdf`	面向终端与管道提取的命令行接口。

另请参阅

Python SDK 概述 — 功能、后端与限制。
Python SDK 快速上手 — 完成你的第一次提取。
Python API 参考 — 每个公开符号。