Python SDK
当 Python 应用程序、asyncio 服务、AI Agent 或终端工作流程需要带有 provenance(来源信息)的 PDF 提取能力时,请使用 NextPDF Python SDK。SDK 返回的每个结构化区块都附带引用锚点,包含页面 Index(索引)、置信值、可选的定界框以及语义节点标识符,因此每个提取值都能追溯到其在来源中的位置。
这个包提供面向脚本与 notebook 的同步 NextPDF 客户端、面向 asyncio 运行时的异步 AsyncNextPDF 客户端、用于从大型文件流式提取的 nextpdf 命令行接口(CLI),以及可选的 Model Context Protocol(MCP)服务器,让 AI Agent 能直接调用提取工具。这四种路径都通过 NextPDF Connect endpoint 连接到同一个抽象语法树(AST)接口。
你需要 Python 3.10 或更新版本;若要在生产环境中提取,还需要一个 NextPDF Connect endpoint。使用 pip install nextpdf 安装 SDK,或使用 pip install nextpdf[mcp] 安装 MCP 服务器。
章节地图
标题为“章节地图”的章节| 页面 | 适用场景 |
|---|---|
| 概述 | SDK 的功能、后端选择与限制。 |
| 快速上手 | 安装 SDK,并提取带有页面级 provenance 的引用文本。 |
| API 参考 | 客户端、AST 方法链、Pydantic 模型、CLI 命令与异常。 |
| 开发者指南 | 架构边界、运行时生命周期、异步批处理与失败处理。 |
| CLI | 从终端运行引用感知型提取,并流式处理大型文档。 |
| MCP 服务器 | 向支持 MCP 的 AI Agent 开放提取工具。 |
主要 API
标题为“主要 API”的章节| 符号 | 角色 |
|---|---|
NextPDF | 面向脚本、批处理作业与 notebook 的同步客户端。 |
AsyncNextPDF | 面向 asyncio 运行时的异步客户端与异步上下文管理器。 |
client.ast.get_document_ast() | 从 PDF 字节构建完整的语义 AST。 |
client.ast.extract_cited_text() | 提取带有引用锚点的文本区块。 |
client.ast.extract_cited_tables() | 提取带有单元格级引用锚点的表格。 |
client.ast.search_ast_nodes() | 按类型、页面或文本查询节点。 |
client.ast.get_ast_diff() | 对两个 PDF 版本进行结构性比较。 |
nextpdf | 面向终端与管道提取的命令行接口。 |
另请参阅
标题为“另请参阅”的章节- Python SDK 概述 — 功能、后端与限制。
- Python SDK 快速上手 — 完成你的第一次提取。
- Python API 参考 — 每个公开符号。