跳转到内容

Python SDK

当 Python 应用程序、asyncio 服务、AI Agent 或终端工作流程需要带有 provenance(来源信息)的 PDF 提取能力时,请使用 NextPDF Python SDK。SDK 返回的每个结构化区块都附带引用锚点,包含页面 Index(索引)、置信值、可选的定界框以及语义节点标识符,因此每个提取值都能追溯到其在来源中的位置。

这个包提供面向脚本与 notebook 的同步 NextPDF 客户端、面向 asyncio 运行时的异步 AsyncNextPDF 客户端、用于从大型文件流式提取的 nextpdf 命令行接口(CLI),以及可选的 Model Context Protocol(MCP)服务器,让 AI Agent 能直接调用提取工具。这四种路径都通过 NextPDF Connect endpoint 连接到同一个抽象语法树(AST)接口。

你需要 Python 3.10 或更新版本;若要在生产环境中提取,还需要一个 NextPDF Connect endpoint。使用 pip install nextpdf 安装 SDK,或使用 pip install nextpdf[mcp] 安装 MCP 服务器。

页面适用场景
概述SDK 的功能、后端选择与限制。
快速上手安装 SDK,并提取带有页面级 provenance 的引用文本。
API 参考客户端、AST 方法链、Pydantic 模型、CLI 命令与异常。
开发者指南架构边界、运行时生命周期、异步批处理与失败处理。
CLI从终端运行引用感知型提取,并流式处理大型文档。
MCP 服务器向支持 MCP 的 AI Agent 开放提取工具。
符号角色
NextPDF面向脚本、批处理作业与 notebook 的同步客户端。
AsyncNextPDF面向 asyncio 运行时的异步客户端与异步上下文管理器。
client.ast.get_document_ast()从 PDF 字节构建完整的语义 AST。
client.ast.extract_cited_text()提取带有引用锚点的文本区块。
client.ast.extract_cited_tables()提取带有单元格级引用锚点的表格。
client.ast.search_ast_nodes()按类型、页面或文本查询节点。
client.ast.get_ast_diff()对两个 PDF 版本进行结构性比较。
nextpdf面向终端与管道提取的命令行接口。