コンテンツにスキップ

Python SDK ガイド

概要

Python アプリケーション、asyncio サービス、AI エージェント、またはターミナルワークフローで来歴付きの PDF 抽出が必要な場合は、NextPDF Python Software Development Kit（SDK）を使用します。SDK は、引用アンカー（ページインデックス、信頼度、オプションのバウンディングボックス、セマンティックノード識別子）を保持する構造化ブロックを返します。これにより、抽出されたすべての値をソース上の位置までたどることができます。

このパッケージには、スクリプトおよびノートブック向けの同期 NextPDF クライアント、asyncio ランタイム向けの非同期 AsyncNextPDF クライアント、大きなファイルからのストリーミング抽出向けの nextpdf コマンドラインインターフェイス（CLI）、および AI エージェントが抽出ツールを直接呼び出せるようにするオプションの Model Context Protocol（MCP）サーバーが含まれています。これら 4 つのパスはいずれも、NextPDF Connect エンドポイントを介して同じ抽象構文木（AST）サーフェスに到達します。

Python 3.10 以降が必要です。また、本番環境での抽出には NextPDF Connect エンドポイントが必要です。SDK は pip install nextpdf でインストールします。エージェントサーバーを使用する場合は pip install nextpdf[mcp] でインストールします。

セクションマップ

ページ	用途
概要	SDK が提供する機能、バックエンドの選択肢、制限事項。
クイックスタート	SDK のインストールと、ページレベルの来歴を伴う引用テキストの抽出。
API リファレンス	クライアント、AST メソッドチェーン、Pydantic モデル、CLI コマンド、例外。
開発者ガイド	アーキテクチャの境界、ランタイムのライフサイクル、非同期バッチ処理、障害処理。
CLI	ターミナルからの引用対応抽出と、大きなドキュメントのストリーミング。
MCP サーバー	MCP 対応の AI エージェントへの抽出ツールの公開。

主な API

シンボル	役割
`NextPDF`	スクリプト、バッチジョブ、ノートブック向けの同期クライアント。
`AsyncNextPDF`	asyncio ランタイム向けの非同期クライアント兼非同期コンテキストマネージャー。
`client.ast.get_document_ast()`	PDF バイトからの完全なセマンティック AST の構築。
`client.ast.extract_cited_text()`	引用アンカー付きテキストブロックの抽出。
`client.ast.extract_cited_tables()`	セルレベルの引用アンカー付きテーブルの抽出。
`client.ast.search_ast_nodes()`	種類、ページ、テキストクエリによるノード検索。
`client.ast.get_ast_diff()`	2 つの PDF バージョンの構造比較。
`nextpdf`	ターミナルおよびパイプラインでの抽出向けコマンドラインインターフェイス。

関連情報

Python SDK の概要 — 機能、バックエンド、制限。
Python SDK のクイックスタート — 最初の抽出。
Python API リファレンス — すべての公開シンボル。