Python SDK ガイド
Python アプリケーション、asyncio サービス、AI エージェント、またはターミナルワークフローで来歴付きの PDF 抽出が必要な場合は、NextPDF Python Software Development Kit(SDK)を使用します。SDK は、引用アンカー(ページインデックス、信頼度、オプションのバウンディングボックス、セマンティックノード識別子)を保持する構造化ブロックを返します。これにより、抽出されたすべての値をソース上の位置までたどることができます。
このパッケージには、スクリプトおよびノートブック向けの同期 NextPDF クライアント、asyncio ランタイム向けの非同期 AsyncNextPDF クライアント、大きなファイルからのストリーミング抽出向けの nextpdf コマンドラインインターフェイス(CLI)、および AI エージェントが抽出ツールを直接呼び出せるようにするオプションの Model Context Protocol(MCP)サーバーが含まれています。これら 4 つのパスはいずれも、NextPDF Connect エンドポイントを介して同じ抽象構文木(AST)サーフェスに到達します。
Python 3.10 以降が必要です。また、本番環境での抽出には NextPDF Connect エンドポイントが必要です。SDK は pip install nextpdf でインストールします。エージェントサーバーを使用する場合は pip install nextpdf[mcp] でインストールします。
セクションマップ
「セクションマップ」という見出しのセクション| ページ | 用途 |
|---|---|
| 概要 | SDK が提供する機能、バックエンドの選択肢、制限事項。 |
| クイックスタート | SDK のインストールと、ページレベルの来歴を伴う引用テキストの抽出。 |
| API リファレンス | クライアント、AST メソッドチェーン、Pydantic モデル、CLI コマンド、例外。 |
| 開発者ガイド | アーキテクチャの境界、ランタイムのライフサイクル、非同期バッチ処理、障害処理。 |
| CLI | ターミナルからの引用対応抽出と、大きなドキュメントのストリーミング。 |
| MCP サーバー | MCP 対応の AI エージェントへの抽出ツールの公開。 |
主な API
「主な API」という見出しのセクション| シンボル | 役割 |
|---|---|
NextPDF | スクリプト、バッチジョブ、ノートブック向けの同期クライアント。 |
AsyncNextPDF | asyncio ランタイム向けの非同期クライアント兼非同期コンテキストマネージャー。 |
client.ast.get_document_ast() | PDF バイトからの完全なセマンティック AST の構築。 |
client.ast.extract_cited_text() | 引用アンカー付きテキストブロックの抽出。 |
client.ast.extract_cited_tables() | セルレベルの引用アンカー付きテーブルの抽出。 |
client.ast.search_ast_nodes() | 種類、ページ、テキストクエリによるノード検索。 |
client.ast.get_ast_diff() | 2 つの PDF バージョンの構造比較。 |
nextpdf | ターミナルおよびパイプラインでの抽出向けコマンドラインインターフェイス。 |
- Python SDK の概要 — 機能、バックエンド、制限。
- Python SDK のクイックスタート — 最初の抽出。
- Python API リファレンス — すべての公開シンボル。