コンテンツにスキップ

Python SDK ガイド

Python アプリケーション、asyncio サービス、AI エージェント、またはターミナルワークフローで来歴付きの PDF 抽出が必要な場合は、NextPDF Python Software Development Kit(SDK)を使用します。SDK は、引用アンカー(ページインデックス、信頼度、オプションのバウンディングボックス、セマンティックノード識別子)を保持する構造化ブロックを返します。これにより、抽出されたすべての値をソース上の位置までたどることができます。

このパッケージには、スクリプトおよびノートブック向けの同期 NextPDF クライアント、asyncio ランタイム向けの非同期 AsyncNextPDF クライアント、大きなファイルからのストリーミング抽出向けの nextpdf コマンドラインインターフェイス(CLI)、および AI エージェントが抽出ツールを直接呼び出せるようにするオプションの Model Context Protocol(MCP)サーバーが含まれています。これら 4 つのパスはいずれも、NextPDF Connect エンドポイントを介して同じ抽象構文木(AST)サーフェスに到達します。

Python 3.10 以降が必要です。また、本番環境での抽出には NextPDF Connect エンドポイントが必要です。SDK は pip install nextpdf でインストールします。エージェントサーバーを使用する場合は pip install nextpdf[mcp] でインストールします。

ページ用途
概要SDK が提供する機能、バックエンドの選択肢、制限事項。
クイックスタートSDK のインストールと、ページレベルの来歴を伴う引用テキストの抽出。
API リファレンスクライアント、AST メソッドチェーン、Pydantic モデル、CLI コマンド、例外。
開発者ガイドアーキテクチャの境界、ランタイムのライフサイクル、非同期バッチ処理、障害処理。
CLIターミナルからの引用対応抽出と、大きなドキュメントのストリーミング。
MCP サーバーMCP 対応の AI エージェントへの抽出ツールの公開。
シンボル役割
NextPDFスクリプト、バッチジョブ、ノートブック向けの同期クライアント。
AsyncNextPDFasyncio ランタイム向けの非同期クライアント兼非同期コンテキストマネージャー。
client.ast.get_document_ast()PDF バイトからの完全なセマンティック AST の構築。
client.ast.extract_cited_text()引用アンカー付きテキストブロックの抽出。
client.ast.extract_cited_tables()セルレベルの引用アンカー付きテーブルの抽出。
client.ast.search_ast_nodes()種類、ページ、テキストクエリによるノード検索。
client.ast.get_ast_diff()2 つの PDF バージョンの構造比較。
nextpdfターミナルおよびパイプラインでの抽出向けコマンドラインインターフェイス。