Python SDK クイックスタート

SDK は PyPI からインストールします。

pip install nextpdf

使用する NextPDF Connect エンドポイントを参照するクライアントを作成します。

from nextpdf import NextPDF

client = NextPDF(base_url="http://localhost:8080", api_key="your-key")

with open("document.pdf", "rb") as file:
    blocks = client.ast.extract_cited_text(file.read())

for block in blocks:
    page = block.citation.page_index
    confidence = block.citation.confidence
    print(f"[page {page}, confidence {confidence:.2f}] {block.text[:100]}")

エンドポイントが API キーを要求しない場合は、api_key を省略します。

環境変数を使用する

CLI とエージェントワークフローでは、接続設定を環境変数から読み取れます。

export NEXTPDF_BASE_URL=http://localhost:8080
export NEXTPDF_API_KEY=your-key

Windows PowerShell の場合：

$env:NEXTPDF_BASE_URL = "http://localhost:8080"
$env:NEXTPDF_API_KEY = "your-key"

一般的なエラーを処理する

抽出処理を呼び出す箇所では、SDK および API の例外をキャッチします。

from nextpdf import NextPDF
from nextpdf.models.errors import NextPDFAPIError, NextPDFError, QuotaExceededError

client = NextPDF(base_url="http://localhost:8080", api_key="your-key")

try:
    with open("document.pdf", "rb") as file:
        blocks = client.ast.extract_cited_text(file.read())
except QuotaExceededError as error:
    print(f"Rate limit hit: {error}")
except NextPDFAPIError as error:
    print(f"API error {error.status_code}: {error}")
except NextPDFError as error:
    print(f"SDK error: {error}")

100 MB を超える PDF の場合は、CLI を使用してください。これにより、抽出されたすべてのブロックを一度にメモリへ読み込むことなく、結果をストリーミングできます。