Démarrage rapide du SDK Python

Installe le SDK depuis PyPI :

pip install nextpdf

Crée un client configuré pour utiliser ton point de terminaison NextPDF Connect :

from nextpdf import NextPDF

client = NextPDF(base_url="http://localhost:8080", api_key="your-key")

with open("document.pdf", "rb") as file:
    blocks = client.ast.extract_cited_text(file.read())

for block in blocks:
    page = block.citation.page_index
    confidence = block.citation.confidence
    print(f"[page {page}, confidence {confidence:.2f}] {block.text[:100]}")

Si ton point de terminaison ne requiert pas de clé API, omets api_key.

Utiliser des variables d’environnement

La CLI et les workflows d’agent peuvent lire les paramètres de connexion depuis l’environnement :

export NEXTPDF_BASE_URL=http://localhost:8080
export NEXTPDF_API_KEY=your-key

Sous Windows PowerShell :

$env:NEXTPDF_BASE_URL = "http://localhost:8080"
$env:NEXTPDF_API_KEY = "your-key"

Gérer les erreurs courantes

Intercepte les exceptions du SDK et de l’API autour de tes appels d’extraction :

from nextpdf import NextPDF
from nextpdf.models.errors import NextPDFAPIError, NextPDFError, QuotaExceededError

client = NextPDF(base_url="http://localhost:8080", api_key="your-key")

try:
    with open("document.pdf", "rb") as file:
        blocks = client.ast.extract_cited_text(file.read())
except QuotaExceededError as error:
    print(f"Rate limit hit: {error}")
except NextPDFAPIError as error:
    print(f"API error {error.status_code}: {error}")
except NextPDFError as error:
    print(f"SDK error: {error}")

Pour les PDF de plus de 100 Mo, utilise la CLI. Les résultats peuvent ainsi être diffusés en flux sans charger en mémoire tous les blocs extraits en une seule fois.