Zum Inhalt springen

Python-SDK

Verwenden Sie das NextPDF Python Software Development Kit (SDK), wenn eine Python-Anwendung, ein asyncio-Dienst, ein KI-Agent oder ein Terminal-Workflow PDF-Extraktion mit Herkunftsnachweis benötigt. Das SDK liefert strukturierte Blöcke mit Zitationsankern – Seitenindex, Konfidenz, optionales Bounding-Box-Rechteck und eine semantische Knotenkennung –, sodass sich jeder extrahierte Wert bis zu seinem Ursprungsort zurückverfolgen lässt.

Das Paket enthält einen synchronen NextPDF-Client für Skripte und Notebooks, einen asynchronen AsyncNextPDF-Client für asyncio-Laufzeiten, eine nextpdf-Befehlszeilenschnittstelle (CLI) für die Streaming-Extraktion aus großen Dateien sowie einen optionalen Model Context Protocol-Server (MCP), über den KI-Agenten Extraktionstools direkt aufrufen können. Alle vier Zugriffswege greifen über einen NextPDF Connect-Endpunkt auf dieselbe Abstract-Syntax-Tree-Oberfläche (AST) zu.

Sie benötigen Python 3.10 oder neuer und für die produktive Extraktion einen NextPDF Connect-Endpunkt. Installieren Sie das SDK mit pip install nextpdf oder, für den Agenten-Server, mit pip install nextpdf[mcp].

SeiteGeeignet für
ÜberblickWas das SDK bietet, welche Backends zur Wahl stehen und welche Einschränkungen gelten.
SchnellstartSDK installieren und zitierten Text mit Herkunftsnachweis auf Seitenebene extrahieren.
API-ReferenzClients, AST-Methodenketten, Pydantic-Modelle, CLI-Befehle und Ausnahmen.
EntwicklerhandbuchArchitekturgrenze, Laufzeit-Lebenszyklus, asynchrones Batching und Fehlerbehandlung.
CLIZitationsbewusste Extraktion im Terminal ausführen und große Dokumente streamen.
MCP-ServerExtraktionstools für MCP-fähige KI-Agenten bereitstellen.
SymbolRolle
NextPDFSynchroner Client für Skripte, Batch-Jobs und Notebooks.
AsyncNextPDFAsynchroner Client und asynchroner Kontextmanager für asyncio-Laufzeiten.
client.ast.get_document_ast()Erzeugt den vollständigen Semantic AST aus PDF-Bytes.
client.ast.extract_cited_text()Extrahiert Textblöcke mit Zitationsankern.
client.ast.extract_cited_tables()Extrahiert Tabellen mit Zitationsankern auf Zellenebene.
client.ast.search_ast_nodes()Findet Knoten nach Typ, Seite oder Textabfrage.
client.ast.get_ast_diff()Vergleicht zwei PDF-Versionen strukturell.
nextpdfBefehlszeilenschnittstelle für die Extraktion im Terminal und in Pipelines.