Python-SDK
Auf einen Blick
Abschnitt betitelt „Auf einen Blick“Verwenden Sie das NextPDF Python Software Development Kit (SDK), wenn eine Python-Anwendung, ein asyncio-Dienst, ein KI-Agent oder ein Terminal-Workflow PDF-Extraktion mit Herkunftsnachweis benötigt. Das SDK liefert strukturierte Blöcke mit Zitationsankern – Seitenindex, Konfidenz, optionales Bounding-Box-Rechteck und eine semantische Knotenkennung –, sodass sich jeder extrahierte Wert bis zu seinem Ursprungsort zurückverfolgen lässt.
Das Paket enthält einen synchronen NextPDF-Client für Skripte und Notebooks, einen asynchronen AsyncNextPDF-Client für asyncio-Laufzeiten, eine nextpdf-Befehlszeilenschnittstelle (CLI) für die Streaming-Extraktion aus großen Dateien sowie einen optionalen Model Context Protocol-Server (MCP), über den KI-Agenten Extraktionstools direkt aufrufen können. Alle vier Zugriffswege greifen über einen NextPDF Connect-Endpunkt auf dieselbe Abstract-Syntax-Tree-Oberfläche (AST) zu.
Sie benötigen Python 3.10 oder neuer und für die produktive Extraktion einen NextPDF Connect-Endpunkt. Installieren Sie das SDK mit pip install nextpdf oder, für den Agenten-Server, mit pip install nextpdf[mcp].
Abschnittsübersicht
Abschnitt betitelt „Abschnittsübersicht“| Seite | Geeignet für |
|---|---|
| Überblick | Was das SDK bietet, welche Backends zur Wahl stehen und welche Einschränkungen gelten. |
| Schnellstart | SDK installieren und zitierten Text mit Herkunftsnachweis auf Seitenebene extrahieren. |
| API-Referenz | Clients, AST-Methodenketten, Pydantic-Modelle, CLI-Befehle und Ausnahmen. |
| Entwicklerhandbuch | Architekturgrenze, Laufzeit-Lebenszyklus, asynchrones Batching und Fehlerbehandlung. |
| CLI | Zitationsbewusste Extraktion im Terminal ausführen und große Dokumente streamen. |
| MCP-Server | Extraktionstools für MCP-fähige KI-Agenten bereitstellen. |
Primäre APIs
Abschnitt betitelt „Primäre APIs“| Symbol | Rolle |
|---|---|
NextPDF | Synchroner Client für Skripte, Batch-Jobs und Notebooks. |
AsyncNextPDF | Asynchroner Client und asynchroner Kontextmanager für asyncio-Laufzeiten. |
client.ast.get_document_ast() | Erzeugt den vollständigen Semantic AST aus PDF-Bytes. |
client.ast.extract_cited_text() | Extrahiert Textblöcke mit Zitationsankern. |
client.ast.extract_cited_tables() | Extrahiert Tabellen mit Zitationsankern auf Zellenebene. |
client.ast.search_ast_nodes() | Findet Knoten nach Typ, Seite oder Textabfrage. |
client.ast.get_ast_diff() | Vergleicht zwei PDF-Versionen strukturell. |
nextpdf | Befehlszeilenschnittstelle für die Extraktion im Terminal und in Pipelines. |
Siehe auch
Abschnitt betitelt „Siehe auch“- Python-SDK-Überblick – Funktionen, Backends und Grenzen.
- Python-SDK-Schnellstart – Ihre erste Extraktion.
- Python-API-Referenz – alle öffentlichen Symbole.