Python-SDK

Auf einen Blick

Verwenden Sie das NextPDF Python Software Development Kit (SDK), wenn eine Python-Anwendung, ein asyncio-Dienst, ein KI-Agent oder ein Terminal-Workflow PDF-Extraktion mit Herkunftsnachweis benötigt. Das SDK liefert strukturierte Blöcke mit Zitationsankern – Seitenindex, Konfidenz, optionales Bounding-Box-Rechteck und eine semantische Knotenkennung –, sodass sich jeder extrahierte Wert bis zu seinem Ursprungsort zurückverfolgen lässt.

Das Paket enthält einen synchronen NextPDF-Client für Skripte und Notebooks, einen asynchronen AsyncNextPDF-Client für asyncio-Laufzeiten, eine nextpdf-Befehlszeilenschnittstelle (CLI) für die Streaming-Extraktion aus großen Dateien sowie einen optionalen Model Context Protocol-Server (MCP), über den KI-Agenten Extraktionstools direkt aufrufen können. Alle vier Zugriffswege greifen über einen NextPDF Connect-Endpunkt auf dieselbe Abstract-Syntax-Tree-Oberfläche (AST) zu.

Sie benötigen Python 3.10 oder neuer und für die produktive Extraktion einen NextPDF Connect-Endpunkt. Installieren Sie das SDK mit pip install nextpdf oder, für den Agenten-Server, mit pip install nextpdf[mcp].

Abschnittsübersicht

Seite	Geeignet für
Überblick	Was das SDK bietet, welche Backends zur Wahl stehen und welche Einschränkungen gelten.
Schnellstart	SDK installieren und zitierten Text mit Herkunftsnachweis auf Seitenebene extrahieren.
API-Referenz	Clients, AST-Methodenketten, Pydantic-Modelle, CLI-Befehle und Ausnahmen.
Entwicklerhandbuch	Architekturgrenze, Laufzeit-Lebenszyklus, asynchrones Batching und Fehlerbehandlung.
CLI	Zitationsbewusste Extraktion im Terminal ausführen und große Dokumente streamen.
MCP-Server	Extraktionstools für MCP-fähige KI-Agenten bereitstellen.

Primäre APIs

Symbol	Rolle
`NextPDF`	Synchroner Client für Skripte, Batch-Jobs und Notebooks.
`AsyncNextPDF`	Asynchroner Client und asynchroner Kontextmanager für asyncio-Laufzeiten.
`client.ast.get_document_ast()`	Erzeugt den vollständigen Semantic AST aus PDF-Bytes.
`client.ast.extract_cited_text()`	Extrahiert Textblöcke mit Zitationsankern.
`client.ast.extract_cited_tables()`	Extrahiert Tabellen mit Zitationsankern auf Zellenebene.
`client.ast.search_ast_nodes()`	Findet Knoten nach Typ, Seite oder Textabfrage.
`client.ast.get_ast_diff()`	Vergleicht zwei PDF-Versionen strukturell.
`nextpdf`	Befehlszeilenschnittstelle für die Extraktion im Terminal und in Pipelines.

Siehe auch

Python-SDK-Überblick – Funktionen, Backends und Grenzen.
Python-SDK-Schnellstart – Ihre erste Extraktion.
Python-API-Referenz – alle öffentlichen Symbole.