Python SDK
In het kort
Sectie met titel “In het kort”Gebruik de NextPDF Python Software Development Kit (SDK) wanneer je Python-applicatie, asyncio-service, AI-agent of terminalworkflow PDF-extractie met herkomst nodig heeft. De SDK retourneert gestructureerde blokken met citatieankers: pagina-index, betrouwbaarheid, een optionele begrenzingsrechthoek en een semantische node-identifier. Je kunt elke geëxtraheerde waarde terugleiden naar de bronlocatie ervan.
Het pakket bevat een synchrone NextPDF-client voor scripts en notebooks, een asynchrone AsyncNextPDF-client voor asyncio-runtimes, een nextpdf command line-interface (CLI) voor streaming-extractie uit grote bestanden en een optionele Model Context Protocol (MCP)-server waarmee AI-agents extractietools rechtstreeks kunnen aanroepen. Alle vier de paden gebruiken hetzelfde Abstract Syntax Tree (AST)-oppervlak via een NextPDF Connect-endpoint.
Je hebt Python 3.10 of nieuwer nodig en, voor productie-extractie, een NextPDF Connect-endpoint. Installeer de SDK met pip install nextpdf. Gebruik pip install nextpdf[mcp] voor de agent-server.
Sectie-overzicht
Sectie met titel “Sectie-overzicht”| Pagina | Gebruik dit voor |
|---|---|
| Overzicht | Wat de SDK biedt, welke backend je kiest en waar de grenzen liggen. |
| Snelstart | Installeer de SDK en extraheer geciteerde tekst met herkomst op paginaniveau. |
| API-referentie | Clients, AST-methodeketens, Pydantic-modellen, CLI-commando’s en excepties. |
| Ontwikkelaarsgids | Architectuurgrenzen, runtime-levenscyclus, asynchrone batchverwerking en foutafhandeling. |
| CLI | Voer citatiebewuste extractie uit vanaf de terminal en stream grote documenten. |
| MCP-server | Stel extractietools beschikbaar aan AI-agents die MCP ondersteunen. |
Belangrijkste API’s
Sectie met titel “Belangrijkste API’s”| Symbool | Rol |
|---|---|
NextPDF | Synchrone client voor scripts, batchtaken en notebooks. |
AsyncNextPDF | Asynchrone client en async context manager voor asyncio-runtimes. |
client.ast.get_document_ast() | Bouwt de volledige Semantic AST vanuit PDF-bytes op. |
client.ast.extract_cited_text() | Extraheert tekstblokken met citatieankers. |
client.ast.extract_cited_tables() | Extraheert tabellen met citatieankers op celniveau. |
client.ast.search_ast_nodes() | Vindt nodes op basis van type, pagina of tekstquery. |
client.ast.get_ast_diff() | Vergelijkt twee PDF-versies structureel. |
nextpdf | Command line-interface voor extractie vanaf de terminal en in pipelines. |
Zie ook
Sectie met titel “Zie ook”- Python SDK-overzicht — mogelijkheden, backends en grenzen.
- Python SDK-snelstart — je eerste extractie.
- Python API-referentie — elk publiek symbool.