Ga naar inhoud

Python SDK

Gebruik de NextPDF Python Software Development Kit (SDK) wanneer je Python-applicatie, asyncio-service, AI-agent of terminalworkflow PDF-extractie met herkomst nodig heeft. De SDK retourneert gestructureerde blokken met citatieankers: pagina-index, betrouwbaarheid, een optionele begrenzingsrechthoek en een semantische node-identifier. Je kunt elke geëxtraheerde waarde terugleiden naar de bronlocatie ervan.

Het pakket bevat een synchrone NextPDF-client voor scripts en notebooks, een asynchrone AsyncNextPDF-client voor asyncio-runtimes, een nextpdf command line-interface (CLI) voor streaming-extractie uit grote bestanden en een optionele Model Context Protocol (MCP)-server waarmee AI-agents extractietools rechtstreeks kunnen aanroepen. Alle vier de paden gebruiken hetzelfde Abstract Syntax Tree (AST)-oppervlak via een NextPDF Connect-endpoint.

Je hebt Python 3.10 of nieuwer nodig en, voor productie-extractie, een NextPDF Connect-endpoint. Installeer de SDK met pip install nextpdf. Gebruik pip install nextpdf[mcp] voor de agent-server.

PaginaGebruik dit voor
OverzichtWat de SDK biedt, welke backend je kiest en waar de grenzen liggen.
SnelstartInstalleer de SDK en extraheer geciteerde tekst met herkomst op paginaniveau.
API-referentieClients, AST-methodeketens, Pydantic-modellen, CLI-commando’s en excepties.
OntwikkelaarsgidsArchitectuurgrenzen, runtime-levenscyclus, asynchrone batchverwerking en foutafhandeling.
CLIVoer citatiebewuste extractie uit vanaf de terminal en stream grote documenten.
MCP-serverStel extractietools beschikbaar aan AI-agents die MCP ondersteunen.
SymboolRol
NextPDFSynchrone client voor scripts, batchtaken en notebooks.
AsyncNextPDFAsynchrone client en async context manager voor asyncio-runtimes.
client.ast.get_document_ast()Bouwt de volledige Semantic AST vanuit PDF-bytes op.
client.ast.extract_cited_text()Extraheert tekstblokken met citatieankers.
client.ast.extract_cited_tables()Extraheert tabellen met citatieankers op celniveau.
client.ast.search_ast_nodes()Vindt nodes op basis van type, pagina of tekstquery.
client.ast.get_ast_diff()Vergelijkt twee PDF-versies structureel.
nextpdfCommand line-interface voor extractie vanaf de terminal en in pipelines.