Salta ai contenuti

SDK Python

Usare il Software Development Kit (SDK) NextPDF per Python quando un’applicazione Python, un servizio asyncio, un agente IA o un flusso di lavoro da terminale richiede l’estrazione da PDF con informazioni di provenienza. L’SDK restituisce blocchi strutturati che includono ancoraggi di citazione — indice di pagina, livello di confidenza, riquadro di delimitazione opzionale e identificatore di nodo semantico — così che ogni valore estratto possa essere ricondotto alla posizione di origine.

Il pacchetto include un client sincrono NextPDF per script e notebook, un client asincrono AsyncNextPDF per runtime asyncio, un’interfaccia a riga di comando (CLI) nextpdf per l’estrazione in streaming da file di grandi dimensioni e un server Model Context Protocol (MCP) opzionale, così che gli agenti IA possano richiamare direttamente gli strumenti di estrazione. Tutti e quattro i percorsi operano sulla stessa superficie Abstract Syntax Tree (AST) tramite un endpoint NextPDF Connect.

Sono necessari Python 3.10 o versione successiva e, per l’estrazione in produzione, un endpoint NextPDF Connect. Installare l’SDK con pip install nextpdf oppure usare pip install nextpdf[mcp] per il server degli agenti.

PaginaQuando usarla
PanoramicaCosa offre l’SDK, le scelte di backend e le limitazioni.
Avvio rapidoInstallare l’SDK ed estrarre testo citato con provenienza a livello di pagina.
Riferimento APIClient, catene di metodi AST, modelli Pydantic, comandi CLI ed eccezioni.
Guida per gli sviluppatoriConfini dell’architettura, ciclo di vita del runtime, elaborazione batch asincrona e gestione degli errori.
CLIEseguire dal terminale l’estrazione con citazioni ed elaborare in streaming documenti di grandi dimensioni.
Server MCPEsporre gli strumenti di estrazione agli agenti IA compatibili con MCP.
SimboloRuolo
NextPDFClient sincrono per script, processi batch e notebook.
AsyncNextPDFClient asincrono e gestore di contesto asincrono per runtime asyncio.
client.ast.get_document_ast()Costruire l’AST semantico completo a partire dai byte del PDF.
client.ast.extract_cited_text()Estrarre blocchi di testo con ancoraggi di citazione.
client.ast.extract_cited_tables()Estrarre tabelle con ancoraggi di citazione a livello di cella.
client.ast.search_ast_nodes()Trovare nodi per tipo, pagina o query di testo.
client.ast.get_ast_diff()Confrontare la struttura di due versioni di un PDF.
nextpdfInterfaccia a riga di comando per l’estrazione da terminale e pipeline.