SDK Python

In breve

Usare il Software Development Kit (SDK) NextPDF per Python quando un’applicazione Python, un servizio asyncio, un agente IA o un flusso di lavoro da terminale richiede l’estrazione da PDF con informazioni di provenienza. L’SDK restituisce blocchi strutturati che includono ancoraggi di citazione — indice di pagina, livello di confidenza, riquadro di delimitazione opzionale e identificatore di nodo semantico — così che ogni valore estratto possa essere ricondotto alla posizione di origine.

Il pacchetto include un client sincrono NextPDF per script e notebook, un client asincrono AsyncNextPDF per runtime asyncio, un’interfaccia a riga di comando (CLI) nextpdf per l’estrazione in streaming da file di grandi dimensioni e un server Model Context Protocol (MCP) opzionale, così che gli agenti IA possano richiamare direttamente gli strumenti di estrazione. Tutti e quattro i percorsi operano sulla stessa superficie Abstract Syntax Tree (AST) tramite un endpoint NextPDF Connect.

Sono necessari Python 3.10 o versione successiva e, per l’estrazione in produzione, un endpoint NextPDF Connect. Installare l’SDK con pip install nextpdf oppure usare pip install nextpdf[mcp] per il server degli agenti.

Mappa delle sezioni

Pagina	Quando usarla
Panoramica	Cosa offre l’SDK, le scelte di backend e le limitazioni.
Avvio rapido	Installare l’SDK ed estrarre testo citato con provenienza a livello di pagina.
Riferimento API	Client, catene di metodi AST, modelli Pydantic, comandi CLI ed eccezioni.
Guida per gli sviluppatori	Confini dell’architettura, ciclo di vita del runtime, elaborazione batch asincrona e gestione degli errori.
CLI	Eseguire dal terminale l’estrazione con citazioni ed elaborare in streaming documenti di grandi dimensioni.
Server MCP	Esporre gli strumenti di estrazione agli agenti IA compatibili con MCP.

API principali

Simbolo	Ruolo
`NextPDF`	Client sincrono per script, processi batch e notebook.
`AsyncNextPDF`	Client asincrono e gestore di contesto asincrono per runtime asyncio.
`client.ast.get_document_ast()`	Costruire l’AST semantico completo a partire dai byte del PDF.
`client.ast.extract_cited_text()`	Estrarre blocchi di testo con ancoraggi di citazione.
`client.ast.extract_cited_tables()`	Estrarre tabelle con ancoraggi di citazione a livello di cella.
`client.ast.search_ast_nodes()`	Trovare nodi per tipo, pagina o query di testo.
`client.ast.get_ast_diff()`	Confrontare la struttura di due versioni di un PDF.
`nextpdf`	Interfaccia a riga di comando per l’estrazione da terminale e pipeline.

Vedere anche

Panoramica dell’SDK Python — funzionalità, backend e limiti.
Avvio rapido dell’SDK Python — la prima estrazione.
Riferimento API Python — ogni simbolo pubblico.