SDK Python
In breve
Sezione intitolata “In breve”Usare il Software Development Kit (SDK) NextPDF per Python quando un’applicazione Python, un servizio asyncio, un agente IA o un flusso di lavoro da terminale richiede l’estrazione da PDF con informazioni di provenienza. L’SDK restituisce blocchi strutturati che includono ancoraggi di citazione — indice di pagina, livello di confidenza, riquadro di delimitazione opzionale e identificatore di nodo semantico — così che ogni valore estratto possa essere ricondotto alla posizione di origine.
Il pacchetto include un client sincrono NextPDF per script e notebook, un client asincrono AsyncNextPDF per runtime asyncio, un’interfaccia a riga di comando (CLI) nextpdf per l’estrazione in streaming da file di grandi dimensioni e un server Model Context Protocol (MCP) opzionale, così che gli agenti IA possano richiamare direttamente gli strumenti di estrazione. Tutti e quattro i percorsi operano sulla stessa superficie Abstract Syntax Tree (AST) tramite un endpoint NextPDF Connect.
Sono necessari Python 3.10 o versione successiva e, per l’estrazione in produzione, un endpoint NextPDF Connect. Installare l’SDK con pip install nextpdf oppure usare pip install nextpdf[mcp] per il server degli agenti.
Mappa delle sezioni
Sezione intitolata “Mappa delle sezioni”| Pagina | Quando usarla |
|---|---|
| Panoramica | Cosa offre l’SDK, le scelte di backend e le limitazioni. |
| Avvio rapido | Installare l’SDK ed estrarre testo citato con provenienza a livello di pagina. |
| Riferimento API | Client, catene di metodi AST, modelli Pydantic, comandi CLI ed eccezioni. |
| Guida per gli sviluppatori | Confini dell’architettura, ciclo di vita del runtime, elaborazione batch asincrona e gestione degli errori. |
| CLI | Eseguire dal terminale l’estrazione con citazioni ed elaborare in streaming documenti di grandi dimensioni. |
| Server MCP | Esporre gli strumenti di estrazione agli agenti IA compatibili con MCP. |
API principali
Sezione intitolata “API principali”| Simbolo | Ruolo |
|---|---|
NextPDF | Client sincrono per script, processi batch e notebook. |
AsyncNextPDF | Client asincrono e gestore di contesto asincrono per runtime asyncio. |
client.ast.get_document_ast() | Costruire l’AST semantico completo a partire dai byte del PDF. |
client.ast.extract_cited_text() | Estrarre blocchi di testo con ancoraggi di citazione. |
client.ast.extract_cited_tables() | Estrarre tabelle con ancoraggi di citazione a livello di cella. |
client.ast.search_ast_nodes() | Trovare nodi per tipo, pagina o query di testo. |
client.ast.get_ast_diff() | Confrontare la struttura di due versioni di un PDF. |
nextpdf | Interfaccia a riga di comando per l’estrazione da terminale e pipeline. |
Vedere anche
Sezione intitolata “Vedere anche”- Panoramica dell’SDK Python — funzionalità, backend e limiti.
- Avvio rapido dell’SDK Python — la prima estrazione.
- Riferimento API Python — ogni simbolo pubblico.