Estrarre contenuto testuale tramite NextPDF Connect (Pro)

In sintesi

Estrarre testo da un PDF esistente per indicizzazione, analisi o elaborazioni a valle. Lo strumento è extract_text. È stato verificato nuovamente rispetto al provider di strumenti Pro, che registra new ExtractTextTool() con il nome di protocollo extract_text. extract_text è uno strumento di livello Pro. Il server lo rileva con class_exists() all’avvio e lo registra solo quando il pacchetto Pro è installato. Supporta output semplice, intervalli di pagine e output strutturato segmentato per pagina.

Installazione

composer require nextpdf/server
composer require nextpdf/pro

Associare un trasporto. Confermare la disponibilità dello strumento con diagnostic.capabilities prima di farvi affidamento.

Panoramica concettuale

L’estrazione legge gli operatori di visualizzazione del testo nel flusso di contenuto secondo l’ordine del flusso (ISO 32000-2 §9.4). L’output riflette l’ordine di lettura codificato (ISO 32000-2 §9.10). Un PDF scansionato senza livello di testo produce poco testo o nessun testo. Questa è una proprietà dell’origine, non un difetto dello strumento. format: "plain" restituisce una singola stringa. format: "structured" restituisce oggetti per pagina con i conteggi dei caratteri. page_range limita le pagine elaborate.

Superficie API

Strumento	Livello	Ruolo	Livello di rischio
`extract_text`	Pro	Estrarre testo (semplice / strutturato / intervallo)	Sicuro
`parse_pdf`	Core (regolato da variabili d’ambiente)	Struttura di basso livello (numero di pagine, metadati)	Sicuro

I nomi degli strumenti corrispondono ai nomi di protocollo del registro. Il catalogo degli strumenti è il riferimento principale. Gli strumenti disponibili dipendono dal livello installato.

Esempio di codice — Avvio rapido

extract_text con source (un percorso leggibile dal server) e format: "plain".
extract_text con page_range: "1-3" per un sottoinsieme.
extract_text con format: "structured" per output segmentato per pagina.

Esempio di codice — Produzione

Usare parse_pdf (o un precedente extract_text senza limiti) per conoscere il numero di pagine prima di richiedere un intervallo. Per RAG/indicizzazione, preferire format: "structured" così che ogni pagina venga suddivisa in blocchi in modo indipendente. Per un’origine cifrata, fornire il parametro password. I conteggi dei caratteri sono conteggi di code point UTF-8, non di byte.

Casi limite e insidie

Origine mancante. Un percorso errato restituisce un errore file-not-found. Usare percorsi assoluti leggibili dal server.
PDF scansionato. L’assenza di un livello di testo comporta testo vuoto o quasi vuoto. Eseguire prima l’OCR sull’origine.
Pagina fuori intervallo. Un intervallo oltre i limiti del documento viene rifiutato con il numero effettivo di pagine.
Origine cifrata. Fornire il parametro password.
Pro assente. Con il solo Core, extract_text non è registrato. Sondare con diagnostic.capabilities.

Prestazioni

L’estrazione scala in base alla dimensione del documento e il budget consente input di grandi dimensioni. Il profilo è structural per qualsiasi artefatto prodotto, poiché questo strumento restituisce testo, non un PDF.

Note sulla sicurezza

Il testo estratto può contenere contenuti sensibili. Trattare il risultato come riservato e restituirlo solo tramite un canale attendibile. Lo strumento non esegue scritture sul filesystem. Legge soltanto il percorso di origine con i privilegi del server; quindi limitare i percorsi che un chiamante può passare.

Conformità

Affermazione	Specifica	Clausola	reference_id
Il testo è visualizzato dagli operatori di testo nell’ordine del flusso.	ISO 32000-2	§9.4
L’estrazione riflette l’ordine di lettura codificato.	ISO 32000-2	§9.10

Questa ricetta non afferma che il testo estratto rappresenti un ordine di lettura logico fedele per un documento privo di tag. L’ordine è quello codificato.

Contesto commerciale

extract_text è uno strumento di livello Pro, registrato solo quando il pacchetto Pro viene risolto all’avvio del server.

Disponibilità del trasporto

Trasporto	Disponibile	Note
MCP (stdio)	Sì (Pro)	Testi di grandi dimensioni aumentano il frame stdio.
REST	Sì (Pro)	Trasmettere in streaming i risultati di grandi dimensioni dove supportato.
gRPC	Sì (Pro)	Ai testi di grandi dimensioni si applicano i limiti sulla dimensione dei messaggi.

Livello di rischio HITL

extract_text è Sicuro (di sola lettura, senza effetti collaterali) e non richiede mai un gate.

Envelope JSON del gate di conferma

L’estrazione di sola lettura non richiede mai un gate:

{ "allowed": true }