Estrarre contenuto testuale tramite NextPDF Connect (Pro)
In sintesi
Sezione intitolata “In sintesi”Estrarre testo da un PDF esistente per indicizzazione, analisi o elaborazioni a valle. Lo strumento è extract_text. È stato verificato nuovamente rispetto al provider di strumenti Pro, che registra new ExtractTextTool() con il nome di protocollo extract_text. extract_text è uno strumento di livello Pro. Il server lo rileva con class_exists() all’avvio e lo registra solo quando il pacchetto Pro è installato. Supporta output semplice, intervalli di pagine e output strutturato segmentato per pagina.
Installazione
Sezione intitolata “Installazione”composer require nextpdf/servercomposer require nextpdf/proAssociare un trasporto. Confermare la disponibilità dello strumento con diagnostic.capabilities prima di farvi affidamento.
Panoramica concettuale
Sezione intitolata “Panoramica concettuale”L’estrazione legge gli operatori di visualizzazione del testo nel flusso di contenuto secondo l’ordine del flusso (ISO 32000-2 §9.4). L’output riflette l’ordine di lettura codificato (ISO 32000-2 §9.10). Un PDF scansionato senza livello di testo produce poco testo o nessun testo. Questa è una proprietà dell’origine, non un difetto dello strumento. format: "plain" restituisce una singola stringa. format: "structured" restituisce oggetti per pagina con i conteggi dei caratteri. page_range limita le pagine elaborate.
Superficie API
Sezione intitolata “Superficie API”| Strumento | Livello | Ruolo | Livello di rischio |
|---|---|---|---|
extract_text | Pro | Estrarre testo (semplice / strutturato / intervallo) | Sicuro |
parse_pdf | Core (regolato da variabili d’ambiente) | Struttura di basso livello (numero di pagine, metadati) | Sicuro |
I nomi degli strumenti corrispondono ai nomi di protocollo del registro. Il catalogo degli strumenti è il riferimento principale. Gli strumenti disponibili dipendono dal livello installato.
Esempio di codice — Avvio rapido
Sezione intitolata “Esempio di codice — Avvio rapido”extract_textconsource(un percorso leggibile dal server) eformat: "plain".extract_textconpage_range: "1-3"per un sottoinsieme.extract_textconformat: "structured"per output segmentato per pagina.
Esempio di codice — Produzione
Sezione intitolata “Esempio di codice — Produzione”Usare parse_pdf (o un precedente extract_text senza limiti) per conoscere il numero di pagine prima di richiedere un intervallo. Per RAG/indicizzazione, preferire format: "structured" così che ogni pagina venga suddivisa in blocchi in modo indipendente. Per un’origine cifrata, fornire il parametro password. I conteggi dei caratteri sono conteggi di code point UTF-8, non di byte.
Casi limite e insidie
Sezione intitolata “Casi limite e insidie”- Origine mancante. Un percorso errato restituisce un errore file-not-found. Usare percorsi assoluti leggibili dal server.
- PDF scansionato. L’assenza di un livello di testo comporta testo vuoto o quasi vuoto. Eseguire prima l’OCR sull’origine.
- Pagina fuori intervallo. Un intervallo oltre i limiti del documento viene rifiutato con il numero effettivo di pagine.
- Origine cifrata. Fornire il parametro password.
- Pro assente. Con il solo Core,
extract_textnon è registrato. Sondare condiagnostic.capabilities.
Prestazioni
Sezione intitolata “Prestazioni”L’estrazione scala in base alla dimensione del documento e il budget consente input di grandi dimensioni. Il profilo è structural per qualsiasi artefatto prodotto, poiché questo strumento restituisce testo, non un PDF.
Note sulla sicurezza
Sezione intitolata “Note sulla sicurezza”Il testo estratto può contenere contenuti sensibili. Trattare il risultato come riservato e restituirlo solo tramite un canale attendibile. Lo strumento non esegue scritture sul filesystem. Legge soltanto il percorso di origine con i privilegi del server; quindi limitare i percorsi che un chiamante può passare.
Conformità
Sezione intitolata “Conformità”| Affermazione | Specifica | Clausola | reference_id |
|---|---|---|---|
| Il testo è visualizzato dagli operatori di testo nell’ordine del flusso. | ISO 32000-2 | §9.4 | |
| L’estrazione riflette l’ordine di lettura codificato. | ISO 32000-2 | §9.10 |
Questa ricetta non afferma che il testo estratto rappresenti un ordine di lettura logico fedele per un documento privo di tag. L’ordine è quello codificato.
Contesto commerciale
Sezione intitolata “Contesto commerciale”extract_text è uno strumento di livello Pro, registrato solo quando il pacchetto Pro viene risolto all’avvio del server.
Disponibilità del trasporto
Sezione intitolata “Disponibilità del trasporto”| Trasporto | Disponibile | Note |
|---|---|---|
| MCP (stdio) | Sì (Pro) | Testi di grandi dimensioni aumentano il frame stdio. |
| REST | Sì (Pro) | Trasmettere in streaming i risultati di grandi dimensioni dove supportato. |
| gRPC | Sì (Pro) | Ai testi di grandi dimensioni si applicano i limiti sulla dimensione dei messaggi. |
Livello di rischio HITL
Sezione intitolata “Livello di rischio HITL”extract_text è Sicuro (di sola lettura, senza effetti collaterali) e non richiede mai un gate.
Envelope JSON del gate di conferma
Sezione intitolata “Envelope JSON del gate di conferma”L’estrazione di sola lettura non richiede mai un gate:
{ "allowed": true }