Salta ai contenuti

Estrarre contenuto testuale tramite NextPDF Connect (Pro)

Estrarre testo da un PDF esistente per indicizzazione, analisi o elaborazioni a valle. Lo strumento è extract_text. È stato verificato nuovamente rispetto al provider di strumenti Pro, che registra new ExtractTextTool() con il nome di protocollo extract_text. extract_text è uno strumento di livello Pro. Il server lo rileva con class_exists() all’avvio e lo registra solo quando il pacchetto Pro è installato. Supporta output semplice, intervalli di pagine e output strutturato segmentato per pagina.

Terminal window
composer require nextpdf/server
composer require nextpdf/pro

Associare un trasporto. Confermare la disponibilità dello strumento con diagnostic.capabilities prima di farvi affidamento.

L’estrazione legge gli operatori di visualizzazione del testo nel flusso di contenuto secondo l’ordine del flusso (ISO 32000-2 §9.4). L’output riflette l’ordine di lettura codificato (ISO 32000-2 §9.10). Un PDF scansionato senza livello di testo produce poco testo o nessun testo. Questa è una proprietà dell’origine, non un difetto dello strumento. format: "plain" restituisce una singola stringa. format: "structured" restituisce oggetti per pagina con i conteggi dei caratteri. page_range limita le pagine elaborate.

StrumentoLivelloRuoloLivello di rischio
extract_textProEstrarre testo (semplice / strutturato / intervallo)Sicuro
parse_pdfCore (regolato da variabili d’ambiente)Struttura di basso livello (numero di pagine, metadati)Sicuro

I nomi degli strumenti corrispondono ai nomi di protocollo del registro. Il catalogo degli strumenti è il riferimento principale. Gli strumenti disponibili dipendono dal livello installato.

  1. extract_text con source (un percorso leggibile dal server) e format: "plain".
  2. extract_text con page_range: "1-3" per un sottoinsieme.
  3. extract_text con format: "structured" per output segmentato per pagina.

Usare parse_pdf (o un precedente extract_text senza limiti) per conoscere il numero di pagine prima di richiedere un intervallo. Per RAG/indicizzazione, preferire format: "structured" così che ogni pagina venga suddivisa in blocchi in modo indipendente. Per un’origine cifrata, fornire il parametro password. I conteggi dei caratteri sono conteggi di code point UTF-8, non di byte.

  • Origine mancante. Un percorso errato restituisce un errore file-not-found. Usare percorsi assoluti leggibili dal server.
  • PDF scansionato. L’assenza di un livello di testo comporta testo vuoto o quasi vuoto. Eseguire prima l’OCR sull’origine.
  • Pagina fuori intervallo. Un intervallo oltre i limiti del documento viene rifiutato con il numero effettivo di pagine.
  • Origine cifrata. Fornire il parametro password.
  • Pro assente. Con il solo Core, extract_text non è registrato. Sondare con diagnostic.capabilities.

L’estrazione scala in base alla dimensione del documento e il budget consente input di grandi dimensioni. Il profilo è structural per qualsiasi artefatto prodotto, poiché questo strumento restituisce testo, non un PDF.

Il testo estratto può contenere contenuti sensibili. Trattare il risultato come riservato e restituirlo solo tramite un canale attendibile. Lo strumento non esegue scritture sul filesystem. Legge soltanto il percorso di origine con i privilegi del server; quindi limitare i percorsi che un chiamante può passare.

AffermazioneSpecificaClausolareference_id
Il testo è visualizzato dagli operatori di testo nell’ordine del flusso.ISO 32000-2§9.4
L’estrazione riflette l’ordine di lettura codificato.ISO 32000-2§9.10

Questa ricetta non afferma che il testo estratto rappresenti un ordine di lettura logico fedele per un documento privo di tag. L’ordine è quello codificato.

extract_text è uno strumento di livello Pro, registrato solo quando il pacchetto Pro viene risolto all’avvio del server.

TrasportoDisponibileNote
MCP (stdio)Sì (Pro)Testi di grandi dimensioni aumentano il frame stdio.
RESTSì (Pro)Trasmettere in streaming i risultati di grandi dimensioni dove supportato.
gRPCSì (Pro)Ai testi di grandi dimensioni si applicano i limiti sulla dimensione dei messaggi.

extract_text è Sicuro (di sola lettura, senza effetti collaterali) e non richiede mai un gate.

L’estrazione di sola lettura non richiede mai un gate:

{ "allowed": true }