Przejdź do głównej zawartości

Wyodrębnianie treści tekstowej za pomocą NextPDF Connect (Pro)

Użyj extract_text, aby wyodrębnić tekst z istniejącego pliku PDF na potrzeby indeksowania, analizy lub dalszego przetwarzania. Dostawca narzędzi Pro rejestruje new ExtractTextTool() pod nazwą protokołu extract_text, a ta strona dodatkowo weryfikuje to powiązanie. extract_text to narzędzie z poziomu Pro. Podczas uruchamiania serwer sprawdza jego dostępność za pomocą class_exists() i rejestruje je tylko po zainstalowaniu pakietu Pro. Możesz zażądać wyniku w postaci zwykłego tekstu, ograniczyć wyodrębnianie do zakresu stron albo uzyskać ustrukturyzowane dane wyjściowe podzielone na strony.

Okno terminala
composer require nextpdf/server
composer require nextpdf/pro

Powiąż transport. Zanim zaczniesz polegać na narzędziu, potwierdź jego dostępność za pomocą diagnostic.capabilities.

Proces wyodrębniania odczytuje operatory wyświetlające tekst ze strumienia treści w kolejności strumienia (ISO 32000-2 §9.4). Wynik odzwierciedla zakodowaną kolejność odczytu (ISO 32000-2 §9.10). W przypadku zeskanowanego pliku PDF bez warstwy tekstowej zwracane jest niewiele tekstu albo nie ma go wcale. Wynika to z pliku źródłowego, a nie z wady narzędzia. format: "plain" zwraca jeden ciąg znaków. format: "structured" zwraca obiekty dla poszczególnych stron z liczbą znaków. page_range ogranicza liczbę przetwarzanych stron.

NarzędziePoziomRolaPoziom ryzyka
extract_textProWyodrębnianie tekstu (zwykły / ustrukturyzowany / zakres)Bezpieczne
parse_pdfCore (sterowane zmienną środowiskową)Struktura niskiego poziomu (liczba stron, metadane)Bezpieczne

Nazwy narzędzi odpowiadają nazwom protokołów w rejestrze. Katalog narzędzi pełni rolę katalogu referencyjnego. Dostępność narzędzi zależy od zainstalowanego poziomu.

  1. extract_text z parametrem source (ścieżka możliwa do odczytania przez serwer) oraz format: "plain".
  2. extract_text z parametrem page_range: "1-3" dla podzbioru stron.
  3. extract_text z parametrem format: "structured", aby otrzymać dane wyjściowe podzielone na strony.

Użyj parse_pdf (lub wcześniejszego wywołania extract_text bez ograniczeń), aby uzyskać liczbę stron, zanim zażądasz konkretnego zakresu. W przypadku generowania wspomaganego wyszukiwaniem (RAG) lub indeksowania preferuj format: "structured", żeby każdą stronę można było niezależnie dzielić na fragmenty. W przypadku zaszyfrowanego źródła podaj parametr hasła. Liczba znaków oznacza liczbę punktów kodowych UTF-8, a nie bajtów.

  • Brak źródła. Nieprawidłowa ścieżka skutkuje błędem „nie znaleziono pliku”. Używaj ścieżek bezwzględnych, które serwer może odczytać.
  • Zeskanowany plik PDF. Bez warstwy tekstowej wyodrębnianie zwraca pusty lub prawie pusty tekst. Najpierw wykonaj optyczne rozpoznawanie znaków (OCR) na źródle.
  • Strona poza zakresem. Zakres wykraczający poza dokument jest odrzucany z informacją o rzeczywistej liczbie stron.
  • Zaszyfrowane źródło. Podaj parametr hasła.
  • Brak Pro. Przy użyciu samego Core extract_text nie jest rejestrowane. Sprawdź za pomocą diagnostic.capabilities.

Wyodrębnianie skaluje się wraz z rozmiarem dokumentu, a przewidziany budżet dopuszcza duże dane wejściowe. Każdy wytworzony artefakt ma profil structural, ponieważ narzędzie zwraca tekst, a nie plik PDF.

Wyodrębniony tekst może zawierać poufne treści. Traktuj wynik jako poufny i przekazuj go wyłącznie zaufanym kanałem. Narzędzie nie zapisuje danych w systemie plików. Odczytuje ścieżkę źródłową z uprawnieniami serwera, dlatego ogranicz, które ścieżki może przekazać wywołujący.

StwierdzenieSpecyfikacjaKlauzulareference_id
Tekst jest wyświetlany przez operatory wyświetlania tekstu w kolejności strumienia.ISO 32000-2§9.4
Wyodrębnianie odzwierciedla zakodowaną kolejność odczytu.ISO 32000-2§9.10

Ten przepis nie gwarantuje, że wyodrębniony tekst zachowa wierną logiczną kolejność odczytu w przypadku dokumentu bez tagów. Kolejność jest kolejnością zakodowaną.

extract_text to narzędzie z poziomu Pro, rejestrowane tylko wtedy, gdy pakiet Pro zostanie rozpoznany podczas uruchamiania serwera.

TransportDostępnyUwagi
MCP (stdio)Tak (Pro)Duża ilość tekstu zwiększa rozmiar ramki stdio.
RESTTak (Pro)Strumieniuj duże wyniki tam, gdzie jest to obsługiwane.
gRPCTak (Pro)Przy dużej ilości tekstu obowiązują limity rozmiaru wiadomości.

extract_text jest klasyfikowane jako Bezpieczne (tylko do odczytu, bez efektów ubocznych) i nigdy nie wymaga potwierdzenia.

Wyodrębnianie w trybie tylko do odczytu nigdy nie wymaga potwierdzenia:

{ "allowed": true }