İçeriğe geç

NextPDF Connect (Pro) ile metin içeriği çıkarma

Dizinleme, analiz veya sonraki işlemler için mevcut bir PDF’den metin çıkarmak üzere extract_text aracını kullanın. Pro araç sağlayıcısı, new ExtractTextTool() örneğini extract_text protokol adıyla kaydeder ve bu sayfa söz konusu bağlamayı yeniden doğrular. extract_text bir Pro katmanı aracıdır. Sunucu, başlatma sırasında bu aracı class_exists() ile yoklar ve yalnızca Pro paketi kurulu olduğunda kaydeder. Düz çıktı, bir sayfa aralığı veya sayfa bazında bölümlenmiş yapılandırılmış çıktı isteyebilirsiniz.

Terminal window
composer require nextpdf/server
composer require nextpdf/pro

Bir taşıma katmanı bağlayın. Aracı kullanmadan önce, kullanılabilir olduğunu diagnostic.capabilities ile doğrulayın.

Metin çıkarma işlemi, metni gösteren işleçleri içerik akışındaki sırayla okur (ISO 32000-2 §9.4). Çıktı, kodlanmış okuma sırasını yansıtır (ISO 32000-2 §9.10). Metin katmanı bulunmayan, taranmış bir PDF çok az metin döndürür ya da hiç döndürmez. Bu durum, araçtaki bir kusuru değil kaynak dosyanın durumunu yansıtır. format: "plain" tek bir dize döndürür. format: "structured" karakter sayılarını içeren, her sayfaya ait nesneler döndürür. page_range işlenen sayfaları sınırlandırır.

AraçKatmanRolRisk katmanı
extract_textProMetin çıkar (düz / yapılandırılmış / aralık)Güvenli
parse_pdfCore (ortam değişkeniyle kapılı)Alt düzey yapı (sayfa sayısı, meta veri)Güvenli

Araç adları, kayıt defterindeki protokol adlarıdır. Araç kataloğu, temel alınan katalogdur. Kullanılabilir araçlar, kurulu katmana bağlıdır.

  1. extract_text’i source (sunucunun okuyabileceği bir yol) ve format: "plain" ile kullanın.
  2. extract_text’i bir alt küme için page_range: "1-3" ile kullanın.
  3. extract_text’i sayfa bazında bölümlenmiş çıktı için format: "structured" ile kullanın.

Bir aralık istemeden önce sayfa sayısını almak için parse_pdf (veya daha önce çalıştırılmış, sınırlandırılmamış bir extract_text) kullanın. Erişimle güçlendirilmiş üretim (RAG) veya dizinleme için, her sayfanın bağımsız olarak parçalara ayrılabilmesi amacıyla format: "structured" seçeneğini tercih edin. Şifrelenmiş bir kaynak için password parametresini sağlayın. Karakter sayıları, bayt değil UTF-8 kod noktası sayılarıdır.

Sınır durumlar ve dikkat edilmesi gereken noktalar

“Sınır durumlar ve dikkat edilmesi gereken noktalar” başlıklı bölüm
  • Kaynak eksik. Hatalı bir yol, dosya bulunamadı hatası döndürür. Sunucunun okuyabileceği mutlak yollar kullanın.
  • Taranmış PDF. Metin katmanı olmadığında, çıkarma işlemi boş ya da neredeyse boş metin döndürür. Önce kaynak üzerinde optik karakter tanıma (OCR) çalıştırın.
  • Aralık dışı sayfa. Belgedeki sayfa sayısını aşan bir aralık, gerçek sayfa sayısıyla birlikte reddedilir.
  • Şifrelenmiş kaynak. password parametresini sağlayın.
  • Pro yok. Yalnızca Core kullanıldığında extract_text kaydedilmez. diagnostic.capabilities ile yoklayın.

Çıkarma işlemi belge boyutuyla ölçeklenir ve bütçe büyük girdilere izin verir. Bu araç bir PDF değil metin döndürdüğünden, üretilen her yapıt için profil structural olur.

Çıkarılan metin hassas içerik barındırabilir. Sonucu gizli kabul edin ve yalnızca güvenilir bir kanal üzerinden döndürün. Aracın dosya sistemine yazma yetkisi yoktur. Araç, kaynak yolunu sunucunun ayrıcalıklarıyla okuduğundan, bir çağıranın hangi yolları iletebileceğini kısıtlayın.

BeyanBelirtimMaddereference_id
Metin, içerik akışı sırasındaki metin işleçleri tarafından gösterilir.ISO 32000-2§9.4
Çıkarma işlemi, kodlanmış okuma sırasını yansıtır.ISO 32000-2§9.10

Bu tarif, çıkarılan metnin etiketlenmemiş bir belge için mantıksal okuma sırasını sadık biçimde koruduğunu öne sürmez. Sıra, kodlanmış sıradır.

extract_text, yalnızca sunucu başlatılırken Pro paketi çözümlenebildiğinde kaydedilen bir Pro katmanı aracıdır.

Taşıma katmanıKullanılabilirNotlar
MCP (stdio)Evet (Pro)Büyük metin, stdio çerçevesini büyütür.
RESTEvet (Pro)Desteklendiği yerlerde büyük sonuçları akışla iletin.
gRPCEvet (Pro)Büyük metne mesaj boyutu sınırları uygulanır.

extract_text Güvenli’dir (salt okunur, yan etkisiz) ve hiçbir zaman onay kapısı uygulamaz.

Salt okunur çıkarma işlemi hiçbir zaman onay kapısı uygulamaz:

{ "allowed": true }