NextPDF Connect (Pro) ile metin içeriği çıkarma
Bir bakışta
“Bir bakışta” başlıklı bölümDizinleme, analiz veya sonraki işlemler için mevcut bir PDF’den metin çıkarmak üzere extract_text aracını kullanın. Pro araç sağlayıcısı, new ExtractTextTool() örneğini extract_text protokol adıyla kaydeder ve bu sayfa söz konusu bağlamayı yeniden doğrular. extract_text bir Pro katmanı aracıdır. Sunucu, başlatma sırasında bu aracı class_exists() ile yoklar ve yalnızca Pro paketi kurulu olduğunda kaydeder. Düz çıktı, bir sayfa aralığı veya sayfa bazında bölümlenmiş yapılandırılmış çıktı isteyebilirsiniz.
Kurulum
“Kurulum” başlıklı bölümcomposer require nextpdf/servercomposer require nextpdf/proBir taşıma katmanı bağlayın. Aracı kullanmadan önce, kullanılabilir olduğunu diagnostic.capabilities ile doğrulayın.
Kavramsal genel bakış
“Kavramsal genel bakış” başlıklı bölümMetin çıkarma işlemi, metni gösteren işleçleri içerik akışındaki sırayla okur (ISO 32000-2 §9.4). Çıktı, kodlanmış okuma sırasını yansıtır (ISO 32000-2 §9.10). Metin katmanı bulunmayan, taranmış bir PDF çok az metin döndürür ya da hiç döndürmez. Bu durum, araçtaki bir kusuru değil kaynak dosyanın durumunu yansıtır. format: "plain" tek bir dize döndürür. format: "structured" karakter sayılarını içeren, her sayfaya ait nesneler döndürür. page_range işlenen sayfaları sınırlandırır.
API yüzeyi
“API yüzeyi” başlıklı bölüm| Araç | Katman | Rol | Risk katmanı |
|---|---|---|---|
extract_text | Pro | Metin çıkar (düz / yapılandırılmış / aralık) | Güvenli |
parse_pdf | Core (ortam değişkeniyle kapılı) | Alt düzey yapı (sayfa sayısı, meta veri) | Güvenli |
Araç adları, kayıt defterindeki protokol adlarıdır. Araç kataloğu, temel alınan katalogdur. Kullanılabilir araçlar, kurulu katmana bağlıdır.
Kod örneği — Hızlı başlangıç
“Kod örneği — Hızlı başlangıç” başlıklı bölümextract_text’isource(sunucunun okuyabileceği bir yol) veformat: "plain"ile kullanın.extract_text’i bir alt küme içinpage_range: "1-3"ile kullanın.extract_text’i sayfa bazında bölümlenmiş çıktı içinformat: "structured"ile kullanın.
Kod örneği — Üretim
“Kod örneği — Üretim” başlıklı bölümBir aralık istemeden önce sayfa sayısını almak için parse_pdf (veya daha önce çalıştırılmış, sınırlandırılmamış bir extract_text) kullanın. Erişimle güçlendirilmiş üretim (RAG) veya dizinleme için, her sayfanın bağımsız olarak parçalara ayrılabilmesi amacıyla format: "structured" seçeneğini tercih edin. Şifrelenmiş bir kaynak için password parametresini sağlayın. Karakter sayıları, bayt değil UTF-8 kod noktası sayılarıdır.
Sınır durumlar ve dikkat edilmesi gereken noktalar
“Sınır durumlar ve dikkat edilmesi gereken noktalar” başlıklı bölüm- Kaynak eksik. Hatalı bir yol, dosya bulunamadı hatası döndürür. Sunucunun okuyabileceği mutlak yollar kullanın.
- Taranmış PDF. Metin katmanı olmadığında, çıkarma işlemi boş ya da neredeyse boş metin döndürür. Önce kaynak üzerinde optik karakter tanıma (OCR) çalıştırın.
- Aralık dışı sayfa. Belgedeki sayfa sayısını aşan bir aralık, gerçek sayfa sayısıyla birlikte reddedilir.
- Şifrelenmiş kaynak. password parametresini sağlayın.
- Pro yok. Yalnızca Core kullanıldığında
extract_textkaydedilmez.diagnostic.capabilitiesile yoklayın.
Performans
“Performans” başlıklı bölümÇıkarma işlemi belge boyutuyla ölçeklenir ve bütçe büyük girdilere izin verir. Bu araç bir PDF değil metin döndürdüğünden, üretilen her yapıt için profil structural olur.
Güvenlik notları
“Güvenlik notları” başlıklı bölümÇıkarılan metin hassas içerik barındırabilir. Sonucu gizli kabul edin ve yalnızca güvenilir bir kanal üzerinden döndürün. Aracın dosya sistemine yazma yetkisi yoktur. Araç, kaynak yolunu sunucunun ayrıcalıklarıyla okuduğundan, bir çağıranın hangi yolları iletebileceğini kısıtlayın.
Uyumluluk
“Uyumluluk” başlıklı bölüm| Beyan | Belirtim | Madde | reference_id |
|---|---|---|---|
| Metin, içerik akışı sırasındaki metin işleçleri tarafından gösterilir. | ISO 32000-2 | §9.4 | |
| Çıkarma işlemi, kodlanmış okuma sırasını yansıtır. | ISO 32000-2 | §9.10 |
Bu tarif, çıkarılan metnin etiketlenmemiş bir belge için mantıksal okuma sırasını sadık biçimde koruduğunu öne sürmez. Sıra, kodlanmış sıradır.
Ticari bağlam
“Ticari bağlam” başlıklı bölümextract_text, yalnızca sunucu başlatılırken Pro paketi çözümlenebildiğinde kaydedilen bir Pro katmanı aracıdır.
Taşıma katmanı kullanılabilirliği
“Taşıma katmanı kullanılabilirliği” başlıklı bölüm| Taşıma katmanı | Kullanılabilir | Notlar |
|---|---|---|
| MCP (stdio) | Evet (Pro) | Büyük metin, stdio çerçevesini büyütür. |
| REST | Evet (Pro) | Desteklendiği yerlerde büyük sonuçları akışla iletin. |
| gRPC | Evet (Pro) | Büyük metne mesaj boyutu sınırları uygulanır. |
HITL risk katmanı
“HITL risk katmanı” başlıklı bölümextract_text Güvenli’dir (salt okunur, yan etkisiz) ve hiçbir zaman onay kapısı uygulamaz.
Onay kapısı JSON zarfı
“Onay kapısı JSON zarfı” başlıklı bölümSalt okunur çıkarma işlemi hiçbir zaman onay kapısı uygulamaz:
{ "allowed": true }