Mengekstrak konten teks lewat NextPDF Connect (Pro)

Sekilas pandang

Gunakan extract_text untuk mengekstrak teks dari PDF yang sudah ada, baik untuk pengindeksan, analisis, maupun pemrosesan lanjutan. Penyedia alat Pro mendaftarkan new ExtractTextTool() dengan nama protokol extract_text, dan halaman ini memverifikasi ulang pengikatan tersebut. extract_text adalah alat tingkat Pro. Saat boot, server memeriksanya dengan class_exists() dan hanya mendaftarkannya saat paket Pro terpasang. Anda dapat meminta keluaran polos, rentang halaman, atau keluaran terstruktur yang tersegmentasi per halaman.

Pemasangan

composer require nextpdf/server
composer require nextpdf/pro

Ikatkan salah satu transport. Sebelum mengandalkan alat ini, verifikasi ketersediaannya dengan diagnostic.capabilities.

Gambaran konseptual

Ekstraksi membaca operator penampil teks dari content stream sesuai urutan stream (ISO 32000-2 §9.4). Keluaran mencerminkan urutan baca yang terkodekan (ISO 32000-2 §9.10). PDF hasil pindai tanpa lapisan teks mengembalikan sedikit teks atau bahkan tanpa teks sama sekali. Hal itu mencerminkan berkas sumber, bukan cacat pada alat ini. format: "plain" mengembalikan satu string. format: "structured" mengembalikan objek per halaman beserta jumlah karakter. page_range membatasi halaman yang diproses.

Permukaan API

Alat	Tingkat	Peran	Tingkat risiko
`extract_text`	Pro	Ekstraksi teks (polos / terstruktur / rentang)	Aman
`parse_pdf`	Core (dikendalikan oleh env)	Struktur tingkat rendah (jumlah halaman, metadata)	Aman

Nama alat merupakan nama protokol di registri. Katalog alat adalah katalog resmi. Alat yang tersedia bergantung pada tingkat paket yang terpasang.

Contoh kode — Mulai cepat

extract_text dengan source (path yang dapat dibaca server) dan format: "plain".
extract_text dengan page_range: "1-3" untuk sebagian halaman.
extract_text dengan format: "structured" untuk keluaran tersegmentasi per halaman.

Contoh kode — Produksi

Gunakan parse_pdf (atau extract_text tanpa batasan lebih dulu) untuk mendapatkan jumlah halaman sebelum Anda meminta rentang. Untuk retrieval-augmented generation (RAG) atau pengindeksan, sebaiknya gunakan format: "structured" agar setiap halaman dipotong secara mandiri. Untuk sumber yang terenkripsi, berikan parameter password. Jumlah karakter adalah jumlah code point UTF-8, bukan byte.

Kasus tepi & jebakan

Sumber tidak ada. Path yang salah akan memicu galat berkas tidak ditemukan. Gunakan path absolut yang dapat dibaca server.
PDF hasil pindai. Tanpa lapisan teks, ekstraksi mengembalikan teks kosong atau hampir kosong. Jalankan optical character recognition (OCR) pada sumber terlebih dahulu.
Halaman di luar rentang. Rentang yang melampaui dokumen ditolak dengan menyertakan jumlah halaman yang sebenarnya.
Sumber terenkripsi. Berikan parameter password.
Pro tidak terpasang. Dengan hanya Core, extract_text tidak terdaftar. Periksa dengan diagnostic.capabilities.

Performa

Biaya ekstraksi meningkat mengikuti ukuran dokumen, dan anggaran ini mengizinkan masukan berukuran besar. Karena alat ini mengembalikan teks, bukan PDF, profil untuk artefak apa pun yang dihasilkan adalah structural.

Catatan keamanan

Teks yang diekstrak dapat memuat konten sensitif. Perlakukan hasilnya sebagai rahasia, dan kembalikan hanya melalui saluran tepercaya. Alat ini tidak menulis ke sistem berkas. Alat ini membaca path sumber dengan hak istimewa server, jadi batasi path mana saja yang boleh diberikan oleh pemanggil.

Kesesuaian

Pernyataan	Spesifikasi	Klausa	reference_id
Teks ditampilkan oleh operator teks mengikuti urutan stream.	ISO 32000-2	§9.4
Ekstraksi mencerminkan urutan baca yang terkodekan.	ISO 32000-2	§9.10

Resep ini tidak menyatakan bahwa teks yang diekstrak mempertahankan urutan baca logis yang akurat untuk dokumen tanpa tag. Urutannya adalah urutan yang terkodekan.

Konteks komersial

extract_text adalah alat tingkat Pro, yang hanya terdaftar saat paket Pro berhasil di-resolve saat boot server.

Ketersediaan transport

Transport	Tersedia	Catatan
MCP (stdio)	Ya (Pro)	Teks berukuran besar memperbesar frame stdio.
REST	Ya (Pro)	Alirkan hasil berukuran besar jika didukung.
gRPC	Ya (Pro)	Batas ukuran pesan berlaku untuk teks berukuran besar.

Tingkat risiko HITL

extract_text tergolong Aman (hanya-baca, tanpa efek samping) dan tidak pernah menjadi gerbang.

Amplop JSON untuk gerbang konfirmasi

Ekstraksi yang hanya-baca tidak pernah menjadi gerbang:

{ "allowed": true }