Lewati ke konten

Mengekstrak konten teks lewat NextPDF Connect (Pro)

Gunakan extract_text untuk mengekstrak teks dari PDF yang sudah ada, baik untuk pengindeksan, analisis, maupun pemrosesan lanjutan. Penyedia alat Pro mendaftarkan new ExtractTextTool() dengan nama protokol extract_text, dan halaman ini memverifikasi ulang pengikatan tersebut. extract_text adalah alat tingkat Pro. Saat boot, server memeriksanya dengan class_exists() dan hanya mendaftarkannya saat paket Pro terpasang. Anda dapat meminta keluaran polos, rentang halaman, atau keluaran terstruktur yang tersegmentasi per halaman.

Terminal window
composer require nextpdf/server
composer require nextpdf/pro

Ikatkan salah satu transport. Sebelum mengandalkan alat ini, verifikasi ketersediaannya dengan diagnostic.capabilities.

Ekstraksi membaca operator penampil teks dari content stream sesuai urutan stream (ISO 32000-2 §9.4). Keluaran mencerminkan urutan baca yang terkodekan (ISO 32000-2 §9.10). PDF hasil pindai tanpa lapisan teks mengembalikan sedikit teks atau bahkan tanpa teks sama sekali. Hal itu mencerminkan berkas sumber, bukan cacat pada alat ini. format: "plain" mengembalikan satu string. format: "structured" mengembalikan objek per halaman beserta jumlah karakter. page_range membatasi halaman yang diproses.

AlatTingkatPeranTingkat risiko
extract_textProEkstraksi teks (polos / terstruktur / rentang)Aman
parse_pdfCore (dikendalikan oleh env)Struktur tingkat rendah (jumlah halaman, metadata)Aman

Nama alat merupakan nama protokol di registri. Katalog alat adalah katalog resmi. Alat yang tersedia bergantung pada tingkat paket yang terpasang.

  1. extract_text dengan source (path yang dapat dibaca server) dan format: "plain".
  2. extract_text dengan page_range: "1-3" untuk sebagian halaman.
  3. extract_text dengan format: "structured" untuk keluaran tersegmentasi per halaman.

Gunakan parse_pdf (atau extract_text tanpa batasan lebih dulu) untuk mendapatkan jumlah halaman sebelum Anda meminta rentang. Untuk retrieval-augmented generation (RAG) atau pengindeksan, sebaiknya gunakan format: "structured" agar setiap halaman dipotong secara mandiri. Untuk sumber yang terenkripsi, berikan parameter password. Jumlah karakter adalah jumlah code point UTF-8, bukan byte.

  • Sumber tidak ada. Path yang salah akan memicu galat berkas tidak ditemukan. Gunakan path absolut yang dapat dibaca server.
  • PDF hasil pindai. Tanpa lapisan teks, ekstraksi mengembalikan teks kosong atau hampir kosong. Jalankan optical character recognition (OCR) pada sumber terlebih dahulu.
  • Halaman di luar rentang. Rentang yang melampaui dokumen ditolak dengan menyertakan jumlah halaman yang sebenarnya.
  • Sumber terenkripsi. Berikan parameter password.
  • Pro tidak terpasang. Dengan hanya Core, extract_text tidak terdaftar. Periksa dengan diagnostic.capabilities.

Biaya ekstraksi meningkat mengikuti ukuran dokumen, dan anggaran ini mengizinkan masukan berukuran besar. Karena alat ini mengembalikan teks, bukan PDF, profil untuk artefak apa pun yang dihasilkan adalah structural.

Teks yang diekstrak dapat memuat konten sensitif. Perlakukan hasilnya sebagai rahasia, dan kembalikan hanya melalui saluran tepercaya. Alat ini tidak menulis ke sistem berkas. Alat ini membaca path sumber dengan hak istimewa server, jadi batasi path mana saja yang boleh diberikan oleh pemanggil.

PernyataanSpesifikasiKlausareference_id
Teks ditampilkan oleh operator teks mengikuti urutan stream.ISO 32000-2§9.4
Ekstraksi mencerminkan urutan baca yang terkodekan.ISO 32000-2§9.10

Resep ini tidak menyatakan bahwa teks yang diekstrak mempertahankan urutan baca logis yang akurat untuk dokumen tanpa tag. Urutannya adalah urutan yang terkodekan.

extract_text adalah alat tingkat Pro, yang hanya terdaftar saat paket Pro berhasil di-resolve saat boot server.

TransportTersediaCatatan
MCP (stdio)Ya (Pro)Teks berukuran besar memperbesar frame stdio.
RESTYa (Pro)Alirkan hasil berukuran besar jika didukung.
gRPCYa (Pro)Batas ukuran pesan berlaku untuk teks berukuran besar.

extract_text tergolong Aman (hanya-baca, tanpa efek samping) dan tidak pernah menjadi gerbang.

Ekstraksi yang hanya-baca tidak pernah menjadi gerbang:

{ "allowed": true }