Mengekstrak konten teks lewat NextPDF Connect (Pro)
Sekilas pandang
Bagian berjudul “Sekilas pandang”Gunakan extract_text untuk mengekstrak teks dari PDF yang sudah ada, baik untuk pengindeksan, analisis, maupun pemrosesan lanjutan. Penyedia alat Pro mendaftarkan new ExtractTextTool() dengan nama protokol extract_text, dan halaman ini memverifikasi ulang pengikatan tersebut. extract_text adalah alat tingkat Pro. Saat boot, server memeriksanya dengan class_exists() dan hanya mendaftarkannya saat paket Pro terpasang. Anda dapat meminta keluaran polos, rentang halaman, atau keluaran terstruktur yang tersegmentasi per halaman.
Pemasangan
Bagian berjudul “Pemasangan”composer require nextpdf/servercomposer require nextpdf/proIkatkan salah satu transport. Sebelum mengandalkan alat ini, verifikasi ketersediaannya dengan diagnostic.capabilities.
Gambaran konseptual
Bagian berjudul “Gambaran konseptual”Ekstraksi membaca operator penampil teks dari content stream sesuai urutan stream (ISO 32000-2 §9.4). Keluaran mencerminkan urutan baca yang terkodekan (ISO 32000-2 §9.10). PDF hasil pindai tanpa lapisan teks mengembalikan sedikit teks atau bahkan tanpa teks sama sekali. Hal itu mencerminkan berkas sumber, bukan cacat pada alat ini. format: "plain" mengembalikan satu string. format: "structured" mengembalikan objek per halaman beserta jumlah karakter. page_range membatasi halaman yang diproses.
Permukaan API
Bagian berjudul “Permukaan API”| Alat | Tingkat | Peran | Tingkat risiko |
|---|---|---|---|
extract_text | Pro | Ekstraksi teks (polos / terstruktur / rentang) | Aman |
parse_pdf | Core (dikendalikan oleh env) | Struktur tingkat rendah (jumlah halaman, metadata) | Aman |
Nama alat merupakan nama protokol di registri. Katalog alat adalah katalog resmi. Alat yang tersedia bergantung pada tingkat paket yang terpasang.
Contoh kode — Mulai cepat
Bagian berjudul “Contoh kode — Mulai cepat”extract_textdengansource(path yang dapat dibaca server) danformat: "plain".extract_textdenganpage_range: "1-3"untuk sebagian halaman.extract_textdenganformat: "structured"untuk keluaran tersegmentasi per halaman.
Contoh kode — Produksi
Bagian berjudul “Contoh kode — Produksi”Gunakan parse_pdf (atau extract_text tanpa batasan lebih dulu) untuk mendapatkan jumlah halaman sebelum Anda meminta rentang. Untuk retrieval-augmented generation (RAG) atau pengindeksan, sebaiknya gunakan format: "structured" agar setiap halaman dipotong secara mandiri. Untuk sumber yang terenkripsi, berikan parameter password. Jumlah karakter adalah jumlah code point UTF-8, bukan byte.
Kasus tepi & jebakan
Bagian berjudul “Kasus tepi & jebakan”- Sumber tidak ada. Path yang salah akan memicu galat berkas tidak ditemukan. Gunakan path absolut yang dapat dibaca server.
- PDF hasil pindai. Tanpa lapisan teks, ekstraksi mengembalikan teks kosong atau hampir kosong. Jalankan optical character recognition (OCR) pada sumber terlebih dahulu.
- Halaman di luar rentang. Rentang yang melampaui dokumen ditolak dengan menyertakan jumlah halaman yang sebenarnya.
- Sumber terenkripsi. Berikan parameter password.
- Pro tidak terpasang. Dengan hanya Core,
extract_texttidak terdaftar. Periksa dengandiagnostic.capabilities.
Performa
Bagian berjudul “Performa”Biaya ekstraksi meningkat mengikuti ukuran dokumen, dan anggaran ini mengizinkan masukan berukuran besar. Karena alat ini mengembalikan teks, bukan PDF, profil untuk artefak apa pun yang dihasilkan adalah structural.
Catatan keamanan
Bagian berjudul “Catatan keamanan”Teks yang diekstrak dapat memuat konten sensitif. Perlakukan hasilnya sebagai rahasia, dan kembalikan hanya melalui saluran tepercaya. Alat ini tidak menulis ke sistem berkas. Alat ini membaca path sumber dengan hak istimewa server, jadi batasi path mana saja yang boleh diberikan oleh pemanggil.
Kesesuaian
Bagian berjudul “Kesesuaian”| Pernyataan | Spesifikasi | Klausa | reference_id |
|---|---|---|---|
| Teks ditampilkan oleh operator teks mengikuti urutan stream. | ISO 32000-2 | §9.4 | |
| Ekstraksi mencerminkan urutan baca yang terkodekan. | ISO 32000-2 | §9.10 |
Resep ini tidak menyatakan bahwa teks yang diekstrak mempertahankan urutan baca logis yang akurat untuk dokumen tanpa tag. Urutannya adalah urutan yang terkodekan.
Konteks komersial
Bagian berjudul “Konteks komersial”extract_text adalah alat tingkat Pro, yang hanya terdaftar saat paket Pro berhasil di-resolve saat boot server.
Ketersediaan transport
Bagian berjudul “Ketersediaan transport”| Transport | Tersedia | Catatan |
|---|---|---|
| MCP (stdio) | Ya (Pro) | Teks berukuran besar memperbesar frame stdio. |
| REST | Ya (Pro) | Alirkan hasil berukuran besar jika didukung. |
| gRPC | Ya (Pro) | Batas ukuran pesan berlaku untuk teks berukuran besar. |
Tingkat risiko HITL
Bagian berjudul “Tingkat risiko HITL”extract_text tergolong Aman (hanya-baca, tanpa efek samping) dan tidak pernah menjadi gerbang.
Amplop JSON untuk gerbang konfirmasi
Bagian berjudul “Amplop JSON untuk gerbang konfirmasi”Ekstraksi yang hanya-baca tidak pernah menjadi gerbang:
{ "allowed": true }