Python SDK
Sekilas pandang
Bagian berjudul “Sekilas pandang”Gunakan NextPDF Python Software Development Kit (SDK) saat aplikasi Python, layanan asyncio, agen AI, atau alur kerja terminal Anda membutuhkan ekstraksi PDF dengan provenans. SDK mengembalikan blok terstruktur dengan jangkar kutipan: indeks halaman, tingkat keyakinan, kotak pembatas opsional, dan pengenal node semantik. Setiap nilai yang diekstrak dapat Anda telusuri kembali ke lokasi sumbernya.
Paket ini mencakup klien sinkron NextPDF untuk skrip dan notebook, klien asinkron AsyncNextPDF untuk runtime asyncio, antarmuka baris perintah (CLI) nextpdf untuk mengekstrak berkas berukuran besar secara streaming, dan server Model Context Protocol (MCP) opsional yang memungkinkan agen AI memanggil alat ekstraksi secara langsung. Keempat jalur ini menggunakan permukaan Abstract Syntax Tree (AST) yang sama melalui endpoint NextPDF Connect.
Anda memerlukan Python 3.10 atau yang lebih baru dan, untuk ekstraksi produksi, endpoint NextPDF Connect. Pasang SDK dengan pip install nextpdf. Untuk server agen, gunakan pip install nextpdf[mcp].
Peta bagian
Bagian berjudul “Peta bagian”| Halaman | Digunakan untuk |
|---|---|
| Ikhtisar | Apa yang disediakan SDK, backend yang perlu dipilih, dan batasannya. |
| Mulai cepat | Pasang SDK dan ekstrak teks yang memiliki kutipan dengan provenans tingkat halaman. |
| Referensi API | Klien, rantai metode AST, model Pydantic, perintah CLI, dan eksepsi. |
| Panduan pengembang | Batas arsitektur, siklus hidup runtime, pengelompokan asinkron, dan penanganan kegagalan. |
| CLI | Jalankan ekstraksi sadar kutipan dari terminal dan streaming dokumen berukuran besar. |
| Server MCP | Sediakan alat ekstraksi kepada agen AI yang mendukung MCP. |
API utama
Bagian berjudul “API utama”| Simbol | Peran |
|---|---|
NextPDF | Klien sinkron untuk skrip, tugas batch, dan notebook. |
AsyncNextPDF | Klien asinkron dan pengelola konteks asinkron untuk runtime asyncio. |
client.ast.get_document_ast() | Membangun Semantic AST lengkap dari byte PDF. |
client.ast.extract_cited_text() | Mengekstrak blok teks dengan jangkar kutipan. |
client.ast.extract_cited_tables() | Mengekstrak tabel dengan jangkar kutipan tingkat sel. |
client.ast.search_ast_nodes() | Menemukan node berdasarkan jenis, halaman, atau kueri teks. |
client.ast.get_ast_diff() | Membandingkan dua versi PDF secara struktural. |
nextpdf | Antarmuka baris perintah untuk ekstraksi dari terminal dan pipeline. |
Lihat juga
Bagian berjudul “Lihat juga”- Ikhtisar Python SDK — kemampuan, backend, dan batasan.
- Mulai cepat Python SDK — ekstraksi pertama Anda.
- Referensi API Python — setiap simbol publik.