Lewati ke konten

Python SDK

Gunakan NextPDF Python Software Development Kit (SDK) saat aplikasi Python, layanan asyncio, agen AI, atau alur kerja terminal Anda membutuhkan ekstraksi PDF dengan provenans. SDK mengembalikan blok terstruktur dengan jangkar kutipan: indeks halaman, tingkat keyakinan, kotak pembatas opsional, dan pengenal node semantik. Setiap nilai yang diekstrak dapat Anda telusuri kembali ke lokasi sumbernya.

Paket ini mencakup klien sinkron NextPDF untuk skrip dan notebook, klien asinkron AsyncNextPDF untuk runtime asyncio, antarmuka baris perintah (CLI) nextpdf untuk mengekstrak berkas berukuran besar secara streaming, dan server Model Context Protocol (MCP) opsional yang memungkinkan agen AI memanggil alat ekstraksi secara langsung. Keempat jalur ini menggunakan permukaan Abstract Syntax Tree (AST) yang sama melalui endpoint NextPDF Connect.

Anda memerlukan Python 3.10 atau yang lebih baru dan, untuk ekstraksi produksi, endpoint NextPDF Connect. Pasang SDK dengan pip install nextpdf. Untuk server agen, gunakan pip install nextpdf[mcp].

HalamanDigunakan untuk
IkhtisarApa yang disediakan SDK, backend yang perlu dipilih, dan batasannya.
Mulai cepatPasang SDK dan ekstrak teks yang memiliki kutipan dengan provenans tingkat halaman.
Referensi APIKlien, rantai metode AST, model Pydantic, perintah CLI, dan eksepsi.
Panduan pengembangBatas arsitektur, siklus hidup runtime, pengelompokan asinkron, dan penanganan kegagalan.
CLIJalankan ekstraksi sadar kutipan dari terminal dan streaming dokumen berukuran besar.
Server MCPSediakan alat ekstraksi kepada agen AI yang mendukung MCP.
SimbolPeran
NextPDFKlien sinkron untuk skrip, tugas batch, dan notebook.
AsyncNextPDFKlien asinkron dan pengelola konteks asinkron untuk runtime asyncio.
client.ast.get_document_ast()Membangun Semantic AST lengkap dari byte PDF.
client.ast.extract_cited_text()Mengekstrak blok teks dengan jangkar kutipan.
client.ast.extract_cited_tables()Mengekstrak tabel dengan jangkar kutipan tingkat sel.
client.ast.search_ast_nodes()Menemukan node berdasarkan jenis, halaman, atau kueri teks.
client.ast.get_ast_diff()Membandingkan dua versi PDF secara struktural.
nextpdfAntarmuka baris perintah untuk ekstraksi dari terminal dan pipeline.