Bỏ qua để đến nội dung

Bắt đầu nhanh với Python SDK

Cài đặt bộ công cụ phát triển phần mềm (SDK) qua Python Package Index (PyPI):

Terminal window
pip install nextpdf

Tạo client cho endpoint NextPDF Connect của bạn:

from nextpdf import NextPDF
client = NextPDF(base_url="http://localhost:8080", api_key="your-key")
with open("document.pdf", "rb") as file:
blocks = client.ast.extract_cited_text(file.read())
for block in blocks:
page = block.citation.page_index
confidence = block.citation.confidence
print(f"[page {page}, confidence {confidence:.2f}] {block.text[:100]}")

Nếu endpoint của bạn không yêu cầu khóa API, hãy bỏ qua api_key.

Giao diện dòng lệnh (CLI) và các quy trình agent có thể đọc cấu hình kết nối từ các biến môi trường:

Terminal window
export NEXTPDF_BASE_URL=http://localhost:8080
export NEXTPDF_API_KEY=your-key

Trong Windows PowerShell:

Terminal window
$env:NEXTPDF_BASE_URL = "http://localhost:8080"
$env:NEXTPDF_API_KEY = "your-key"

Hãy bắt các ngoại lệ từ SDK và API khi gọi các phương thức trích xuất:

from nextpdf import NextPDF
from nextpdf.models.errors import NextPDFAPIError, NextPDFError, QuotaExceededError
client = NextPDF(base_url="http://localhost:8080", api_key="your-key")
try:
with open("document.pdf", "rb") as file:
blocks = client.ast.extract_cited_text(file.read())
except QuotaExceededError as error:
print(f"Rate limit hit: {error}")
except NextPDFAPIError as error:
print(f"API error {error.status_code}: {error}")
except NextPDFError as error:
print(f"SDK error: {error}")

Với các tệp Portable Document Format (PDF) lớn hơn 100 MB, hãy dùng CLI. Cách này cho phép truyền kết quả theo luồng mà không cần nạp toàn bộ các khối đã trích xuất vào bộ nhớ cùng lúc.