Python SDK
Tổng quan nhanh
Phần tiêu đề “Tổng quan nhanh”Hãy dùng Bộ công cụ phát triển phần mềm (SDK) Python của NextPDF khi ứng dụng Python, dịch vụ asyncio, tác nhân AI hoặc quy trình terminal của bạn cần trích xuất PDF có nguồn gốc truy nguyên. SDK trả về các khối có cấu trúc kèm điểm neo trích dẫn: chỉ mục trang, độ tin cậy, hộp giới hạn tùy chọn và một định danh nút ngữ nghĩa. Bạn có thể truy nguyên mọi giá trị đã trích xuất về vị trí nguồn tương ứng.
Gói này bao gồm một client đồng bộ NextPDF cho script và notebook, một client bất đồng bộ AsyncNextPDF cho môi trường chạy asyncio, một giao diện dòng lệnh (CLI) nextpdf để trích xuất theo luồng từ các tệp lớn, và một máy chủ Model Context Protocol (MCP) tùy chọn cho phép tác nhân AI gọi trực tiếp các công cụ trích xuất. Cả bốn cách dùng đều chia sẻ cùng một giao diện cây cú pháp trừu tượng (AST) thông qua một endpoint NextPDF Connect.
Bạn cần Python 3.10 trở lên và, để trích xuất trong môi trường sản xuất, một endpoint NextPDF Connect. Cài đặt SDK bằng pip install nextpdf. Với máy chủ dành cho tác nhân, hãy dùng pip install nextpdf[mcp].
Bản đồ các phần
Phần tiêu đề “Bản đồ các phần”| Trang | Dùng để |
|---|---|
| Tổng quan | SDK cung cấp gì, nên chọn backend nào và các giới hạn nằm ở đâu. |
| Bắt đầu nhanh | Cài đặt SDK và trích xuất văn bản kèm trích dẫn có nguồn gốc ở cấp độ trang. |
| Tài liệu tham khảo API | Các client, chuỗi phương thức AST, mô hình Pydantic, lệnh CLI và ngoại lệ. |
| Hướng dẫn cho nhà phát triển | Ranh giới kiến trúc, vòng đời lúc chạy, gộp lô bất đồng bộ và xử lý lỗi. |
| CLI | Chạy trích xuất nhận biết trích dẫn từ terminal và truyền tài liệu lớn theo luồng. |
| Máy chủ MCP | Cung cấp các công cụ trích xuất cho các tác nhân AI có hỗ trợ MCP. |
Các API chính
Phần tiêu đề “Các API chính”| Ký hiệu | Vai trò |
|---|---|
NextPDF | Client đồng bộ cho script, tác vụ theo lô và notebook. |
AsyncNextPDF | Client bất đồng bộ và trình quản lý ngữ cảnh bất đồng bộ cho môi trường chạy asyncio. |
client.ast.get_document_ast() | Xây dựng toàn bộ AST ngữ nghĩa từ byte của PDF. |
client.ast.extract_cited_text() | Trích xuất các khối văn bản kèm điểm neo trích dẫn. |
client.ast.extract_cited_tables() | Trích xuất các bảng kèm điểm neo trích dẫn ở cấp độ ô. |
client.ast.search_ast_nodes() | Tìm nút theo loại, trang hoặc truy vấn văn bản. |
client.ast.get_ast_diff() | So sánh hai phiên bản PDF về mặt cấu trúc. |
nextpdf | Giao diện dòng lệnh để trích xuất từ terminal và trong pipeline. |
Xem thêm
Phần tiêu đề “Xem thêm”- Tổng quan về Python SDK — khả năng, backend và giới hạn.
- Bắt đầu nhanh với Python SDK — lần trích xuất đầu tiên của bạn.
- Tài liệu tham khảo API Python — tất cả ký hiệu công khai.