Bỏ qua để đến nội dung

Python SDK

Hãy dùng Bộ công cụ phát triển phần mềm (SDK) Python của NextPDF khi ứng dụng Python, dịch vụ asyncio, tác nhân AI hoặc quy trình terminal của bạn cần trích xuất PDF có nguồn gốc truy nguyên. SDK trả về các khối có cấu trúc kèm điểm neo trích dẫn: chỉ mục trang, độ tin cậy, hộp giới hạn tùy chọn và một định danh nút ngữ nghĩa. Bạn có thể truy nguyên mọi giá trị đã trích xuất về vị trí nguồn tương ứng.

Gói này bao gồm một client đồng bộ NextPDF cho script và notebook, một client bất đồng bộ AsyncNextPDF cho môi trường chạy asyncio, một giao diện dòng lệnh (CLI) nextpdf để trích xuất theo luồng từ các tệp lớn, và một máy chủ Model Context Protocol (MCP) tùy chọn cho phép tác nhân AI gọi trực tiếp các công cụ trích xuất. Cả bốn cách dùng đều chia sẻ cùng một giao diện cây cú pháp trừu tượng (AST) thông qua một endpoint NextPDF Connect.

Bạn cần Python 3.10 trở lên và, để trích xuất trong môi trường sản xuất, một endpoint NextPDF Connect. Cài đặt SDK bằng pip install nextpdf. Với máy chủ dành cho tác nhân, hãy dùng pip install nextpdf[mcp].

TrangDùng để
Tổng quanSDK cung cấp gì, nên chọn backend nào và các giới hạn nằm ở đâu.
Bắt đầu nhanhCài đặt SDK và trích xuất văn bản kèm trích dẫn có nguồn gốc ở cấp độ trang.
Tài liệu tham khảo APICác client, chuỗi phương thức AST, mô hình Pydantic, lệnh CLI và ngoại lệ.
Hướng dẫn cho nhà phát triểnRanh giới kiến trúc, vòng đời lúc chạy, gộp lô bất đồng bộ và xử lý lỗi.
CLIChạy trích xuất nhận biết trích dẫn từ terminal và truyền tài liệu lớn theo luồng.
Máy chủ MCPCung cấp các công cụ trích xuất cho các tác nhân AI có hỗ trợ MCP.
Ký hiệuVai trò
NextPDFClient đồng bộ cho script, tác vụ theo lô và notebook.
AsyncNextPDFClient bất đồng bộ và trình quản lý ngữ cảnh bất đồng bộ cho môi trường chạy asyncio.
client.ast.get_document_ast()Xây dựng toàn bộ AST ngữ nghĩa từ byte của PDF.
client.ast.extract_cited_text()Trích xuất các khối văn bản kèm điểm neo trích dẫn.
client.ast.extract_cited_tables()Trích xuất các bảng kèm điểm neo trích dẫn ở cấp độ ô.
client.ast.search_ast_nodes()Tìm nút theo loại, trang hoặc truy vấn văn bản.
client.ast.get_ast_diff()So sánh hai phiên bản PDF về mặt cấu trúc.
nextpdfGiao diện dòng lệnh để trích xuất từ terminal và trong pipeline.