Trích xuất nội dung văn bản bằng NextPDF Connect (Pro)
Tổng quan nhanh
Phần tiêu đề “Tổng quan nhanh”Hãy dùng extract_text để trích xuất văn bản từ một PDF có sẵn cho việc lập chỉ mục, phân tích hoặc xử lý ở các bước tiếp theo. Trình cung cấp công cụ Pro đăng ký new ExtractTextTool() dưới tên giao thức extract_text, và trang này xác minh lại mối liên kết đó. extract_text là một công cụ thuộc gói Pro. Khi khởi động, máy chủ phát hiện công cụ này bằng class_exists() và chỉ đăng ký khi gói Pro đã được cài đặt. Bạn có thể yêu cầu kết quả dạng thuần, một dải trang hoặc kết quả có cấu trúc được phân đoạn theo trang.
Cài đặt
Phần tiêu đề “Cài đặt”composer require nextpdf/servercomposer require nextpdf/proGắn một transport. Trước khi phụ thuộc vào công cụ này, hãy xác nhận công cụ qua diagnostic.capabilities.
Tổng quan khái niệm
Phần tiêu đề “Tổng quan khái niệm”Quá trình trích xuất đọc các toán tử hiển thị văn bản từ luồng nội dung theo thứ tự luồng (ISO 32000-2 §9.4). Kết quả phản ánh thứ tự đọc được mã hóa (ISO 32000-2 §9.10). Một PDF dạng quét không có lớp văn bản sẽ trả về rất ít hoặc không có văn bản. Điều này phản ánh tệp nguồn, không phải lỗi của công cụ. format: "plain" trả về một chuỗi. format: "structured" trả về các đối tượng theo từng trang, kèm số lượng ký tự. page_range giới hạn các trang được xử lý.
Bề mặt API
Phần tiêu đề “Bề mặt API”| Công cụ | Cấp | Vai trò | Cấp rủi ro |
|---|---|---|---|
extract_text | Pro | Trích xuất văn bản (thuần / có cấu trúc / theo dải) | An toàn |
parse_pdf | Core (giới hạn theo môi trường) | Cấu trúc cấp thấp (số trang, metadata) | An toàn |
Tên công cụ là tên giao thức trong sổ đăng ký. Danh mục công cụ là danh mục chuẩn. Các công cụ khả dụng phụ thuộc vào cấp đã được cài đặt.
Mẫu code — bắt đầu nhanh
Phần tiêu đề “Mẫu code — bắt đầu nhanh”extract_textvớisource(một đường dẫn mà máy chủ có thể đọc) vàformat: "plain".extract_textvớipage_range: "1-3"để lấy một tập con.extract_textvớiformat: "structured"để nhận kết quả được phân đoạn theo trang.
Mẫu code — môi trường thực tế
Phần tiêu đề “Mẫu code — môi trường thực tế”Hãy dùng parse_pdf (hoặc một lần extract_text không giới hạn trước đó) để lấy số trang trước khi yêu cầu một dải. Đối với truy xuất tăng cường tạo sinh (RAG) hoặc lập chỉ mục, hãy ưu tiên format: "structured" để mỗi trang được chia thành khối độc lập. Đối với nguồn được mã hóa, hãy cung cấp tham số password. Số lượng ký tự được tính theo số code point UTF-8, không phải byte.
Trường hợp đặc biệt & điều cần lưu ý
Phần tiêu đề “Trường hợp đặc biệt & điều cần lưu ý”- Thiếu nguồn. Đường dẫn không đúng sẽ trả về lỗi không tìm thấy tệp. Hãy dùng đường dẫn tuyệt đối mà máy chủ có thể đọc.
- PDF được quét. Khi không có lớp văn bản, quá trình trích xuất sẽ trả về văn bản trống hoặc gần như trống. Hãy chạy nhận dạng ký tự quang học (OCR) trên nguồn trước.
- Trang nằm ngoài phạm vi. Dải vượt quá phạm vi tài liệu sẽ bị từ chối kèm theo số trang thực tế.
- Nguồn được mã hóa. Hãy cung cấp tham số password.
- Không có Pro. Nếu chỉ có Core,
extract_textkhông được đăng ký. Hãy dò bằngdiagnostic.capabilities.
Hiệu năng
Phần tiêu đề “Hiệu năng”Chi phí trích xuất tăng theo kích thước tài liệu, và ngân sách cho phép đầu vào lớn. Hồ sơ là structural đối với mọi sản phẩm đầu ra vì công cụ này trả về văn bản, không phải PDF.
Lưu ý bảo mật
Phần tiêu đề “Lưu ý bảo mật”Văn bản được trích xuất có thể chứa nội dung nhạy cảm. Hãy xem kết quả là thông tin mật và chỉ trả về qua kênh tin cậy. Công cụ này không ghi vào hệ thống tệp. Công cụ đọc đường dẫn nguồn với quyền của máy chủ, vì vậy hãy giới hạn các đường dẫn mà bên gọi được phép truyền vào.
Tuân thủ
Phần tiêu đề “Tuân thủ”| Phát biểu | Đặc tả | Điều khoản | reference_id |
|---|---|---|---|
| Văn bản được hiển thị bởi các toán tử văn bản theo thứ tự luồng. | ISO 32000-2 | §9.4 | |
| Quá trình trích xuất phản ánh thứ tự đọc được mã hóa. | ISO 32000-2 | §9.10 |
Công thức này không khẳng định rằng văn bản được trích xuất giữ nguyên trung thực thứ tự đọc logic đối với một tài liệu chưa được gắn thẻ. Thứ tự đó là thứ tự được mã hóa.
Bối cảnh thương mại
Phần tiêu đề “Bối cảnh thương mại”extract_text là công cụ thuộc gói Pro và chỉ được đăng ký khi gói Pro được phân giải lúc máy chủ khởi động.
Tính khả dụng theo transport
Phần tiêu đề “Tính khả dụng theo transport”| Transport | Khả dụng | Ghi chú |
|---|---|---|
| MCP (stdio) | Có (Pro) | Văn bản lớn làm tăng kích thước khung stdio. |
| REST | Có (Pro) | Hãy stream kết quả lớn khi được hỗ trợ. |
| gRPC | Có (Pro) | Giới hạn kích thước thông điệp áp dụng cho văn bản lớn. |
Cấp rủi ro HITL
Phần tiêu đề “Cấp rủi ro HITL”extract_text là An toàn (chỉ đọc, không có tác dụng phụ) và không bao giờ chặn để chờ xác nhận.
Phong bì JSON của cổng xác nhận
Phần tiêu đề “Phong bì JSON của cổng xác nhận”Trích xuất chỉ đọc không bao giờ chặn để chờ xác nhận:
{ "allowed": true }