Bỏ qua để đến nội dung

Trích xuất nội dung văn bản bằng NextPDF Connect (Pro)

Hãy dùng extract_text để trích xuất văn bản từ một PDF có sẵn cho việc lập chỉ mục, phân tích hoặc xử lý ở các bước tiếp theo. Trình cung cấp công cụ Pro đăng ký new ExtractTextTool() dưới tên giao thức extract_text, và trang này xác minh lại mối liên kết đó. extract_text là một công cụ thuộc gói Pro. Khi khởi động, máy chủ phát hiện công cụ này bằng class_exists() và chỉ đăng ký khi gói Pro đã được cài đặt. Bạn có thể yêu cầu kết quả dạng thuần, một dải trang hoặc kết quả có cấu trúc được phân đoạn theo trang.

Terminal window
composer require nextpdf/server
composer require nextpdf/pro

Gắn một transport. Trước khi phụ thuộc vào công cụ này, hãy xác nhận công cụ qua diagnostic.capabilities.

Quá trình trích xuất đọc các toán tử hiển thị văn bản từ luồng nội dung theo thứ tự luồng (ISO 32000-2 §9.4). Kết quả phản ánh thứ tự đọc được mã hóa (ISO 32000-2 §9.10). Một PDF dạng quét không có lớp văn bản sẽ trả về rất ít hoặc không có văn bản. Điều này phản ánh tệp nguồn, không phải lỗi của công cụ. format: "plain" trả về một chuỗi. format: "structured" trả về các đối tượng theo từng trang, kèm số lượng ký tự. page_range giới hạn các trang được xử lý.

Công cụCấpVai tròCấp rủi ro
extract_textProTrích xuất văn bản (thuần / có cấu trúc / theo dải)An toàn
parse_pdfCore (giới hạn theo môi trường)Cấu trúc cấp thấp (số trang, metadata)An toàn

Tên công cụ là tên giao thức trong sổ đăng ký. Danh mục công cụ là danh mục chuẩn. Các công cụ khả dụng phụ thuộc vào cấp đã được cài đặt.

  1. extract_text với source (một đường dẫn mà máy chủ có thể đọc) và format: "plain".
  2. extract_text với page_range: "1-3" để lấy một tập con.
  3. extract_text với format: "structured" để nhận kết quả được phân đoạn theo trang.

Hãy dùng parse_pdf (hoặc một lần extract_text không giới hạn trước đó) để lấy số trang trước khi yêu cầu một dải. Đối với truy xuất tăng cường tạo sinh (RAG) hoặc lập chỉ mục, hãy ưu tiên format: "structured" để mỗi trang được chia thành khối độc lập. Đối với nguồn được mã hóa, hãy cung cấp tham số password. Số lượng ký tự được tính theo số code point UTF-8, không phải byte.

Trường hợp đặc biệt & điều cần lưu ý

Phần tiêu đề “Trường hợp đặc biệt & điều cần lưu ý”
  • Thiếu nguồn. Đường dẫn không đúng sẽ trả về lỗi không tìm thấy tệp. Hãy dùng đường dẫn tuyệt đối mà máy chủ có thể đọc.
  • PDF được quét. Khi không có lớp văn bản, quá trình trích xuất sẽ trả về văn bản trống hoặc gần như trống. Hãy chạy nhận dạng ký tự quang học (OCR) trên nguồn trước.
  • Trang nằm ngoài phạm vi. Dải vượt quá phạm vi tài liệu sẽ bị từ chối kèm theo số trang thực tế.
  • Nguồn được mã hóa. Hãy cung cấp tham số password.
  • Không có Pro. Nếu chỉ có Core, extract_text không được đăng ký. Hãy dò bằng diagnostic.capabilities.

Chi phí trích xuất tăng theo kích thước tài liệu, và ngân sách cho phép đầu vào lớn. Hồ sơ là structural đối với mọi sản phẩm đầu ra vì công cụ này trả về văn bản, không phải PDF.

Văn bản được trích xuất có thể chứa nội dung nhạy cảm. Hãy xem kết quả là thông tin mật và chỉ trả về qua kênh tin cậy. Công cụ này không ghi vào hệ thống tệp. Công cụ đọc đường dẫn nguồn với quyền của máy chủ, vì vậy hãy giới hạn các đường dẫn mà bên gọi được phép truyền vào.

Phát biểuĐặc tảĐiều khoảnreference_id
Văn bản được hiển thị bởi các toán tử văn bản theo thứ tự luồng.ISO 32000-2§9.4
Quá trình trích xuất phản ánh thứ tự đọc được mã hóa.ISO 32000-2§9.10

Công thức này không khẳng định rằng văn bản được trích xuất giữ nguyên trung thực thứ tự đọc logic đối với một tài liệu chưa được gắn thẻ. Thứ tự đó là thứ tự được mã hóa.

extract_text là công cụ thuộc gói Pro và chỉ được đăng ký khi gói Pro được phân giải lúc máy chủ khởi động.

TransportKhả dụngGhi chú
MCP (stdio)Có (Pro)Văn bản lớn làm tăng kích thước khung stdio.
RESTCó (Pro)Hãy stream kết quả lớn khi được hỗ trợ.
gRPCCó (Pro)Giới hạn kích thước thông điệp áp dụng cho văn bản lớn.

extract_text là An toàn (chỉ đọc, không có tác dụng phụ) và không bao giờ chặn để chờ xác nhận.

Trích xuất chỉ đọc không bao giờ chặn để chờ xác nhận:

{ "allowed": true }