ข้ามไปยังเนื้อหา

แยกเนื้อหาข้อความผ่าน NextPDF Connect (Pro)

ใช้ extract_text เพื่อแยกข้อความจาก PDF ที่มีอยู่สำหรับการทำดัชนี การวิเคราะห์ หรือการประมวลผลขั้นถัดไป ผู้ให้บริการเครื่องมือระดับ Pro จะลงทะเบียน new ExtractTextTool() ภายใต้ชื่อโปรโตคอล extract_text และหน้านี้ยืนยันการผูกดังกล่าวอีกครั้ง extract_text เป็นเครื่องมือระดับ Pro ขณะเซิร์ฟเวอร์บูต ระบบจะตรวจสอบด้วย class_exists() และลงทะเบียนเครื่องมือนี้เฉพาะเมื่อมีการติดตั้งแพ็กเกจ Pro แล้วเท่านั้น คุณสามารถร้องขอเอาต์พุตแบบธรรมดา ช่วงหน้า หรือเอาต์พุตแบบมีโครงสร้างที่แบ่งตามหน้าได้

Terminal window
composer require nextpdf/server
composer require nextpdf/pro

ก่อนพึ่งพาเครื่องมือนี้ ให้ผูก transport และตรวจยืนยันด้วย diagnostic.capabilities

การแยกข้อความจะอ่านโอเปอเรเตอร์แสดงข้อความจากสตรีมเนื้อหาตามลำดับของสตรีม (ISO 32000-2 §9.4) เอาต์พุตจะสะท้อนลำดับการอ่านที่ เข้ารหัสไว้ (ISO 32000-2 §9.10) PDF ที่สแกนมาและไม่มีชั้นข้อความจะคืนข้อความเพียงเล็กน้อยหรือไม่คืนข้อความเลย ลักษณะนี้สะท้อนสภาพไฟล์ต้นทาง ไม่ใช่ข้อบกพร่องของเครื่องมือ format: "plain" จะคืนค่าเป็นสตริงเดียว format: "structured" จะคืนค่าเป็นออบเจ็กต์รายหน้าพร้อมจำนวนอักขระ page_range จะจำกัดหน้าที่ประมวลผล

เครื่องมือระดับบทบาทระดับความเสี่ยง
extract_textProแยกข้อความ (plain / structured / range)ปลอดภัย
parse_pdfCore (ควบคุมด้วยตัวแปรสภาพแวดล้อม)โครงสร้างระดับล่าง (จำนวนหน้า, metadata)ปลอดภัย

ชื่อเครื่องมือคือชื่อโปรโตคอลในรีจิสทรี แคตตาล็อกเครื่องมือ คือแคตตาล็อกอ้างอิงที่เป็นทางการ เครื่องมือที่ใช้ได้ขึ้นอยู่กับระดับที่ติดตั้ง

  1. extract_text ที่มี source (พาธที่เซิร์ฟเวอร์อ่านได้) และ format: "plain"
  2. extract_text ที่มี page_range: "1-3" สำหรับชุดย่อย
  3. extract_text ที่มี format: "structured" สำหรับเอาต์พุตที่แบ่งตามหน้า

ใช้ parse_pdf (หรือ extract_text ก่อนหน้าที่ไม่จำกัดช่วง) เพื่อหาจำนวนหน้าก่อนร้องขอช่วง สำหรับ retrieval-augmented generation (RAG) หรือการทำดัชนี ควรเลือกใช้ format: "structured" เพื่อให้แต่ละหน้าถูกแบ่งเป็นส่วนข้อมูลอิสระ สำหรับต้นทางที่เข้ารหัสลับไว้ ให้ระบุพารามิเตอร์ password จำนวนอักขระคือจำนวน code point ของ UTF-8 ไม่ใช่จำนวนไบต์

  • ไม่พบต้นทาง พาธที่ไม่ถูกต้องจะคืนข้อผิดพลาดว่าไม่พบไฟล์ ให้ใช้พาธแบบสัมบูรณ์ที่เซิร์ฟเวอร์อ่านได้
  • PDF ที่สแกนมา หากไม่มีชั้นข้อความ การแยกข้อความจะคืนข้อความว่างหรือแทบไม่มีข้อความ ให้เรียกใช้ optical character recognition (OCR) กับต้นทางก่อน
  • หน้าที่อยู่นอกช่วง ช่วงที่เกินขอบเขตของเอกสารจะถูกปฏิเสธพร้อมแจ้งจำนวนหน้าที่แท้จริง
  • ต้นทางที่เข้ารหัสลับ ให้ระบุพารามิเตอร์ password
  • ไม่มี Pro เมื่อมีเฉพาะ Core extract_text จะไม่ถูกลงทะเบียน ตรวจสอบด้วย diagnostic.capabilities

ภาระของการแยกข้อความจะเพิ่มตามขนาดเอกสาร และงบประมาณนี้รองรับอินพุตขนาดใหญ่ได้ โปรไฟล์ของสิ่งที่สร้างขึ้นทุกรายการเป็น structural เนื่องจากเครื่องมือนี้คืนค่าเป็นข้อความ ไม่ใช่ PDF

ข้อความที่แยกออกมาอาจมีเนื้อหาที่ละเอียดอ่อน ให้ถือว่าผลลัพธ์เป็นความลับ และส่งคืนผ่านช่องทางที่เชื่อถือได้เท่านั้น เครื่องมือนี้ไม่เขียนลงระบบไฟล์ การอ่านพาธต้นทางจะใช้สิทธิ์ของเซิร์ฟเวอร์ ดังนั้นควรจำกัดพาธที่ผู้เรียกส่งได้

ข้อความระบุข้อกำหนดข้อรหัสอ้างอิง (reference_id)
ข้อความถูกแสดงโดยโอเปอเรเตอร์แสดงข้อความตามลำดับของสตรีมISO 32000-2§9.4
การแยกข้อความสะท้อนลำดับการอ่านที่เข้ารหัสไว้ISO 32000-2§9.10

แนวทางนี้ไม่ได้รับรองว่าข้อความที่แยกออกมาจะคงลำดับการอ่านเชิงตรรกะที่ถูกต้องตรงตามต้นฉบับสำหรับเอกสารที่ไม่ได้แท็ก ลำดับดังกล่าวคือลำดับที่เข้ารหัสไว้

extract_text เป็นเครื่องมือระดับ Pro ที่จะลงทะเบียนเฉพาะเมื่อแพ็กเกจ Pro resolve ได้ขณะเซิร์ฟเวอร์บูตเท่านั้น

ช่องทางส่งข้อมูล (Transport)ใช้งานได้หมายเหตุ
MCP (stdio)ใช่ (Pro)ข้อความขนาดใหญ่จะทำให้เฟรม stdio ขยายตัว
RESTใช่ (Pro)สตรีมผลลัพธ์ขนาดใหญ่เมื่อรองรับ
gRPCใช่ (Pro)ขีดจำกัดขนาดข้อความมีผลกับข้อความขนาดใหญ่

extract_text เป็นเครื่องมือประเภทปลอดภัย (อ่านอย่างเดียว ไม่มีผลข้างเคียง) และจะไม่ถูกกั้นด้วยขั้นตอนยืนยันใดๆ

การแยกข้อความแบบอ่านอย่างเดียวจะไม่ถูกกั้นด้วยขั้นตอนยืนยันใดๆ:

{ "allowed": true }