Python SDK: ชุดพัฒนาซอฟต์แวร์สำหรับ Python
ภาพรวมโดยย่อ
หัวข้อที่มีชื่อว่า “ภาพรวมโดยย่อ”ใช้ชุดพัฒนาซอฟต์แวร์ (SDK) ของ NextPDF สำหรับ Python เมื่อแอปพลิเคชัน Python บริการ asyncio เอเจนต์ AI หรือเวิร์กโฟลว์บนเทอร์มินัลของคุณต้องแยกข้อมูลจาก PDF พร้อมที่มาของข้อมูล SDK จะคืนค่าบล็อกที่มีโครงสร้างพร้อมจุดยึดสำหรับการอ้างอิง ได้แก่ ดัชนีหน้า ค่าความเชื่อมั่น กรอบขอบเขตที่เลือกใช้ได้ และตัวระบุโหนดเชิงความหมาย คุณสามารถสืบย้อนค่าทุกค่าที่แยกออกมากลับไปยังตำแหน่งต้นทางได้
แพ็กเกจนี้ประกอบด้วยไคลเอ็นต์แบบซิงโครนัส NextPDF สำหรับสคริปต์และโน้ตบุ๊ก ไคลเอ็นต์แบบอะซิงโครนัส AsyncNextPDF สำหรับรันไทม์ asyncio อินเทอร์เฟซบรรทัดคำสั่ง (CLI) nextpdf สำหรับการสตรีมแยกข้อมูลจากไฟล์ขนาดใหญ่ และเซิร์ฟเวอร์ Model Context Protocol (MCP) แบบเลือกใช้ได้ ซึ่งช่วยให้เอเจนต์ AI เรียกใช้เครื่องมือแยกข้อมูลได้โดยตรง เส้นทางทั้งสี่นี้ใช้ส่วนติดต่อ Abstract Syntax Tree (AST) เดียวกันผ่านเอนด์พอยต์ NextPDF Connect
คุณต้องมี Python 3.10 หรือใหม่กว่า และต้องมีเอนด์พอยต์ NextPDF Connect สำหรับการแยกข้อมูลในระบบโปรดักชัน ติดตั้ง SDK ด้วย pip install nextpdf สำหรับเซิร์ฟเวอร์เอเจนต์ ให้ใช้ pip install nextpdf[mcp] แทน
แผนผังส่วนต่าง ๆ
หัวข้อที่มีชื่อว่า “แผนผังส่วนต่าง ๆ”| หน้า | ใช้สำหรับ |
|---|---|
| ภาพรวม | สิ่งที่ SDK มอบให้ วิธีเลือกแบ็กเอนด์ และตำแหน่งของข้อจำกัด |
| เริ่มต้นใช้งาน | ติดตั้ง SDK และแยกข้อความพร้อมที่มาของข้อมูลสำหรับการอ้างอิงในระดับหน้า |
| การอ้างอิง API | ไคลเอ็นต์ เชนเมท็อด AST โมเดล Pydantic คำสั่ง CLI และข้อยกเว้นต่าง ๆ |
| คู่มือนักพัฒนา | ขอบเขตสถาปัตยกรรม วงจรชีวิตรันไทม์ การประมวลผลเป็นชุดแบบอะซิงโครนัส และการจัดการความล้มเหลว |
| CLI | เรียกใช้การแยกข้อมูลที่รับรู้การอ้างอิงจากเทอร์มินัล และสตรีมเอกสารขนาดใหญ่ |
| เซิร์ฟเวอร์ MCP | เปิดให้เอเจนต์ AI ที่รองรับ MCP เข้าถึงเครื่องมือแยกข้อมูลได้ |
API หลัก
หัวข้อที่มีชื่อว่า “API หลัก”| สัญลักษณ์ | บทบาท |
|---|---|
NextPDF | ไคลเอ็นต์แบบซิงโครนัสสำหรับสคริปต์ งานแบตช์ และโน้ตบุ๊ก |
AsyncNextPDF | ไคลเอ็นต์แบบอะซิงโครนัสและตัวจัดการบริบทแบบอะซิงโครนัสสำหรับรันไทม์ asyncio |
client.ast.get_document_ast() | สร้าง Semantic AST แบบเต็มจากไบต์ของ PDF |
client.ast.extract_cited_text() | แยกบล็อกข้อความพร้อมจุดยึดสำหรับการอ้างอิง |
client.ast.extract_cited_tables() | แยกตารางพร้อมจุดยึดสำหรับการอ้างอิงในระดับเซลล์ |
client.ast.search_ast_nodes() | ค้นหาโหนดตามชนิด หน้า หรือคิวรีข้อความ |
client.ast.get_ast_diff() | เปรียบเทียบ PDF สองเวอร์ชันในเชิงโครงสร้าง |
nextpdf | อินเทอร์เฟซบรรทัดคำสั่งสำหรับการแยกข้อมูลบนเทอร์มินัลและไปป์ไลน์ |
ดูเพิ่มเติม
หัวข้อที่มีชื่อว่า “ดูเพิ่มเติม”- ภาพรวมของ Python SDK — ความสามารถ แบ็กเอนด์ และข้อจำกัด
- เริ่มต้นใช้งาน Python SDK อย่างรวดเร็ว — การแยกข้อมูลครั้งแรกของคุณ
- การอ้างอิง Python API — สัญลักษณ์สาธารณะทั้งหมด