ข้ามไปยังเนื้อหา

Python SDK: ชุดพัฒนาซอฟต์แวร์สำหรับ Python

ใช้ชุดพัฒนาซอฟต์แวร์ (SDK) ของ NextPDF สำหรับ Python เมื่อแอปพลิเคชัน Python บริการ asyncio เอเจนต์ AI หรือเวิร์กโฟลว์บนเทอร์มินัลของคุณต้องแยกข้อมูลจาก PDF พร้อมที่มาของข้อมูล SDK จะคืนค่าบล็อกที่มีโครงสร้างพร้อมจุดยึดสำหรับการอ้างอิง ได้แก่ ดัชนีหน้า ค่าความเชื่อมั่น กรอบขอบเขตที่เลือกใช้ได้ และตัวระบุโหนดเชิงความหมาย คุณสามารถสืบย้อนค่าทุกค่าที่แยกออกมากลับไปยังตำแหน่งต้นทางได้

แพ็กเกจนี้ประกอบด้วยไคลเอ็นต์แบบซิงโครนัส NextPDF สำหรับสคริปต์และโน้ตบุ๊ก ไคลเอ็นต์แบบอะซิงโครนัส AsyncNextPDF สำหรับรันไทม์ asyncio อินเทอร์เฟซบรรทัดคำสั่ง (CLI) nextpdf สำหรับการสตรีมแยกข้อมูลจากไฟล์ขนาดใหญ่ และเซิร์ฟเวอร์ Model Context Protocol (MCP) แบบเลือกใช้ได้ ซึ่งช่วยให้เอเจนต์ AI เรียกใช้เครื่องมือแยกข้อมูลได้โดยตรง เส้นทางทั้งสี่นี้ใช้ส่วนติดต่อ Abstract Syntax Tree (AST) เดียวกันผ่านเอนด์พอยต์ NextPDF Connect

คุณต้องมี Python 3.10 หรือใหม่กว่า และต้องมีเอนด์พอยต์ NextPDF Connect สำหรับการแยกข้อมูลในระบบโปรดักชัน ติดตั้ง SDK ด้วย pip install nextpdf สำหรับเซิร์ฟเวอร์เอเจนต์ ให้ใช้ pip install nextpdf[mcp] แทน

หน้าใช้สำหรับ
ภาพรวมสิ่งที่ SDK มอบให้ วิธีเลือกแบ็กเอนด์ และตำแหน่งของข้อจำกัด
เริ่มต้นใช้งานติดตั้ง SDK และแยกข้อความพร้อมที่มาของข้อมูลสำหรับการอ้างอิงในระดับหน้า
การอ้างอิง APIไคลเอ็นต์ เชนเมท็อด AST โมเดล Pydantic คำสั่ง CLI และข้อยกเว้นต่าง ๆ
คู่มือนักพัฒนาขอบเขตสถาปัตยกรรม วงจรชีวิตรันไทม์ การประมวลผลเป็นชุดแบบอะซิงโครนัส และการจัดการความล้มเหลว
CLIเรียกใช้การแยกข้อมูลที่รับรู้การอ้างอิงจากเทอร์มินัล และสตรีมเอกสารขนาดใหญ่
เซิร์ฟเวอร์ MCPเปิดให้เอเจนต์ AI ที่รองรับ MCP เข้าถึงเครื่องมือแยกข้อมูลได้
สัญลักษณ์บทบาท
NextPDFไคลเอ็นต์แบบซิงโครนัสสำหรับสคริปต์ งานแบตช์ และโน้ตบุ๊ก
AsyncNextPDFไคลเอ็นต์แบบอะซิงโครนัสและตัวจัดการบริบทแบบอะซิงโครนัสสำหรับรันไทม์ asyncio
client.ast.get_document_ast()สร้าง Semantic AST แบบเต็มจากไบต์ของ PDF
client.ast.extract_cited_text()แยกบล็อกข้อความพร้อมจุดยึดสำหรับการอ้างอิง
client.ast.extract_cited_tables()แยกตารางพร้อมจุดยึดสำหรับการอ้างอิงในระดับเซลล์
client.ast.search_ast_nodes()ค้นหาโหนดตามชนิด หน้า หรือคิวรีข้อความ
client.ast.get_ast_diff()เปรียบเทียบ PDF สองเวอร์ชันในเชิงโครงสร้าง
nextpdfอินเทอร์เฟซบรรทัดคำสั่งสำหรับการแยกข้อมูลบนเทอร์มินัลและไปป์ไลน์