حزمة تطوير برمجيات Python
لمحة سريعة
قسم بعنوان «لمحة سريعة»استخدم حزمة تطوير برمجيات Python (SDK) من NextPDF عندما يحتاج تطبيق Python أو خدمة asyncio أو وكيل ذكاء اصطناعي أو سير عمل من الطرفية إلى استخراج PDF مع تتبُّع المصدر. تُرجع حزمة SDK كتلًا مُهيكَلة مزوَّدة بمرتكزات استشهاد: فهرس الصفحة، ودرجة الثقة، ومربع إحاطة اختياري، ومُعرِّف عقدة دلالي. لذلك يمكنك تتبُّع كل قيمة مُستخرَجة وصولًا إلى موقعها المصدري.
تتضمَّن الحزمة عميلًا متزامنًا NextPDF للنصوص البرمجية ودفاتر الملاحظات، وعميلًا غير متزامن AsyncNextPDF لبيئات تشغيل asyncio، وواجهة سطر أوامر (CLI) nextpdf للاستخراج المتدفِّق من الملفات الكبيرة، وخادمًا اختياريًا لبروتوكول سياق النموذج (MCP) يتيح لوكلاء الذكاء الاصطناعي استدعاء أدوات الاستخراج مباشرةً. تستخدم الواجهات الأربع جميعها واجهة شجرة الصياغة المجرَّدة (AST) نفسها عبر نقطة طرفية NextPDF Connect.
تحتاج إلى Python 3.10 أو أحدث، وإلى نقطة طرفية NextPDF Connect للاستخراج في بيئة الإنتاج. ثبِّت حزمة SDK باستخدام pip install nextpdf. ولتشغيل خادم الوكيل، استخدم pip install nextpdf[mcp].
خريطة الأقسام
قسم بعنوان «خريطة الأقسام»| الصفحة | استخدمها من أجل |
|---|---|
| نظرة عامة | ما توفِّره حزمة SDK، وأي خلفية تختارها، وأين تكمن الحدود. |
| البدء السريع | ثبِّت حزمة SDK واستخرج نصًّا مزوَّدًا باستشهادات مع تتبُّع المصدر على مستوى الصفحة. |
| مرجع API | العملاء، وسلاسل توابع AST، ونماذج Pydantic، وأوامر CLI، والاستثناءات. |
| دليل المطوِّر | حدود البنية المعمارية، ودورة حياة وقت التشغيل، والتجميع غير المتزامن، ومعالجة الأعطال. |
| CLI | شغِّل استخراجًا يراعي الاستشهادات من الطرفية وادفق المستندات الكبيرة. |
| خادم MCP | اجعل أدوات الاستخراج متاحة لوكلاء الذكاء الاصطناعي الذين يدعمون MCP. |
واجهات API الأساسية
قسم بعنوان «واجهات API الأساسية»| الرمز | الدور |
|---|---|
NextPDF | عميل متزامن للنصوص البرمجية ومهام الدُّفعات ودفاتر الملاحظات. |
AsyncNextPDF | عميل غير متزامن ومدير سياق غير متزامن لبيئات تشغيل asyncio. |
client.ast.get_document_ast() | يبني شجرة AST الدلالية الكاملة من بايتات PDF. |
client.ast.extract_cited_text() | يستخرج كتلًا نصية مع مرتكزات الاستشهاد. |
client.ast.extract_cited_tables() | يستخرج الجداول مع مرتكزات استشهاد على مستوى الخلية. |
client.ast.search_ast_nodes() | يعثر على العقد حسب النوع أو الصفحة أو استعلام نصي. |
client.ast.get_ast_diff() | يقارن بين نسختي PDF بنيويًّا. |
nextpdf | واجهة سطر أوامر للاستخراج من الطرفية وضمن خطوط المعالجة. |
انظر أيضًا
قسم بعنوان «انظر أيضًا»- نظرة عامة على حزمة تطوير برمجيات Python — القدرات، والخلفيات، والحدود.
- البدء السريع لحزمة تطوير برمجيات Python — أول عملية استخراج تجريها.
- مرجع Python API — جميع الرموز العمومية.