Руководство по Python SDK
Используйте Python Software Development Kit (SDK) NextPDF, когда приложению Python, сервису asyncio, AI-агенту или рабочему процессу командной строки требуется извлечение из PDF с прослеживаемостью происхождения. SDK возвращает структурированные блоки с якорями цитирования: индексом страницы, уверенностью, необязательной ограничивающей рамкой и идентификатором семантического узла. Каждое извлечённое значение можно проследить до исходного расположения.
В пакет входят синхронный клиент NextPDF для скриптов и блокнотов, асинхронный клиент AsyncNextPDF для сред исполнения asyncio, интерфейс командной строки (CLI) nextpdf для потокового извлечения из больших файлов и необязательный сервер Model Context Protocol (MCP), позволяющий AI-агентам напрямую вызывать инструменты извлечения. Все четыре способа используют один и тот же интерфейс Abstract Syntax Tree (AST) через эндпоинт NextPDF Connect.
Вам потребуется Python 3.10 или новее, а для извлечения в продакшене — эндпоинт NextPDF Connect. Установите SDK с помощью pip install nextpdf. Для сервера агента используйте pip install nextpdf[mcp].
Карта разделов
Заголовок раздела «Карта разделов»| Страница | Используйте для |
|---|---|
| Обзор | Что предоставляет SDK, какой бэкенд выбрать и где действуют ограничения. |
| Быстрый старт | Установите SDK и извлеките цитируемый текст с прослеживаемостью происхождения на уровне страниц. |
| Справочник по API | Клиенты, цепочки методов AST, модели Pydantic, команды CLI и исключения. |
| Руководство разработчика | Границы архитектуры, жизненный цикл среды исполнения, асинхронная пакетная обработка и работа со сбоями. |
| CLI | Запускайте извлечение с поддержкой цитирования из терминала и потоково обрабатывайте большие документы. |
| Сервер MCP | Предоставляйте инструменты извлечения AI-агентам, поддерживающим MCP. |
Основные API
Заголовок раздела «Основные API»| Символ | Роль |
|---|---|
NextPDF | Синхронный клиент для скриптов, пакетных заданий и блокнотов. |
AsyncNextPDF | Асинхронный клиент и контекстный менеджер для сред исполнения asyncio. |
client.ast.get_document_ast() | Строит полное семантическое AST из байтов PDF. |
client.ast.extract_cited_text() | Извлекает текстовые блоки с якорями цитирования. |
client.ast.extract_cited_tables() | Извлекает таблицы с якорями цитирования на уровне ячеек. |
client.ast.search_ast_nodes() | Находит узлы по типу, странице или текстовому запросу. |
client.ast.get_ast_diff() | Структурно сравнивает две версии PDF. |
nextpdf | Интерфейс командной строки для извлечения в терминале и конвейерах. |
См. также
Заголовок раздела «См. также»- Обзор Python SDK — возможности, бэкенды и ограничения.
- Быстрый старт Python SDK — ваше первое извлечение.
- Справочник по Python API — все публичные символы.