Перейти к содержимому

Руководство по Python SDK

Используйте Python Software Development Kit (SDK) NextPDF, когда приложению Python, сервису asyncio, AI-агенту или рабочему процессу командной строки требуется извлечение из PDF с прослеживаемостью происхождения. SDK возвращает структурированные блоки с якорями цитирования: индексом страницы, уверенностью, необязательной ограничивающей рамкой и идентификатором семантического узла. Каждое извлечённое значение можно проследить до исходного расположения.

В пакет входят синхронный клиент NextPDF для скриптов и блокнотов, асинхронный клиент AsyncNextPDF для сред исполнения asyncio, интерфейс командной строки (CLI) nextpdf для потокового извлечения из больших файлов и необязательный сервер Model Context Protocol (MCP), позволяющий AI-агентам напрямую вызывать инструменты извлечения. Все четыре способа используют один и тот же интерфейс Abstract Syntax Tree (AST) через эндпоинт NextPDF Connect.

Вам потребуется Python 3.10 или новее, а для извлечения в продакшене — эндпоинт NextPDF Connect. Установите SDK с помощью pip install nextpdf. Для сервера агента используйте pip install nextpdf[mcp].

СтраницаИспользуйте для
ОбзорЧто предоставляет SDK, какой бэкенд выбрать и где действуют ограничения.
Быстрый стартУстановите SDK и извлеките цитируемый текст с прослеживаемостью происхождения на уровне страниц.
Справочник по APIКлиенты, цепочки методов AST, модели Pydantic, команды CLI и исключения.
Руководство разработчикаГраницы архитектуры, жизненный цикл среды исполнения, асинхронная пакетная обработка и работа со сбоями.
CLIЗапускайте извлечение с поддержкой цитирования из терминала и потоково обрабатывайте большие документы.
Сервер MCPПредоставляйте инструменты извлечения AI-агентам, поддерживающим MCP.
СимволРоль
NextPDFСинхронный клиент для скриптов, пакетных заданий и блокнотов.
AsyncNextPDFАсинхронный клиент и контекстный менеджер для сред исполнения asyncio.
client.ast.get_document_ast()Строит полное семантическое AST из байтов PDF.
client.ast.extract_cited_text()Извлекает текстовые блоки с якорями цитирования.
client.ast.extract_cited_tables()Извлекает таблицы с якорями цитирования на уровне ячеек.
client.ast.search_ast_nodes()Находит узлы по типу, странице или текстовому запросу.
client.ast.get_ast_diff()Структурно сравнивает две версии PDF.
nextpdfИнтерфейс командной строки для извлечения в терминале и конвейерах.