SDK para Python

Visão geral

Use o Software Development Kit (SDK) do NextPDF para Python quando sua aplicação Python, seu serviço asyncio, seu agente de IA ou seu fluxo de trabalho no terminal precisar de extração de PDF com proveniência. O SDK retorna blocos estruturados com âncoras de citação: índice da página, confiança, caixa delimitadora opcional e um identificador de nó semântico. Você pode rastrear cada valor extraído até o local de origem.

O pacote inclui um cliente NextPDF síncrono para scripts e notebooks, um cliente AsyncNextPDF assíncrono para runtimes asyncio, uma interface de linha de comando (CLI) nextpdf para extração em fluxo a partir de arquivos grandes e um servidor opcional de Model Context Protocol (MCP) que permite que agentes de IA chamem ferramentas de extração diretamente. Os quatro caminhos usam a mesma interface de Abstract Syntax Tree (AST) por meio de um endpoint NextPDF Connect.

Você precisa do Python 3.10 ou mais recente e, para extração em produção, de um endpoint NextPDF Connect. Instale o SDK com pip install nextpdf. Para o servidor de agentes, use pip install nextpdf[mcp].

Mapa de seções

Página	Use para
Visão geral	O que o SDK oferece, qual backend escolher e quais são os limites.
Início rápido	Instale o SDK e extraia texto citado com proveniência no nível da página.
Referência da API	Clientes, encadeamentos de métodos da AST, modelos Pydantic, comandos da CLI e exceções.
Guia do desenvolvedor	Limites de arquitetura, ciclo de vida em runtime, agrupamento assíncrono e tratamento de falhas.
CLI	Execute extração com reconhecimento de citações a partir do terminal e processe documentos grandes em fluxo.
Servidor MCP	Exponha ferramentas de extração para agentes de IA compatíveis com MCP.

APIs principais

Símbolo	Função
`NextPDF`	Cliente síncrono para scripts, trabalhos em lote e notebooks.
`AsyncNextPDF`	Cliente assíncrono e gerenciador de contexto assíncrono para runtimes asyncio.
`client.ast.get_document_ast()`	Constrói a Semantic AST completa a partir dos bytes do PDF.
`client.ast.extract_cited_text()`	Extrai blocos de texto com âncoras de citação.
`client.ast.extract_cited_tables()`	Extrai tabelas com âncoras de citação no nível da célula.
`client.ast.search_ast_nodes()`	Localiza nós por tipo, página ou consulta de texto.
`client.ast.get_ast_diff()`	Compara estruturalmente duas versões de PDF.
`nextpdf`	Interface de linha de comando para extração no terminal e em pipelines.

Veja também

Visão geral do SDK Python — recursos, backends e limites.
Início rápido do SDK Python — sua primeira extração.
Referência da API Python — cada símbolo público.