Pular para o conteúdo

SDK para Python

Use o Software Development Kit (SDK) do NextPDF para Python quando sua aplicação Python, seu serviço asyncio, seu agente de IA ou seu fluxo de trabalho no terminal precisar de extração de PDF com proveniência. O SDK retorna blocos estruturados com âncoras de citação: índice da página, confiança, caixa delimitadora opcional e um identificador de nó semântico. Você pode rastrear cada valor extraído até o local de origem.

O pacote inclui um cliente NextPDF síncrono para scripts e notebooks, um cliente AsyncNextPDF assíncrono para runtimes asyncio, uma interface de linha de comando (CLI) nextpdf para extração em fluxo a partir de arquivos grandes e um servidor opcional de Model Context Protocol (MCP) que permite que agentes de IA chamem ferramentas de extração diretamente. Os quatro caminhos usam a mesma interface de Abstract Syntax Tree (AST) por meio de um endpoint NextPDF Connect.

Você precisa do Python 3.10 ou mais recente e, para extração em produção, de um endpoint NextPDF Connect. Instale o SDK com pip install nextpdf. Para o servidor de agentes, use pip install nextpdf[mcp].

PáginaUse para
Visão geralO que o SDK oferece, qual backend escolher e quais são os limites.
Início rápidoInstale o SDK e extraia texto citado com proveniência no nível da página.
Referência da APIClientes, encadeamentos de métodos da AST, modelos Pydantic, comandos da CLI e exceções.
Guia do desenvolvedorLimites de arquitetura, ciclo de vida em runtime, agrupamento assíncrono e tratamento de falhas.
CLIExecute extração com reconhecimento de citações a partir do terminal e processe documentos grandes em fluxo.
Servidor MCPExponha ferramentas de extração para agentes de IA compatíveis com MCP.
SímboloFunção
NextPDFCliente síncrono para scripts, trabalhos em lote e notebooks.
AsyncNextPDFCliente assíncrono e gerenciador de contexto assíncrono para runtimes asyncio.
client.ast.get_document_ast()Constrói a Semantic AST completa a partir dos bytes do PDF.
client.ast.extract_cited_text()Extrai blocos de texto com âncoras de citação.
client.ast.extract_cited_tables()Extrai tabelas com âncoras de citação no nível da célula.
client.ast.search_ast_nodes()Localiza nós por tipo, página ou consulta de texto.
client.ast.get_ast_diff()Compara estruturalmente duas versões de PDF.
nextpdfInterface de linha de comando para extração no terminal e em pipelines.