SDK para Python
Visão geral
Seção intitulada “Visão geral”Use o Software Development Kit (SDK) do NextPDF para Python quando sua aplicação Python, seu serviço asyncio, seu agente de IA ou seu fluxo de trabalho no terminal precisar de extração de PDF com proveniência. O SDK retorna blocos estruturados com âncoras de citação: índice da página, confiança, caixa delimitadora opcional e um identificador de nó semântico. Você pode rastrear cada valor extraído até o local de origem.
O pacote inclui um cliente NextPDF síncrono para scripts e notebooks, um cliente AsyncNextPDF assíncrono para runtimes asyncio, uma interface de linha de comando (CLI) nextpdf para extração em fluxo a partir de arquivos grandes e um servidor opcional de Model Context Protocol (MCP) que permite que agentes de IA chamem ferramentas de extração diretamente. Os quatro caminhos usam a mesma interface de Abstract Syntax Tree (AST) por meio de um endpoint NextPDF Connect.
Você precisa do Python 3.10 ou mais recente e, para extração em produção, de um endpoint NextPDF Connect. Instale o SDK com pip install nextpdf. Para o servidor de agentes, use pip install nextpdf[mcp].
Mapa de seções
Seção intitulada “Mapa de seções”| Página | Use para |
|---|---|
| Visão geral | O que o SDK oferece, qual backend escolher e quais são os limites. |
| Início rápido | Instale o SDK e extraia texto citado com proveniência no nível da página. |
| Referência da API | Clientes, encadeamentos de métodos da AST, modelos Pydantic, comandos da CLI e exceções. |
| Guia do desenvolvedor | Limites de arquitetura, ciclo de vida em runtime, agrupamento assíncrono e tratamento de falhas. |
| CLI | Execute extração com reconhecimento de citações a partir do terminal e processe documentos grandes em fluxo. |
| Servidor MCP | Exponha ferramentas de extração para agentes de IA compatíveis com MCP. |
APIs principais
Seção intitulada “APIs principais”| Símbolo | Função |
|---|---|
NextPDF | Cliente síncrono para scripts, trabalhos em lote e notebooks. |
AsyncNextPDF | Cliente assíncrono e gerenciador de contexto assíncrono para runtimes asyncio. |
client.ast.get_document_ast() | Constrói a Semantic AST completa a partir dos bytes do PDF. |
client.ast.extract_cited_text() | Extrai blocos de texto com âncoras de citação. |
client.ast.extract_cited_tables() | Extrai tabelas com âncoras de citação no nível da célula. |
client.ast.search_ast_nodes() | Localiza nós por tipo, página ou consulta de texto. |
client.ast.get_ast_diff() | Compara estruturalmente duas versões de PDF. |
nextpdf | Interface de linha de comando para extração no terminal e em pipelines. |
Veja também
Seção intitulada “Veja também”- Visão geral do SDK Python — recursos, backends e limites.
- Início rápido do SDK Python — sua primeira extração.
- Referência da API Python — cada símbolo público.