Ir al contenido

SDK para Python

Usa el kit de desarrollo de software (SDK) para Python de NextPDF cuando una aplicación de Python, un servicio asyncio, un agente de IA o un flujo de trabajo de terminal necesite extracción de PDF con procedencia. El SDK devuelve bloques estructurados con anclas de cita —índice de página, confianza, recuadro delimitador opcional y un identificador de nodo semántico—, de modo que cada valor extraído pueda rastrearse hasta su ubicación de origen.

El paquete incluye un cliente síncrono NextPDF para scripts y notebooks, un cliente asíncrono AsyncNextPDF para entornos de ejecución asyncio, una interfaz de línea de comandos (CLI) nextpdf para la extracción en streaming desde archivos grandes y un servidor Model Context Protocol (MCP) opcional, para que los agentes de IA puedan invocar directamente las herramientas de extracción. Las cuatro rutas acceden a la misma superficie del árbol de sintaxis abstracta (AST) a través de un endpoint de NextPDF Connect.

Necesitas Python 3.10 o una versión más reciente y, para la extracción en producción, un endpoint de NextPDF Connect. Instala el SDK con pip install nextpdf, o pip install nextpdf[mcp] para el servidor de agentes.

PáginaÚsala para
Descripción generalLo que ofrece el SDK, las opciones de backend y las limitaciones.
Inicio rápidoInstala el SDK y extrae texto citado con procedencia a nivel de página.
Referencia de la APIClientes, cadenas de métodos del AST, modelos de Pydantic, comandos de la CLI y excepciones.
Guía para desarrolladoresLímites de arquitectura, ciclo de vida en tiempo de ejecución, procesamiento por lotes asíncrono y manejo de fallos.
CLIEjecuta la extracción con reconocimiento de citas desde la terminal y procesa documentos grandes en streaming.
Servidor MCPExpón las herramientas de extracción a los agentes de IA compatibles con MCP.
SímboloFunción
NextPDFCliente síncrono para scripts, trabajos por lotes y notebooks.
AsyncNextPDFCliente asíncrono y administrador de contexto asíncrono para entornos de ejecución asyncio.
client.ast.get_document_ast()Construye el AST semántico completo a partir de los bytes del PDF.
client.ast.extract_cited_text()Extrae bloques de texto con anclas de cita.
client.ast.extract_cited_tables()Extrae tablas con anclas de cita a nivel de celda.
client.ast.search_ast_nodes()Busca nodos por tipo, página o consulta de texto.
client.ast.get_ast_diff()Compara dos versiones de PDF de forma estructural.
nextpdfInterfaz de línea de comandos para extraer desde la terminal y en pipelines.