SDK para Python

De un vistazo

Usa el kit de desarrollo de software (SDK) para Python de NextPDF cuando una aplicación de Python, un servicio asyncio, un agente de IA o un flujo de trabajo de terminal necesite extracción de PDF con procedencia. El SDK devuelve bloques estructurados con anclas de cita —índice de página, confianza, recuadro delimitador opcional y un identificador de nodo semántico—, de modo que cada valor extraído pueda rastrearse hasta su ubicación de origen.

El paquete incluye un cliente síncrono NextPDF para scripts y notebooks, un cliente asíncrono AsyncNextPDF para entornos de ejecución asyncio, una interfaz de línea de comandos (CLI) nextpdf para la extracción en streaming desde archivos grandes y un servidor Model Context Protocol (MCP) opcional, para que los agentes de IA puedan invocar directamente las herramientas de extracción. Las cuatro rutas acceden a la misma superficie del árbol de sintaxis abstracta (AST) a través de un endpoint de NextPDF Connect.

Necesitas Python 3.10 o una versión más reciente y, para la extracción en producción, un endpoint de NextPDF Connect. Instala el SDK con pip install nextpdf, o pip install nextpdf[mcp] para el servidor de agentes.

Mapa de secciones

Página	Úsala para
Descripción general	Lo que ofrece el SDK, las opciones de backend y las limitaciones.
Inicio rápido	Instala el SDK y extrae texto citado con procedencia a nivel de página.
Referencia de la API	Clientes, cadenas de métodos del AST, modelos de Pydantic, comandos de la CLI y excepciones.
Guía para desarrolladores	Límites de arquitectura, ciclo de vida en tiempo de ejecución, procesamiento por lotes asíncrono y manejo de fallos.
CLI	Ejecuta la extracción con reconocimiento de citas desde la terminal y procesa documentos grandes en streaming.
Servidor MCP	Expón las herramientas de extracción a los agentes de IA compatibles con MCP.

APIs principales

Símbolo	Función
`NextPDF`	Cliente síncrono para scripts, trabajos por lotes y notebooks.
`AsyncNextPDF`	Cliente asíncrono y administrador de contexto asíncrono para entornos de ejecución asyncio.
`client.ast.get_document_ast()`	Construye el AST semántico completo a partir de los bytes del PDF.
`client.ast.extract_cited_text()`	Extrae bloques de texto con anclas de cita.
`client.ast.extract_cited_tables()`	Extrae tablas con anclas de cita a nivel de celda.
`client.ast.search_ast_nodes()`	Busca nodos por tipo, página o consulta de texto.
`client.ast.get_ast_diff()`	Compara dos versiones de PDF de forma estructural.
`nextpdf`	Interfaz de línea de comandos para extraer desde la terminal y en pipelines.

Consulta también

Descripción general del SDK de Python — capacidades, backends y límites.
Inicio rápido del SDK de Python — tu primera extracción.
Referencia de la API de Python — cada símbolo público.