SDK para Python
De un vistazo
Sección titulada «De un vistazo»Usa el kit de desarrollo de software (SDK) para Python de NextPDF cuando una aplicación de Python, un servicio asyncio, un agente de IA o un flujo de trabajo de terminal necesite extracción de PDF con procedencia. El SDK devuelve bloques estructurados con anclas de cita —índice de página, confianza, recuadro delimitador opcional y un identificador de nodo semántico—, de modo que cada valor extraído pueda rastrearse hasta su ubicación de origen.
El paquete incluye un cliente síncrono NextPDF para scripts y notebooks, un cliente asíncrono AsyncNextPDF para entornos de ejecución asyncio, una interfaz de línea de comandos (CLI) nextpdf para la extracción en streaming desde archivos grandes y un servidor Model Context Protocol (MCP) opcional, para que los agentes de IA puedan invocar directamente las herramientas de extracción. Las cuatro rutas acceden a la misma superficie del árbol de sintaxis abstracta (AST) a través de un endpoint de NextPDF Connect.
Necesitas Python 3.10 o una versión más reciente y, para la extracción en producción, un endpoint de NextPDF Connect. Instala el SDK con pip install nextpdf, o pip install nextpdf[mcp] para el servidor de agentes.
Mapa de secciones
Sección titulada «Mapa de secciones»| Página | Úsala para |
|---|---|
| Descripción general | Lo que ofrece el SDK, las opciones de backend y las limitaciones. |
| Inicio rápido | Instala el SDK y extrae texto citado con procedencia a nivel de página. |
| Referencia de la API | Clientes, cadenas de métodos del AST, modelos de Pydantic, comandos de la CLI y excepciones. |
| Guía para desarrolladores | Límites de arquitectura, ciclo de vida en tiempo de ejecución, procesamiento por lotes asíncrono y manejo de fallos. |
| CLI | Ejecuta la extracción con reconocimiento de citas desde la terminal y procesa documentos grandes en streaming. |
| Servidor MCP | Expón las herramientas de extracción a los agentes de IA compatibles con MCP. |
APIs principales
Sección titulada «APIs principales»| Símbolo | Función |
|---|---|
NextPDF | Cliente síncrono para scripts, trabajos por lotes y notebooks. |
AsyncNextPDF | Cliente asíncrono y administrador de contexto asíncrono para entornos de ejecución asyncio. |
client.ast.get_document_ast() | Construye el AST semántico completo a partir de los bytes del PDF. |
client.ast.extract_cited_text() | Extrae bloques de texto con anclas de cita. |
client.ast.extract_cited_tables() | Extrae tablas con anclas de cita a nivel de celda. |
client.ast.search_ast_nodes() | Busca nodos por tipo, página o consulta de texto. |
client.ast.get_ast_diff() | Compara dos versiones de PDF de forma estructural. |
nextpdf | Interfaz de línea de comandos para extraer desde la terminal y en pipelines. |
Consulta también
Sección titulada «Consulta también»- Descripción general del SDK de Python — capacidades, backends y límites.
- Inicio rápido del SDK de Python — tu primera extracción.
- Referencia de la API de Python — cada símbolo público.