Aller au contenu

SDK Python

Utilise le kit de développement logiciel (SDK) Python de NextPDF lorsqu’une application Python, un service asyncio, un agent IA ou un workflow en ligne de commande a besoin d’une extraction PDF avec provenance. Le SDK renvoie des blocs structurés assortis d’ancres de citation — index de page, niveau de confiance, boîte englobante optionnelle et identifiant de nœud sémantique — afin que chaque valeur extraite reste traçable jusqu’à son emplacement source.

Le package fournit un client NextPDF synchrone pour les scripts et les notebooks, un client AsyncNextPDF asynchrone pour les environnements d’exécution asyncio, une interface de ligne de commande (CLI) nextpdf pour l’extraction en flux depuis de gros fichiers, et un serveur Model Context Protocol (MCP) optionnel afin que les agents IA puissent appeler directement les outils d’extraction. Ces quatre modes d’accès donnent accès à la même surface d’arbre syntaxique abstrait (AST) via un endpoint NextPDF Connect.

Il te faut Python 3.10 ou plus récent et, pour l’extraction en production, un endpoint NextPDF Connect. Installe le SDK avec pip install nextpdf, ou pip install nextpdf[mcp] pour le serveur destiné aux agents.

PageÀ utiliser pour
Vue d’ensembleCe que fournit le SDK, les choix de backend et ses limites.
Démarrage rapideInstalle le SDK et extrais du texte cité avec une provenance au niveau de la page.
Référence de l’APIClients, enchaînements de méthodes AST, modèles Pydantic, commandes CLI et exceptions.
Guide du développeurFrontière architecturale, cycle de vie d’exécution, traitement par lots asynchrone et gestion des erreurs.
CLILance une extraction avec prise en charge des citations depuis le terminal et traite de gros documents en flux.
Serveur MCPExpose les outils d’extraction aux agents IA compatibles MCP.
SymboleRôle
NextPDFClient synchrone pour les scripts, les traitements par lots et les notebooks.
AsyncNextPDFClient et gestionnaire de contexte asynchrones pour les environnements d’exécution asyncio.
client.ast.get_document_ast()Construit l’AST sémantique complet à partir d’octets de PDF.
client.ast.extract_cited_text()Extrait des blocs de texte avec des ancres de citation.
client.ast.extract_cited_tables()Extrait des tableaux avec des ancres de citation au niveau de la cellule.
client.ast.search_ast_nodes()Recherche des nœuds par type, par page ou par requête textuelle.
client.ast.get_ast_diff()Compare structurellement deux versions de PDF.
nextpdfInterface de ligne de commande pour l’extraction depuis le terminal et dans les pipelines.