SDK Python

En un coup d’œil

Utilise le kit de développement logiciel (SDK) Python de NextPDF lorsqu’une application Python, un service asyncio, un agent IA ou un workflow en ligne de commande a besoin d’une extraction PDF avec provenance. Le SDK renvoie des blocs structurés assortis d’ancres de citation — index de page, niveau de confiance, boîte englobante optionnelle et identifiant de nœud sémantique — afin que chaque valeur extraite reste traçable jusqu’à son emplacement source.

Le package fournit un client NextPDF synchrone pour les scripts et les notebooks, un client AsyncNextPDF asynchrone pour les environnements d’exécution asyncio, une interface de ligne de commande (CLI) nextpdf pour l’extraction en flux depuis de gros fichiers, et un serveur Model Context Protocol (MCP) optionnel afin que les agents IA puissent appeler directement les outils d’extraction. Ces quatre modes d’accès donnent accès à la même surface d’arbre syntaxique abstrait (AST) via un endpoint NextPDF Connect.

Il te faut Python 3.10 ou plus récent et, pour l’extraction en production, un endpoint NextPDF Connect. Installe le SDK avec pip install nextpdf, ou pip install nextpdf[mcp] pour le serveur destiné aux agents.

Plan de la section

Page	À utiliser pour
Vue d’ensemble	Ce que fournit le SDK, les choix de backend et ses limites.
Démarrage rapide	Installe le SDK et extrais du texte cité avec une provenance au niveau de la page.
Référence de l’API	Clients, enchaînements de méthodes AST, modèles Pydantic, commandes CLI et exceptions.
Guide du développeur	Frontière architecturale, cycle de vie d’exécution, traitement par lots asynchrone et gestion des erreurs.
CLI	Lance une extraction avec prise en charge des citations depuis le terminal et traite de gros documents en flux.
Serveur MCP	Expose les outils d’extraction aux agents IA compatibles MCP.

Principales API

Symbole	Rôle
`NextPDF`	Client synchrone pour les scripts, les traitements par lots et les notebooks.
`AsyncNextPDF`	Client et gestionnaire de contexte asynchrones pour les environnements d’exécution asyncio.
`client.ast.get_document_ast()`	Construit l’AST sémantique complet à partir d’octets de PDF.
`client.ast.extract_cited_text()`	Extrait des blocs de texte avec des ancres de citation.
`client.ast.extract_cited_tables()`	Extrait des tableaux avec des ancres de citation au niveau de la cellule.
`client.ast.search_ast_nodes()`	Recherche des nœuds par type, par page ou par requête textuelle.
`client.ast.get_ast_diff()`	Compare structurellement deux versions de PDF.
`nextpdf`	Interface de ligne de commande pour l’extraction depuis le terminal et dans les pipelines.

Voir aussi

Vue d’ensemble du SDK Python — capacités, backends et limites.
Démarrage rapide du SDK Python — ta première extraction.
Référence de l’API Python — chaque symbole public.