Przejdź do głównej zawartości

Python SDK

Użyj SDK NextPDF dla języka Python, gdy aplikacja w Pythonie, usługa asyncio, agent AI lub przepływ pracy w terminalu wymaga ekstrakcji treści z PDF wraz z informacją o pochodzeniu danych. SDK zwraca ustrukturyzowane bloki z kotwicami cytowań: indeks strony, poziom pewności, opcjonalny prostokąt ograniczający i semantyczny identyfikator węzła. Każdą wydobytą wartość można prześledzić aż do jej lokalizacji źródłowej.

Pakiet obejmuje synchronicznego klienta NextPDF do skryptów i notatników, asynchronicznego klienta AsyncNextPDF dla środowisk uruchomieniowych asyncio, interfejs wiersza poleceń (CLI) nextpdf do strumieniowej ekstrakcji dużych plików oraz opcjonalny serwer Model Context Protocol (MCP), który pozwala agentom AI bezpośrednio wywoływać narzędzia ekstrakcji. Wszystkie cztery ścieżki korzystają z tego samego interfejsu abstrakcyjnego drzewa składniowego (AST) za pośrednictwem punktu końcowego NextPDF Connect.

Wymagany jest Python 3.10 lub nowszy oraz, do ekstrakcji w środowisku produkcyjnym, punkt końcowy NextPDF Connect. Zainstaluj SDK poleceniem pip install nextpdf. W przypadku serwera dla agentów użyj pip install nextpdf[mcp].

StronaZastosowanie
PrzeglądCo zapewnia SDK, który backend wybrać i jakie ma ograniczenia.
Szybki startZainstaluj SDK i wydobądź tekst z cytowaniami oraz informacją o pochodzeniu na poziomie strony.
Dokumentacja APIKlienci, łańcuchy metod AST, modele Pydantic, polecenia CLI i wyjątki.
Przewodnik dla programistówGranice architektury, cykl życia środowiska uruchomieniowego, asynchroniczne przetwarzanie wsadowe i obsługa błędów.
CLIUruchamiaj ekstrakcję z obsługą cytowań w terminalu i strumieniowo przetwarzaj duże dokumenty.
Serwer MCPUdostępniaj narzędzia ekstrakcji agentom AI obsługującym MCP.
SymbolRola
NextPDFSynchroniczny klient do skryptów, zadań wsadowych i notatników.
AsyncNextPDFAsynchroniczny klient i menedżer kontekstu dla środowisk uruchomieniowych asyncio.
client.ast.get_document_ast()Buduje pełne semantyczne AST z bajtów pliku PDF.
client.ast.extract_cited_text()Wydobywa bloki tekstu z kotwicami cytowań.
client.ast.extract_cited_tables()Wydobywa tabele z kotwicami cytowań na poziomie komórek.
client.ast.search_ast_nodes()Wyszukuje węzły według typu, strony lub zapytania tekstowego.
client.ast.get_ast_diff()Strukturalnie porównuje dwie wersje pliku PDF.
nextpdfInterfejs wiersza poleceń do ekstrakcji w terminalu i potokach przetwarzania.