Python SDK

W skrócie

Użyj SDK NextPDF dla języka Python, gdy aplikacja w Pythonie, usługa asyncio, agent AI lub przepływ pracy w terminalu wymaga ekstrakcji treści z PDF wraz z informacją o pochodzeniu danych. SDK zwraca ustrukturyzowane bloki z kotwicami cytowań: indeks strony, poziom pewności, opcjonalny prostokąt ograniczający i semantyczny identyfikator węzła. Każdą wydobytą wartość można prześledzić aż do jej lokalizacji źródłowej.

Pakiet obejmuje synchronicznego klienta NextPDF do skryptów i notatników, asynchronicznego klienta AsyncNextPDF dla środowisk uruchomieniowych asyncio, interfejs wiersza poleceń (CLI) nextpdf do strumieniowej ekstrakcji dużych plików oraz opcjonalny serwer Model Context Protocol (MCP), który pozwala agentom AI bezpośrednio wywoływać narzędzia ekstrakcji. Wszystkie cztery ścieżki korzystają z tego samego interfejsu abstrakcyjnego drzewa składniowego (AST) za pośrednictwem punktu końcowego NextPDF Connect.

Wymagany jest Python 3.10 lub nowszy oraz, do ekstrakcji w środowisku produkcyjnym, punkt końcowy NextPDF Connect. Zainstaluj SDK poleceniem pip install nextpdf. W przypadku serwera dla agentów użyj pip install nextpdf[mcp].

Mapa sekcji

Strona	Zastosowanie
Przegląd	Co zapewnia SDK, który backend wybrać i jakie ma ograniczenia.
Szybki start	Zainstaluj SDK i wydobądź tekst z cytowaniami oraz informacją o pochodzeniu na poziomie strony.
Dokumentacja API	Klienci, łańcuchy metod AST, modele Pydantic, polecenia CLI i wyjątki.
Przewodnik dla programistów	Granice architektury, cykl życia środowiska uruchomieniowego, asynchroniczne przetwarzanie wsadowe i obsługa błędów.
CLI	Uruchamiaj ekstrakcję z obsługą cytowań w terminalu i strumieniowo przetwarzaj duże dokumenty.
Serwer MCP	Udostępniaj narzędzia ekstrakcji agentom AI obsługującym MCP.

Główne interfejsy API

Symbol	Rola
`NextPDF`	Synchroniczny klient do skryptów, zadań wsadowych i notatników.
`AsyncNextPDF`	Asynchroniczny klient i menedżer kontekstu dla środowisk uruchomieniowych asyncio.
`client.ast.get_document_ast()`	Buduje pełne semantyczne AST z bajtów pliku PDF.
`client.ast.extract_cited_text()`	Wydobywa bloki tekstu z kotwicami cytowań.
`client.ast.extract_cited_tables()`	Wydobywa tabele z kotwicami cytowań na poziomie komórek.
`client.ast.search_ast_nodes()`	Wyszukuje węzły według typu, strony lub zapytania tekstowego.
`client.ast.get_ast_diff()`	Strukturalnie porównuje dwie wersje pliku PDF.
`nextpdf`	Interfejs wiersza poleceń do ekstrakcji w terminalu i potokach przetwarzania.

Zobacz także

Przegląd Python SDK — możliwości, backendy i ograniczenia.
Szybki start Python SDK — pierwsza ekstrakcja.
Dokumentacja API Python — wszystkie symbole publiczne.