Python SDK
W skrócie
Dział zatytułowany „W skrócie”Użyj SDK NextPDF dla języka Python, gdy aplikacja w Pythonie, usługa asyncio, agent AI lub przepływ pracy w terminalu wymaga ekstrakcji treści z PDF wraz z informacją o pochodzeniu danych. SDK zwraca ustrukturyzowane bloki z kotwicami cytowań: indeks strony, poziom pewności, opcjonalny prostokąt ograniczający i semantyczny identyfikator węzła. Każdą wydobytą wartość można prześledzić aż do jej lokalizacji źródłowej.
Pakiet obejmuje synchronicznego klienta NextPDF do skryptów i notatników, asynchronicznego klienta AsyncNextPDF dla środowisk uruchomieniowych asyncio, interfejs wiersza poleceń (CLI) nextpdf do strumieniowej ekstrakcji dużych plików oraz opcjonalny serwer Model Context Protocol (MCP), który pozwala agentom AI bezpośrednio wywoływać narzędzia ekstrakcji. Wszystkie cztery ścieżki korzystają z tego samego interfejsu abstrakcyjnego drzewa składniowego (AST) za pośrednictwem punktu końcowego NextPDF Connect.
Wymagany jest Python 3.10 lub nowszy oraz, do ekstrakcji w środowisku produkcyjnym, punkt końcowy NextPDF Connect. Zainstaluj SDK poleceniem pip install nextpdf. W przypadku serwera dla agentów użyj pip install nextpdf[mcp].
Mapa sekcji
Dział zatytułowany „Mapa sekcji”| Strona | Zastosowanie |
|---|---|
| Przegląd | Co zapewnia SDK, który backend wybrać i jakie ma ograniczenia. |
| Szybki start | Zainstaluj SDK i wydobądź tekst z cytowaniami oraz informacją o pochodzeniu na poziomie strony. |
| Dokumentacja API | Klienci, łańcuchy metod AST, modele Pydantic, polecenia CLI i wyjątki. |
| Przewodnik dla programistów | Granice architektury, cykl życia środowiska uruchomieniowego, asynchroniczne przetwarzanie wsadowe i obsługa błędów. |
| CLI | Uruchamiaj ekstrakcję z obsługą cytowań w terminalu i strumieniowo przetwarzaj duże dokumenty. |
| Serwer MCP | Udostępniaj narzędzia ekstrakcji agentom AI obsługującym MCP. |
Główne interfejsy API
Dział zatytułowany „Główne interfejsy API”| Symbol | Rola |
|---|---|
NextPDF | Synchroniczny klient do skryptów, zadań wsadowych i notatników. |
AsyncNextPDF | Asynchroniczny klient i menedżer kontekstu dla środowisk uruchomieniowych asyncio. |
client.ast.get_document_ast() | Buduje pełne semantyczne AST z bajtów pliku PDF. |
client.ast.extract_cited_text() | Wydobywa bloki tekstu z kotwicami cytowań. |
client.ast.extract_cited_tables() | Wydobywa tabele z kotwicami cytowań na poziomie komórek. |
client.ast.search_ast_nodes() | Wyszukuje węzły według typu, strony lub zapytania tekstowego. |
client.ast.get_ast_diff() | Strukturalnie porównuje dwie wersje pliku PDF. |
nextpdf | Interfejs wiersza poleceń do ekstrakcji w terminalu i potokach przetwarzania. |
Zobacz także
Dział zatytułowany „Zobacz także”- Przegląd Python SDK — możliwości, backendy i ograniczenia.
- Szybki start Python SDK — pierwsza ekstrakcja.
- Dokumentacja API Python — wszystkie symbole publiczne.