콘텐츠로 이동

Python SDK 가이드

Python 애플리케이션, asyncio 서비스, AI 에이전트 또는 터미널 워크플로에서 출처가 포함된 PDF 추출이 필요하다면 NextPDF Python Software Development Kit(SDK)를 사용합니다. SDK는 페이지 인덱스, 신뢰도, 선택적 경계 상자, 시맨틱 노드 식별자 같은 인용 앵커를 담은 구조화된 블록을 반환하므로, 추출된 모든 값을 원본 위치까지 추적할 수 있습니다.

이 패키지는 스크립트와 노트북용 동기 NextPDF 클라이언트, asyncio 런타임용 비동기 AsyncNextPDF 클라이언트, 대용량 파일에서 스트리밍 추출을 수행하는 nextpdf 명령줄 인터페이스(CLI), 그리고 AI 에이전트가 추출 도구를 직접 호출할 수 있게 해 주는 선택적 Model Context Protocol(MCP) 서버를 제공합니다. 네 가지 경로는 모두 NextPDF Connect 엔드포인트를 통해 동일한 추상 구문 트리(AST) API 표면에 접근합니다.

Python 3.10 이상이 필요하며, 프로덕션 추출에는 NextPDF Connect 엔드포인트가 필요합니다. pip install nextpdf로 SDK를 설치하거나, 에이전트 서버에는 pip install nextpdf[mcp]를 사용합니다.

페이지용도
개요SDK가 제공하는 기능, 백엔드 선택지, 제한 사항.
빠른 시작SDK를 설치하고 페이지 수준 출처가 포함된 인용 텍스트를 추출합니다.
API 레퍼런스클라이언트, AST 메서드 체인, Pydantic 모델, CLI 명령, 예외.
개발자 가이드아키텍처 경계, 런타임 수명 주기, 비동기 배치 처리, 실패 처리.
CLI터미널에서 인용 인식 추출을 실행하고 대용량 문서를 스트리밍합니다.
MCP 서버MCP를 지원하는 AI 에이전트에 추출 도구를 노출합니다.
심볼역할
NextPDF스크립트, 배치 작업, 노트북을 위한 동기 클라이언트.
AsyncNextPDFasyncio 런타임을 위한 비동기 클라이언트이자 비동기 컨텍스트 매니저.
client.ast.get_document_ast()PDF 바이트에서 전체 시맨틱 AST를 빌드합니다.
client.ast.extract_cited_text()인용 앵커가 포함된 텍스트 블록을 추출합니다.
client.ast.extract_cited_tables()셀 수준 인용 앵커가 포함된 표를 추출합니다.
client.ast.search_ast_nodes()유형, 페이지 또는 텍스트 쿼리로 노드를 찾습니다.
client.ast.get_ast_diff()두 PDF 버전을 구조적으로 비교합니다.
nextpdf터미널 및 파이프라인 추출을 위한 명령줄 인터페이스.