Skip to content

API 레퍼런스

HTML 라이브러리는 다음 핵심 컴포넌트를 제공합니다:

컴포넌트설명문서
패키지 함수편의 함수, 일회성 호출에 적합패키지 함수
Processor프로세서 인스턴스, 리소스 및 캐시 재사용Processor
Config설정 구조체와 프리셋설정
출력 형식Markdown, JSON 출력출력 형식
링크 추출독립적인 링크 추출 API링크 추출
배치 처리동시성 배치 추출배치 처리
인터페이스Extractor, StatsProvider 등인터페이스 정의
타입Result, ImageInfo 등타입 정의
상수와 오류기본값, 센티넬 오류상수와 오류
감사 시스템감사 파이프라인과 Sink감사 시스템

API 개요

두 가지 호출 모드

text
┌─────────────────────────────────────────┐
│         패키지 함수(편의 모드)              │
│  html.Extract(data) → *Result, error    │
│  내부적으로 sync.Pool로 Processor 재사용   │
└─────────────────────────────────────────┘

┌─────────────────────────────────────────┐
│        Processor(인스턴스 모드)            │
│  p, _ := html.New(cfg)                  │
│  defer p.Close()                        │
│  result, err := p.Extract(data)         │
│  ✓ 캐시 재사용  ✓ 통계 수집  ✓ 감사 로그    │
└─────────────────────────────────────────┘

함수 명명 규칙

모드명명예시
기본Extract*Extract, ExtractText
파일에서Extract*FromFileExtractFromFile
컨텍스트 포함Extract*WithContextExtractWithContext
파일+컨텍스트Extract*FromFileWithContextExtractFromFileWithContext

모듈 정보

  • 모듈 경로: github.com/cybergodev/html
  • Go 버전: 1.25+
  • 의존성: golang.org/x/net, golang.org/x/text