Skip to content

API リファレンス

HTML ライブラリは以下のコアコンポーネントを提供します:

コンポーネント説明ドキュメント
パッケージ関数一回限りの呼び出しに適した便利関数パッケージ関数
Processorリソースとキャッシュを再利用するプロセッサインスタンスProcessor
Config設定構造体とプリセット設定
出力フォーマットMarkdown、JSON 出力出力フォーマット
リンク抽出独立したリンク抽出 APIリンク抽出
バッチ処理並列バッチ抽出バッチ処理
インターフェースExtractor、StatsProvider などインターフェース定義
Result、ImageInfo など型定義
定数とエラーデフォルト値、センチネルエラー定数とエラー
監査システム監査パイプラインと Sink監査システム

API 概要

2 つの呼び出しモード

text
┌─────────────────────────────────────────┐
│           パッケージ関数(便利モード)               │
│  html.Extract(data) → *Result, error    │
│  内部で sync.Pool を使って Processor を再利用       │
└─────────────────────────────────────────┘

┌─────────────────────────────────────────┐
│         Processor(インスタンスモード)             │
│  p, _ := html.New(cfg)                  │
│  defer p.Close()                        │
│  result, err := p.Extract(data)         │
│  ✓ キャッシュ再利用  ✓ 統計収集  ✓ 監査ログ      │
└─────────────────────────────────────────┘

関数の命名規則

パターン命名
基本Extract*Extract, ExtractText
ファイルからExtract*FromFileExtractFromFile
コンテキスト付きExtract*WithContextExtractWithContext
ファイル+コンテキストExtract*FromFileWithContextExtractFromFileWithContext

モジュール情報

  • モジュールパス: github.com/cybergodev/html
  • Go バージョン: 1.25+
  • 依存関係: golang.org/x/net, golang.org/x/text