Skip to content

Справочник API

Библиотека HTML предоставляет следующие ключевые компоненты:

КомпонентОписаниеДокументация
Функции пакетаУдобные функции для однократных вызововФункции пакета
ProcessorЭкземпляр процессора с повторным использованием ресурсов и кэшаProcessor
ConfigСтруктура конфигурации и предустановкиКонфигурация
Форматы выводаВывод в Markdown, JSONФорматы вывода
Извлечение ссылокНезависимый API извлечения ссылокИзвлечение ссылок
Пакетная обработкаПараллельное пакетное извлечениеПакетная обработка
ИнтерфейсыExtractor, StatsProvider и др.Определение интерфейсов
ТипыResult, ImageInfo и др.Определения типов
Константы и ошибкиЗначения по умолчанию, сигнатурные ошибкиКонстанты и ошибки
Система аудитаКонвейер аудита и SinkСистема аудита

Обзор API

Два режима вызова

text
┌─────────────────────────────────────────┐
│      Функции пакета (удобный режим)       │
│  html.Extract(data) → *Result, error    │
│  Внутренне используют sync.Pool          │
│  для повторного использования Processor  │
└─────────────────────────────────────────┘

┌─────────────────────────────────────────┐
│       Processor (режим экземпляра)        │
│  p, _ := html.New(cfg)                  │
│  defer p.Close()                        │
│  result, err := p.Extract(data)         │
│  ✓ Повторное использование кэша          │
│  ✓ Сбор статистики  ✓ Журнал аудита      │
└─────────────────────────────────────────┘

Правила именования функций

ПаттернИменованиеПример
БазовыйExtract*Extract, ExtractText
Из файлаExtract*FromFileExtractFromFile
С контекстомExtract*WithContextExtractWithContext
Из файла + контекстExtract*FromFileWithContextExtractFromFileWithContext

Информация о модуле

  • Путь к модулю: github.com/cybergodev/html
  • Версия Go: 1.25+
  • Зависимости: golang.org/x/net, golang.org/x/text