Справочник API
Библиотека HTML предоставляет следующие ключевые компоненты:
| Компонент | Описание | Документация |
|---|---|---|
| Функции пакета | Удобные функции для однократных вызовов | Функции пакета |
| Processor | Экземпляр процессора с повторным использованием ресурсов и кэша | Processor |
| Config | Структура конфигурации и предустановки | Конфигурация |
| Форматы вывода | Вывод в Markdown, JSON | Форматы вывода |
| Извлечение ссылок | Независимый API извлечения ссылок | Извлечение ссылок |
| Пакетная обработка | Параллельное пакетное извлечение | Пакетная обработка |
| Интерфейсы | Extractor, StatsProvider и др. | Определение интерфейсов |
| Типы | Result, ImageInfo и др. | Определения типов |
| Константы и ошибки | Значения по умолчанию, сигнатурные ошибки | Константы и ошибки |
| Система аудита | Конвейер аудита и Sink | Система аудита |
Обзор API
Два режима вызова
text
┌─────────────────────────────────────────┐
│ Функции пакета (удобный режим) │
│ html.Extract(data) → *Result, error │
│ Внутренне используют sync.Pool │
│ для повторного использования Processor │
└─────────────────────────────────────────┘
┌─────────────────────────────────────────┐
│ Processor (режим экземпляра) │
│ p, _ := html.New(cfg) │
│ defer p.Close() │
│ result, err := p.Extract(data) │
│ ✓ Повторное использование кэша │
│ ✓ Сбор статистики ✓ Журнал аудита │
└─────────────────────────────────────────┘Правила именования функций
| Паттерн | Именование | Пример |
|---|---|---|
| Базовый | Extract* | Extract, ExtractText |
| Из файла | Extract*FromFile | ExtractFromFile |
| С контекстом | Extract*WithContext | ExtractWithContext |
| Из файла + контекст | Extract*FromFileWithContext | ExtractFromFileWithContext |
Информация о модуле
- Путь к модулю:
github.com/cybergodev/html - Версия Go: 1.25+
- Зависимости:
golang.org/x/net,golang.org/x/text