API 参考

HTML 库提供以下核心组件：

组件	说明	文档
包函数	便捷函数，适合一次性调用	包函数
Processor	处理器实例，复用资源和缓存	Processor
Config	配置结构体和预设	配置
输出格式	Markdown、JSON 输出	输出格式
链接提取	独立的链接提取 API	链接提取
批量处理	并发批量提取	批量处理
接口	Extractor、StatsProvider 等	接口定义
类型	Result、ImageInfo 等	类型定义
常量与错误	默认值、哨兵错误	常量与错误
审计系统	审计管道和 Sink	审计系统

API 总览

两种调用模式

text

┌─────────────────────────────────────────┐
│           包函数（便捷模式）               │
│  html.Extract(data) → *Result, error    │
│  内部使用 sync.Pool 复用 Processor       │
└─────────────────────────────────────────┘

┌─────────────────────────────────────────┐
│         Processor（实例模式）             │
│  p, _ := html.New(cfg)                  │
│  defer p.Close()                        │
│  result, err := p.Extract(data)         │
│  ✓ 缓存复用  ✓ 统计收集  ✓ 审计日志      │
└─────────────────────────────────────────┘

函数命名规则

模式	命名	示例
基础	`Extract*`	`Extract`, `ExtractText`
从文件	`Extract*FromFile`	`ExtractFromFile`
带上下文	`Extract*WithContext`	`ExtractWithContext`
从文件 + 上下文	`Extract*FromFileWithContext`	`ExtractFromFileWithContext`

模块信息

模块路径: github.com/cybergodev/html
Go 版本: 1.25+
依赖: golang.org/x/net, golang.org/x/text

API 参考 ​

API 总览 ​

两种调用模式 ​

函数命名规则 ​

模块信息 ​

API 参考

API 总览

两种调用模式

函数命名规则

模块信息