Skip to content

API 参考

HTML 库提供以下核心组件:

组件说明文档
包函数便捷函数,适合一次性调用包函数
Processor处理器实例,复用资源和缓存Processor
Config配置结构体和预设配置
输出格式Markdown、JSON 输出输出格式
链接提取独立的链接提取 API链接提取
批量处理并发批量提取批量处理
接口Extractor、StatsProvider 等接口定义
类型Result、ImageInfo 等类型定义
常量与错误默认值、哨兵错误常量与错误
审计系统审计管道和 Sink审计系统

API 总览

两种调用模式

text
┌─────────────────────────────────────────┐
│           包函数(便捷模式)               │
│  html.Extract(data) → *Result, error    │
│  内部使用 sync.Pool 复用 Processor       │
└─────────────────────────────────────────┘

┌─────────────────────────────────────────┐
│         Processor(实例模式)             │
│  p, _ := html.New(cfg)                  │
│  defer p.Close()                        │
│  result, err := p.Extract(data)         │
│  ✓ 缓存复用  ✓ 统计收集  ✓ 审计日志      │
└─────────────────────────────────────────┘

函数命名规则

模式命名示例
基础Extract*Extract, ExtractText
从文件Extract*FromFileExtractFromFile
带上下文Extract*WithContextExtractWithContext
从文件+上下文Extract*FromFileWithContextExtractFromFileWithContext

模块信息

  • 模块路径: github.com/cybergodev/html
  • Go 版本: 1.25+
  • 依赖: golang.org/x/net, golang.org/x/text