第十届中国开源年会,12月6-7日,北京, 查看详情

Sensitive-lexicon

Sensitive-lexicon 是一个持续更新的中文敏感词库,便于在文本审核流程中识别与过滤不当内容。

详细介绍

Sensitive-lexicon 是一个社区维护的中文敏感词库,收录了覆盖政治、色情、暴力等领域的敏感词条,目标是为内容审核与合规场景提供易于集成的词表资源。词库以纯文本格式组织,便于在不同语言与框架中直接使用,并通过社区协作定期更新以保持时效性。

主要特性

  • 广泛覆盖:包含大量敏感词条,覆盖主流敏感类别。
  • 易于集成:以文本形式发布,支持多种匹配算法(DFA、Trie、正则等)。
  • 社区驱动:鼓励通过 Issue/PR 贡献新词并参与维护。
  • 工具支持:项目同时提供敏感词检测服务与示例,便于快速部署。

使用场景

  • 内容审核:在用户生成内容(UGC)平台中进行实时或离线过滤。
  • 合规检测:帮助平台在多地域法规要求下预筛查潜在违规文本。
  • 研究与分析:作为语料或工具用于文本分类与敏感性研究。

技术特点

  • 提供纯文本词库与组织良好的目录结构,支持按需裁剪与本地化。
  • 可结合高效的匹配算法与服务化部署实现低延迟检测。
  • 采用 MIT 许可证,便于在开源与商业项目中被复用。
Sensitive-lexicon
资源信息
🛡️ 安全 🌱 开源