如何过滤html标签

可用正则表达式 re.sub(']+>', '', text) 移除HTML标签，或借助BeautifulSoup库

为何需要过滤HTML标签？

任何接收外部HTML的场景（论坛发帖、商品详情页、邮件模板）都必须实施严格的过滤机制。

主流过滤方案对比表

方案	原理	优点	缺点	适用场景
正则表达式	模式匹配替换非法标签	轻量级、无需依赖库	无法处理嵌套标签/复杂结构	简单文本清理
DOM解析器	构建文档树后删除危险节点	精准识别标签层级关系	性能较低（大文件耗时长）	高安全性要求的系统
白名单机制	仅保留预定义的安全标签/属性	最大限度降低XSS风险	限制过多可能导致功能缺失	UGCC类内容发布平台
沙箱隔离	在独立环境中执行HTML渲染	彻底阻断JS执行/网络请求	兼容性差（部分CSS/JS失效）	的预览展示
转义编码	将特殊字符转为实体引用	完全消除标签语义	失去所有样式控制	纯文本存储场景

实战方案详解（附代码示例）

✅ 推荐方案：基于白名单的DOM解析器（Python版）

from bs4 import BeautifulSoup, Tag
import re
def filter_html(html_content, allowed_tags={'p', 'br', 'strong', 'em'}, allowed_attrs={}):
    """
    参数说明：
    html_content: 原始HTML字符串
    allowed_tags: 允许保留的标签集合
    allowed_attrs: 各标签允许的属性字典 {tag_name: [attr1, attr2]}
    """
    soup = BeautifulSoup(html_content, 'html.parser')
    for tag in soup.find_all(True):  # True表示匹配所有标签
        if tag.name not in allowed_tags:
            tag.decompose()  # 删除不在白名单的标签及其子内容
            continue
        # 过滤属性
        valid_attrs = allowed_attrs.get(tag.name, [])
        for attr in list(tag.attrs.keys()):
            if attr not in valid_attrs:
                del tag[attr]
    return str(soup)
# 使用示例
raw_input = "<script>alert('xss');</script><p style='color:red'>Hello <b>World</b></p>"
safe_output = filter_html(raw_input, 
                         allowed_tags={'p', 'b'}, 
                         allowed_attrs={'p': ['class']})
print(safe_output)  # 输出: <p>Hello <b>World</b></p>

关键优化点：

递归遍历：find_all(True)可捕获所有层级的嵌套标签
属性分级控制：不同标签可设置不同允许属性（如img标签允许src但禁止onerror）
特殊处理列表：对<ul>/<ol>等容器标签需额外保留其子元素结构

⚠️ 避坑指南：常见错误做法

错误做法	风险说明	替代方案
`blacklist.replace('<','<')`	无法识别变形写法（如大小写混合/注释）	改用专业解析器+白名单
直接strip掉尖括号	破坏正常标签结构（如`<a href="...">`）	结合语法树分析
信任前端校验	客户端验证可被绕过	服务端二次过滤必做
启用`innerHTML`赋值	多数框架存在XSS漏洞（React/Vue同理）	强制使用危险操作前的过滤

进阶安全策略

🔒 深度防御组合拳

双重过滤机制：
- 第一层：客户端实时校验（即时反馈错误）
- 第二层：服务端最终过滤（不可绕过）类型区分：
- 纯文本区域：直接转义所有HTML字符
- 富文本区域：严格限制可用标签集
日志审计：记录被过滤的敏感词/标签，用于追溯攻击尝试

🛡️ 特殊标签处理规范

标签类型	处理建议	示例配置
`<iframe>`	原则上禁止，如需嵌入视频改用可信平台UID	完全移除
`<object>`	同上，禁用data/type属性	完全移除
`<meta>`	HTTP-EQUIV属性可能导致重定向劫持	仅保留charset相关属性
`<form>`	action/method属性必须严格控制	固定为当前域名+POST方法

不同场景的配置参考

应用场景	推荐白名单配置	补充措施
文章评论区	p, br, em, strong, a[href, target=”_blank”]	外链添加noreferrer/noopener
电商商品描述	table, tr, td, th, span, font, center	禁用script/style/object
Markdown转HTML	pre, code, blockquote, h1-h6	自动转义未列在白名单的标签
邮件签名档	font, color, face, size	剥离所有事件处理属性

常见问题FAQs

Q1: 如果业务需求确实需要允许用户使用图片怎么办？

A: 可采用「可控上传+CDN分发」方案：

用户上传图片→后端校验文件类型/尺寸→存储至OSS/COS
前端插入<img>标签时，src指向CDN地址而非本地路径
同时过滤掉onerror等危险属性，示例配置：
```
allowed_tags = {'img'}
allowed_attrs = {'img': ['src', 'alt', 'width', 'height']}
```
⚠️ 注意：绝对禁止用户直接输入<img src="external-site.com/malicious.jpg">！

Q2: 如何处理用户粘贴来自Word/WPS的带格式文本？

A: 分两步处理：

初次清洗：用正则移除<o:p>等Office专有标签，保留基础排版标签
```
<o:[^>]+>.?</o:[^>]+> → "" (全删除)
```
二次过滤：应用标准白名单，将复杂样式转换为安全替代方案：
- <font color="#FF0000"> → <span style="color:red">
- <u> → <span style="text-decoration:underline">
最终建议引导用户使用Markdown语法,比原生HTML更安全可控。

归纳与建议

永远不要信任任何外部输入：即使来自内部系统也应做过滤
优先选择成熟库：BeautifulSoup/Jsoup等经过长期测试的工具比自制正则更可靠
定期更新规则库：关注OWASP Top 10中的新型攻击向量
测试覆盖率要达到100%：特别测试边界条件（空标签、自闭合标签、注释等）
性能权衡：对高频访问页面可采用缓存已过滤结果的策略

通过上述体系化的防护措施，可在保障用户体验的同时，将XSS攻击风险降至最低，实际部署时应结合具体业务场景调整白名单配置，并建立持续的安全

原创文章，发布者：酷盾叔，转转请注明出处：https://www.kd.cn/ask/95562.html

如何过滤html标签

为何需要过滤HTML标签？

主流过滤方案对比表