html如何转换txt文件

酷盾叔 • 2025年7月29日 15:52 • 前端开发 • 阅读 26

HTML文件另存为时，选择“纯文本”或“所有文件”类型，并

将HTML文件转换为TXT文件的方法汇总

以下是几种常见的将HTML文件转换为TXT文件的方法,每种方法都有其特点和适用场景：

方法	步骤	优点	缺点
文本编辑器手动转换	打开HTML文件（如记事本、Sublime Text等）。复制全部内容（Ctrl+A → Ctrl+C）。粘贴到新TXT文件中并保存（Ctrl+V → 保存）。	简单直接，无需额外工具。	需手动删除HTML标签，效率低；大型文件处理困难。
修改文件扩展名	显示文件扩展名（如.html）。右键重命名，将`.html`改为`.txt`。确认保存。	操作极简，一秒完成。	仅更改后缀，文件内容仍包含HTML标签和代码，非纯文本。
在线转换工具	搜索“HTML转TXT在线工具”（如Zamzar、Convertio）。上传HTML文件。下载转换后的TXT文件。	快速便捷，支持批量转换。	需网络连接；部分工具有文件大小或格式限制。
Python脚本自动化	安装Python及库（如BeautifulSoup）。编写脚本读取HTML文件并提取文本。保存为TXT文件。	灵活高效，适合批量处理或定制化需求（如忽略链接、图片）。	需要编程基础；需安装环境。
命令行工具（Pandoc/HTML2Text）	安装工具（如`brew install pandoc`）。运行命令转换（如`pandoc example.html -o example.txt`）。	轻量级、自动化程度高；支持复杂参数配置（如换行、宽度）。	需熟悉命令行操作；对新手有门槛。
浏览器保存为TXT	在浏览器中打开HTML文件。选择“另存为”并设置类型为“纯文本（.txt）”。	无需额外软件，适合临时转换。	仅适用于本地文件或已下载页面；格式可能保留部分冗余符号。

FAQs（常见问题解答）

问题1：直接修改文件扩展名（.html→.txt）后，为什么打开还是乱码？

原因：仅更改扩展名不会解析HTML标签，文件内容仍包含<p>、<br>等标签和CSS/JS代码,导致显示混乱。
解决方法：需通过文本编辑器或工具删除所有HTML标签，仅保留纯文本内容，推荐使用Python或命令行工具（如html2text）自动提取文本。

问题2：用Python转换时，如何忽略图片和链接？

解决方案：使用html2text或BeautifulSoup的参数配置。
```
from bs4 import BeautifulSoup
# 读取HTML文件
with open("example.html", "r", encoding="utf-8") as f:
    html = f.read()
# 解析并提取文本（忽略图片和链接）
soup = BeautifulSoup(html, "html.parser")
for img in soup.find_all("img"):
    img.decompose()  # 删除图片标签
for a in soup.find_all("a"):
    a.unwrap()       # 移除链接标签，保留文本
# 保存为TXT文件
with open("example.txt", "w", encoding="utf-8") as f:
    f.write(soup.get_text())
```
此代码会删除所有<img>标签，并将<a>标签替换为纯文本内容。