Java如何读取文档

在Java中读取文档常用java.iojava.nio包,通过BufferedReader读取文本文件内容,或使用Files.readAllLines()(Java 7+)直接获取行列表,二进制文件可用FileInputStream处理,注意异常处理和资源关闭(或使用try-with-resources)。

在Java中读取文档是常见的文件操作任务,涵盖文本文件(如TXT、CSV)、二进制文件(如图片)及结构化文档(如PDF、Word),以下是详细方法及最佳实践,符合Java标准API和行业规范:

Java如何读取文档


读取文本文件(TXT、CSV等)

使用 java.nio.file.Files(推荐,Java 7+)

import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;
public class ReadTextFile {
    public static void main(String[] args) {
        try {
            // 读取整个文件为字符串
            String content = Files.readString(Paths.get("example.txt"));
            System.out.println(content);
            // 按行读取为列表
            List<String> lines = Files.readAllLines(Paths.get("data.csv"));
            lines.forEach(System.out::println);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

优势:代码简洁,自动处理编码(默认UTF-8),适合中小文件。

使用 BufferedReader(大文件流式读取)

import java.io.BufferedReader;
import java.io.FileReader;
public class ReadLargeFile {
    public static void main(String[] args) {
        try (BufferedReader br = new BufferedReader(new FileReader("large.log"))) {
            String line;
            while ((line = br.readLine()) != null) {
                System.out.println(line); // 逐行处理
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

优势:内存高效,适用于GB级文件。


读取二进制文件(图片、视频等)

import java.nio.file.Files;
import java.nio.file.Paths;
public class ReadBinaryFile {
    public static void main(String[] args) {
        try {
            byte[] bytes = Files.readAllBytes(Paths.get("image.png"));
            // 字节数据可用于写入新文件或网络传输
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

注意:大文件建议用 BufferedInputStream 分块读取。


读取结构化文档(PDF、Word、Excel)

需借助第三方库,确保Maven依赖:

Java如何读取文档

PDF文档(Apache PDFBox)

<dependency>
    <groupId>org.apache.pdfbox</groupId>
    <artifactId>pdfbox</artifactId>
    <version>2.0.27</version>
</dependency>
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
public class ReadPDF {
    public static void main(String[] args) {
        try (PDDocument doc = PDDocument.load(Paths.get("doc.pdf").toFile())) {
            PDFTextStripper stripper = new PDFTextStripper();
            String text = stripper.getText(doc);
            System.out.println(text);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

Word文档(Apache POI)

<dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi</artifactId>
    <version>5.2.3</version>
</dependency>
import org.apache.poi.xwpf.extractor.XWPFWordExtractor;
import org.apache.poi.xwpf.usermodel.XWPFDocument;
public class ReadWord {
    public static void main(String[] args) {
        try (XWPFDocument doc = new XWPFDocument(Files.newInputStream(Paths.get("report.docx")));
             XWPFWordExtractor extractor = new XWPFWordExtractor(doc)) {
            System.out.println(extractor.getText());
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

Excel文件(Apache POI)

import org.apache.poi.ss.usermodel.*;
public class ReadExcel {
    public static void main(String[] args) {
        try (Workbook workbook = WorkbookFactory.create(Files.newInputStream(Paths.get("data.xlsx")))) {
            Sheet sheet = workbook.getSheetAt(0);
            for (Row row : sheet) {
                for (Cell cell : row) {
                    System.out.print(cell.toString() + "t");
                }
                System.out.println();
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

关键注意事项

  1. 异常处理
    必须捕获 IOException,使用 try-with-resources(如上例)自动关闭资源,避免内存泄漏。

  2. 文件编码
    文本文件需明确字符集(如GBK):

    BufferedReader br = new BufferedReader(
        new InputStreamReader(new FileInputStream("file.txt"), StandardCharsets.GBK)
    );
  3. 性能优化

    • 大文本文件:用 BufferedReader 缓冲流。
    • 大二进制文件:用 BufferedInputStream 分块读取。
  4. 路径安全
    使用 Paths.get()new File() 时,验证文件是否存在:

    Java如何读取文档

    Path path = Paths.get("user_input.txt");
    if (Files.exists(path)) {
        // 读取操作
    }

  • 文本/二进制文件:优先选 java.nio.file.Files(简单场景)或缓冲流(大文件)。
  • 结构化文档:用成熟第三方库(如PDFBox、Apache POI)。
  • 健壮性:始终处理异常、指定编码、关闭资源。

引用说明

原创文章,发布者:酷盾叔,转转请注明出处:https://www.kd.cn/ask/47350.html

(0)
酷盾叔的头像酷盾叔
上一篇 2025年7月6日 03:28
下一篇 2025年7月6日 03:31

相关推荐

  • Java转义字符\n和\t的作用是什么

    在Java中,\n表示换行符,用于文本中创建新行;\t表示制表符,用于插入水平制表空格(通常4或8字符宽度),两者均为转义字符,可直接嵌入字符串实现格式控制,System.out.println(“第一行\n\t第二行缩进”);`。

    2025年6月15日
    100
  • Java如何连接打印机并实现打印功能?

    Java连接打印机主要通过Java Print Service API实现,使用PrintServiceLookup获取可用打印机,创建Doc对象封装打印内容,通过PrintJob设置打印属性并执行打印任务。

    2025年5月30日
    200
  • 如何在Java中使用JMenu?

    JMenu是Swing的菜单组件,用于创建下拉菜单,需配合JMenuBar(菜单栏)和JMenuItem(菜单项)使用,基本步骤:创建JMenuBar添加到JFrame,添加JMenu到菜单栏,再向JMenu中添加JMenuItem,可设置快捷键和事件监听实现功能。

    2025年6月19日
    500
  • Java类注释模板如何规范编写?

    Java类注释通常使用文档注释/** … */,包含类功能描述、作者、版本等信息,示例模板: ,/** , * 类功能简述 , * @author 姓名 , * @date 创建日期 , * @version 版本号 , */ ,可根据项目规范调整标签和内容。

    2025年5月29日
    300
  • Java如何轻松使用相对位置

    在Java中,通过File类或Paths类使用相对路径时,路径不以/开头,默认相对于当前工作目录(可通过System.getProperty(“user.dir”)查看),资源加载时,ClassLoader.getResource()和Class.getResource()支持以包结构为基础的相对路径(如”config/app.properties”),后者使用/开头表示类路径根目录。

    2025年6月7日
    200

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-880-8834

在线咨询: QQ交谈

邮件:HI@E.KD.CN