软件编程
位置:首页>> 软件编程>> java编程>> java poi解析word的方法

java poi解析word的方法

作者:chanjuan  发布时间:2023-08-28 07:31:28 

标签:java,poi,word

之前做过用java读取word文档,获取word文本内容。

但发现docx的支持,doc就异常了。

后来找了很多资料发现是解析方法不一样。

首先要导入poi相关的jar包

我用的是maven,pom.xml引入如下:


<dependency>
     <groupId>org.apache.poi</groupId>
     <artifactId>poi-ooxml</artifactId>
     <version>3.8</version>
   </dependency>
   <dependency>
     <groupId>org.apache.poi</groupId>
     <artifactId>poi-scratchpad</artifactId>
     <version>3.8</version>
   </dependency>

java获取word文本内容如下:


public BaseResp getParsedTxt(MultipartFile file) throws Exception {
   BaseResp br=new BaseResp("200","") ;
   String textType = file.getContentType();
   String txt = "";
   if(textType.equals(TXT_TYPE)){
     String code = getCharset(file);
     txt = new String(file.getBytes(),code);
   }else if(textType.equals(DOC_TYPE)){
     HWPFDocument doc = new HWPFDocument(file.getInputStream());
     Range rang = doc.getRange();
     txt = rang.text();
     System.out.println(txt);
   }else if(textType.equals(DOCX_TYPE)){
     File uFile = new File("tempFile.docx");
     if(!uFile.exists()){
       uFile.createNewFile();
     }
     FileCopyUtils.copy(file.getBytes(), uFile);
     O * ackage opcPackage = POIXMLDocument.openPackage("tempFile.docx");
     POIXMLTextExtractor extractor = new XWPFWordExtractor(opcPackage);
     txt= extractor.getText();
     uFile.delete();
   }else{
     br = new BaseResp("300","上传文件格式错误,请上传.txt或者.docx");
     return br;
   }
   br.setDatas(txt);
   return br;
 }

功能实现了。

0
投稿

猜你喜欢

手机版 软件编程 asp之家 www.aspxhome.com