java PDF文件解析成String
boolean sort = false;// 是否排序
int startPage = 1;// 开始提取页数
int endPage = Integer.MAX_VALUE;// 结束提取页数
Writer output = null;// 文件输入流,生成文本文件
PDDocument document = null;// 内存中存储的PDF Document
try {
document = PDDocument.load(file);
ByteArrayOutputStream baos = new ByteArrayOutputStream();
output = new OutputStreamWriter(baos);
PDFTextStripper stripper = null;// PDFTextStripper来提取文本
stripper = new PDFTextStripper();
stripper.setSortByPosition(sort);// 设置是否排序
stripper.setStartPage(startPage);// 设置起始页
stripper.setEndPage(endPage);// 设置结束页
// 调用PDFTextStripper的writeText提取并输出文本
stripper.writeText(document, output);
return baos.toString();
} catch (MalformedURLException e) {
throw e;
} finally {
if (output != null) {// 关闭输出流
output.close();
}
if (document != null) {// 关闭PDF Document
document.close();
}
}
