快速业务通道

Word/Excel/PDF文件转换成HTML整理 - 编程入门网

作者 佚名技术 来源 NET编程 浏览 发布时间 2012-06-18
le = "C:\\AA\\xxx.html";

到此WORD/EXCEL转换HTML就已经差不多了,相信大家应该很清楚了:)

Word/Excel/PDF文件转换成HTML整理(2)

时间:2011-03-07 cublog.cn

二、使用XPDF将PDF转换为HTML

1、下载xpdf最新版本,地址:http://www.foolabs.com/xpdf/download.html

我下载的是xpdf-3.02pl2-win32.zip

2、下载中文支持包

我下载的是xpdf-chinese-simplified.tar.gz

3、下载pdftohtml支持包

地址:http://sourceforge.net/projects/pdftohtml/

我下载的是:pdftohtml-0.39-win32.tar.gz

4、解压调试

1) 先将xpdf-3.02pl2-win32.zip解压,解压后的内容可根据需要进行删减,如果只需要转换为txt格式,其他的exe文件可以删除,只保留pdftotext.exe,以此类推;

2) 然后将xpdf-chinese-simplified.tar.gz解压到刚才xpdf-3.02pl2-win32.zip的解压目录;

3) 将pdftohtml-0.39-win32.tar.gz解压,pdftohtml.exe解压到xpdf-3.02pl2-win32.zip的解压目录;

4) 目录结构:

+---[X:\xpdf] |-------各种转换用到的exe文件 | |-------xpdfrc | +------[X:\xpdf\xpdf-chinese-simplified]                    |                    |                     +-------很多转换时需要用到的字符文件

xpdfrc:此文件是用来声明转换字符集对应路径的文件

5) 修改xpdfrc文件(文件原名为sample-xpdfrc)

修改文件内容为:

Txt代码

#----- begin Chinese Simplified support package
cidToUnicode Adobe-GB1 xpdf-chinese-simplified\Adobe-GB1.cidToUnicode
unicodeMap ISO-2022-CN xpdf-chinese-simplified\ISO-2022-CN.unicodeMap
unicodeMap EUC-CN xpdf-chinese-simplified\EUC-CN.unicodeMap
unicodeMap GBK xpdf-chinese-simplified\GBK.unicodeMap
cMapDir Adobe-GB1 xpdf-chinese-simplified\CMap
toUnicodeDir xpdf-chinese-simplified\CMap
fontDir C:\WINDOWS\Fonts
displayCIDFontTT Adobe-GB1 C:\WINDOWS\Fonts\simhei.ttf
#----- end Chinese Simplified support package

Word/Excel/PDF文件转换成HTML整理(3)

时间:2011-03-07 cublog.cn

6) 创建bat文件pdftohtml.bat(放置的路径不能包含空格)

内容为:

Txt代码

@echo off
set folderPath=%1
set filePath=%2
cd /d %folderPath%
pdftohtml -enc GBK %filePath%
exit

7) 创建类

Java代码

public class ConvertPdf
{
	private static String INPUT_PATH;
	private static String PROJECT_PATH;
	
	public static void convertToHtml(String file, String project)
	{
		INPUT_PATH = file;
		PROJECT_PATH = project;
		if(checkContentType()==0)
		{
			toHtml();
		}
	}
	
	private static int checkContentType()
	{
		String type = INPUT_PATH.substring(INPUT_PATH.lastIndexOf(".") + 1, INPUT_PATH.length())
				.toLowerCase();
		if (type.equals("pdf"))
			return 0;
		else
			return 9;
	}
	
	private static void toHtml()
	{
		if(new File(INPUT_PATH).isFile())
		{
			try
			{
				String cmd = "cmd /c start X:\\pdftohtml.bat \"" + PROJECT_PATH + "\" \"" + INPUT_PATH + "\"";
				Runtime.getRuntime().exec(cmd);
			}
			catch (IOException e)
			{
				e.printStackTrace();
			}
		}
	}
	
}

String cmd = "....";此处代码是调用创建的bat文件进行转换

8) 测试转换

Java代码

public static void main(String[] args)
{
	ConvertPdf.convertToHtml(&qu

凌众科技专业提供服务器租用、服务器托管、企业邮局、虚拟主机等服务,公司网站:http://www.lingzhong.cn 为了给广大客户了解更多的技术信息,本技术文章收集来源于网络,凌众科技尊重文章作者的版权,如果有涉及你的版权有必要删除你的文章,请和我们联系。以上信息与文章正文是不可分割的一部分,如果您要转载本文章,请保留以上信息,谢谢!

分享到: 更多

Copyright ©1999-2011 厦门凌众科技有限公司 厦门优通互联科技开发有限公司 All rights reserved

地址(ADD):厦门软件园二期望海路63号701E(东南融通旁) 邮编(ZIP):361008

电话:0592-5908028 传真:0592-5908039 咨询信箱:web@lingzhong.cn 咨询OICQ:173723134

《中华人民共和国增值电信业务经营许可证》闽B2-20100024  ICP备案:闽ICP备05037997号