word文章内容编排涵盖哪些奇迹元素系统详细 并详细说明

以上由提供
当前位置:
> 详细页面
统一Word文件内容的格式 查找与替换帮你忙
时间: 09:47来源:作者:木木
评论列表(网友评论仅供网友表达个人看法,并不表明本站同意其观点或证实其描述)
系统教程栏目
热门系统教程
在笔记本电脑早已普及到会议室的这个年代,商务人士拿笔记...
热门系统下载
最新系统教程
热门软件下载
Copyright&2011 系统之家(www.xitongzhijia.net) 版权所有 闽ICP备号-1
本站发布的系统与软件仅为个人学习测试使用,请在下载后24小时内删除,不得用于任何商业用途,否则后果自负,请支持购买微软正版软件!
如侵犯到您的权益,请及时通知我们,我们会及时处理。Word长文档框架结构的编排技巧_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
Word长文档框架结构的编排技巧
上传于||文档简介
&&w​o​r​d​文​章​结​构​编​排
阅读已结束,如果下载本文需要使用0下载券
想免费下载更多文档?
定制HR最喜欢的简历
你可能喜欢XML格式文档转换为Word格式文档的系统和方法
专利名称XML格式文档转换为Word格式文档的系统和方法
技术领域本发明涉及格式文档转换的系统领域,更具体的说,改进涉及的是一种XML格式 文档转换为Word格式文档的系统和方法。
背景技术Microsoft Word是微软公司的一个文字处理应用程序,在办公自动化中, Microsoft Word得到了越来越多的应用。然而,在自动化办公应用非常广泛的今天,如何根 据已有的大量XML(Extensible Markup Language,可扩展标记语言)信息高效、稳定地批量 生成Word文档,已成为迫切的需求。现有的技术中,有的通过调用一些成熟的开源文档编辑软件的接口来实现 MS-Word基本信息的写入,较流行的是调用OpenOffice的API接口来实现Word文档的生 成。还有的通过研究doc 二进制文件的信息,来猜测MS-Word文件的写入规则,之后利用猜 测到的规则来实现Word文档的生成。但是,现有的技术中调用OpenOffice的API接口生成Word文档的做法,由于doc 文件的内部格式没有公开,所以当今一些主流的开源软件对其支持的并不完美,经常会造 成元素丢失和排版混乱的情况。而现有的技术中依靠猜测MS-Word文件的写入规则生成 Word文档的做法,由于仅仅是猜测doc文件的写入规则,现在情况下仅能支持一些简单元 素的输入和简单排版的设置,对复杂文档支持较差,并且只能支持单一 Word版本文档的生 成,无法实现批量生成Word文档。因此,现有技术尚有待改进和发展。
本发明的目的在于,提供一种XML格式文档转换为Word格式文档的系统和方法, 可支持Word格式的排版风格,可避免频繁地调用MS-Word的Com接口而导致占用较多的系 统资源,可稳定高效批量地将XML格式文档转换为Word格式文档。本发明的技术方案如下一种XML格式文档转换为Word格式文档的方法,其中,包括以下步骤读取XML格式文档中的基本元素信息;按照Word格式文档的排版风格对读取的基本元素信息进行排版处理;将排版处理后的信息生成RTF格式文档;调用MS-Word的Com接口将RTF格式文档转换为Word格式文档。所述的XML格式文档转换为Word格式文档的方法,其中,在读取XML格式文档基 本元素信息的步骤中,具体包括以下步骤通过XML文件读取模块中的XML读取库将基本元素读出;按照基本元素的类型对元素进行分组,对各组的元素按照层次顺序进行重新排 列;
将重新排列后的元素信息输入到中间数据结构中。所述的XML格式文档转换为Word格式文档的方法,其中,在进行Word格式文档风 格排版处理的步骤中,对于类型为文本的基本元素,包括以下步骤对多个文本块进行横向切割;判断纵向区间内同一垂直方向上是否存在有两个文本块;在否的情况下将文本块合并成行。 所述的XML格式文档转换为Word格式文档的方法,其中,在进行Word格式文档风 格排版处理的步骤中,对于类型为文本的基本元素,包括以下步骤对多个文本行进行纵向切割;判断横向区间内同一水平方向上是否存在有两个文本行;在否的情况下将文本行合并成一个文本段。所述的XML格式文档转换为Word格式文档的方法,其中,在进行Word格式文档风 格排版处理的步骤中,对于类型为图元和图像的基本元素,包括以下步骤若一个图元或者图像的区域位于一个文本段的区域内,则将该图元或者图像作为 该文本段的背景信息;若该图元或者图像的区域超过了一个文本块的区域,则将该图元或者图像作为整 个页面的背景信息。所述的XML格式文档转换为Word格式文档的方法,其中,在生成RTF格式文档的 步骤中,还包括以下步骤每生成一个文本或者图元,都要先在颜色表中查询该颜色是否存在,如果存在则 提取该颜色的索引值,如果不存在则在颜色表中新建该颜色对象并提取该颜色的索引值。所述的XML格式文档转换为Word格式文档的方法,其中,在生成RTF格式文档的 步骤中,还包括以下步骤每生成一个文本对象都要查询该文本的字体在字体表中是否存在,如果存在则将 该字体在字体表中的索引值作为输入值进行输入,如果不存在则在字体表中新建该字体对 象并将新建字体对象的索引值作为输入值进行输入。所述的XML格式文档转换为Word格式文档的方法,其中,在生成RTF格式文档的 步骤中,还包括以下步骤每行的间距为本行的下侧的纵坐标减去上一行文本的下侧的纵坐标的值。一种XML格式文档转换为Word格式文档的系统,包括依次数据连接的XML文件读 取模块、Word风格排版模块、RTF文件生成模块和Word文件生成模块,其中XML文件读取模块,用于读取XML格式文档中的基本元素信息;Word风格排版模块,用于按照Word格式文档的排版风格对读取的基本元素信息 进行排版处理;RTF文件生成模块,用于将排版处理后的信息生成RTF格式文档;Word文件生成模块,用于调用MS-Word的Com接口将RTF格式文档转换为Word格 式文档。所述的XML格式文档转换为Word格式文档的系统,Word风格排版模块200包括 相互数据连接的行合并单元、段合并单元以及图元和图像合并单元,其中
行合并单元,用于横向切割多个文本块,并将文本块合并成行;段合并单元,用于纵向切割多个文本行,并将文本行合并成一个文本段;图元和图像合并单元,用于将该图元或者图像作为该文本段或整个页面的背景信 肩、ο本发明所提供的一种XML格式文档转换为Word格式文档的系统和方法,由于采用 了 RTF格式文档作为转换的中间文件,在转换的过程中利用RTF格式文档进行过渡,不仅支 持了 MS-Word的所有元素和复杂排版式样,而且还规避了频繁的Com调用,减少了过多占用 的资源,减轻了设备的负载,也提高了 RTF格式文档生成的效率和稳定性,适合批量转换时 使用。
图1是本发明XML格式文档转换为Word格式文档方法的总流程图;图2是本发明的转换方法中生成RTF格式文档的具体流程图;图3是本发明的转换方法中生成Word格式文档的具体流程图;图4是本发明XML格式文档转换为Word格式文档系统的总结构图。
具体实施例方式以下将结合附图,对本发明的具体实施方式
和实施例加以详细说明,所描述的具 体实施例仅用以解释本发明,并非用于限定本发明的具体实施方式
。本发明的一种XML格式文档转换为Word格式文档的方法,其具体实施方式
之一, 如附图1所示,包括以下步骤步骤S100、读取XML格式文档中的基本元素信息;步骤S200、按照Word格式文档的排版风格对读取的基本元素信息进行排版处理;步骤S300、将排版处理后的信息生成RTF (Rich Text Format,富文本格式)格式 文档;步骤S400、调用MS-Word的Com接口将RTF格式文档转换为Word格式文档;步骤S500、判断是否转换下一个XML格式文档;是则返回步骤S100,否则结束转换 的步骤。基于上述转换方法,本发明还提出了一种XML格式文档转换为Word格式文档的 系统,如附图4所示,至少包括依次数据连接的XML文件读取模块100、Word风格排版模块 200、RTF文件生成模块300和Word文件生成模块400,其中XML文件读取模块100,用于读取XML格式文档中的基本元素信息;Word风格排版模块200,用于按照Word格式文档的排版风格对读取的基本元素信 息进行排版处理;RTF文件生成模块300,用于将排版处理后的信息生成RTF格式文档;Word文件生成模块400,用于调用MS-Word的Com接口将RTF格式文档转换为Word 格式文档。本发明所提供的一种XML格式文档转换为Word格式文档的系统和方法,由于采用 了 RTF格式文档作为转换的中间文件,在转换的过程中利用RTF格式文档进行过渡,不仅支持了 MS-Word的所有元素和复杂排版式样,而且还规避了频繁的Com调用,减少了过多占用 的资源,减轻了设备的负载,也提高了 RTF格式文档生成的效率和稳定性,适合批量转换时 使用。在本发明XML格式文档转换为Word格式文档的系统和方法的优选实施方式中1、关于步骤SlOO和XML文件读取模块100 在步骤SlOO中,XML文件读取模块100从待转换的XML文件中读取所需的信息, 此处读取到的信息为元素的物理信息,包括元素的大小位置、文档的页数以及是否加密等 信息;XML文件读取模块100包括依次数据连接的XML读取库、基本元素分组排列单元和元 素信息输入单元。具体的,在步骤SlOO中,首先通过XML文件读取模块100中的XML读取库,将基本 元素读出,基本元素的类型包括文本、图像、图元、表格、文档和页面等;然后通过XML文件 读取模块100中的基本元素分组排列单元,按照基本元素的类型对元素进行分组,对各组 的元素按照层次顺序进行重新排列;最后通过XML文件读取模块100中的元素信息输入单 元,将重新排列后的元素信息输入到中间数据结构中。需要说明的是,本发明中所读取的XML文件,是本系统与其他系统的接口文件,此 外,其他需要生成Word文档的系统,只需按要求先生成XML文件,即可与本系统实现无缝连接。2、关于步骤S200和Word风格排版模块200 在步骤S200中,Word风格排版模块200可对文本、图元和图像进行Word格式文 档风格的排版;Word风格排版模块200包括相互数据连接的行合并单元、段合并单元以及 图元和图像合并单元。具体的,对于文本的排版包括将散列的文本块合成为行、以及将行合成为段的具 体操作,经过以下过程,即可将步骤S200输出的文本的物理信息,转换为可供Word输入的 逻辑信息,其中行合并规则可通过Word风格排版模块200中的行合并单元,先将散列的几个文 本块进行横向或水平切割,在纵向区间内,若同一垂直方向上不存在有两个文本块,则将这 几个文本块合并成一行;换言之,如果几个文本块在水平方向上可以切割,即这些文本在一 个相同的纵向区间内,且此纵向区间在同一垂直方向上不包含两个文本块,就将这几个文 本块合成为一行。段合并规则可通过Word风格排版模块200中的段合并单元,先将几个文本行进 行纵向或垂直切割,在横向区间内,若同一水平方向上不存在有两个文本行,则将这几个文 本行合并成一个文本段;换言之,如果几个文本行在垂直方向上可以切割,即这些文本在一 个相同的横向区间内,且此横向区间在同一水平方向上不包含两个文本行,就将这几个文 本行合成为一个文本段。 而对于图元和图像的排版,可通过Word风格排版模块200中的图元和图像合并单 元来完成,其规则如果一个图元或者图像的区域位于一个文本段的区域内,则将该图元或 者图像作为该文本段的背景信息;如果该图元或者图像的区域超过了一个文本块的区域, 则将该图元或者图像作为整个页面的背景信息。
3、关于步骤S300和RTF文件生成模块300
在步骤S300中,RTF文件生成模块300将经步骤S200处理后的信息生成RTF格 式文档;RTF文件生成模块300包括相互数据连接的文件头生成单元、颜色表生成单元、字 体表生成单元、排版信息单元、固定行距单元、文本信息单元、图元信息单元以及图像信息 单元;步骤S300可分为RTF文件头的生成、颜色表的生成、字体表的生成、排版信息的生成、 日期生成、权限生成和版本号生成等几个部分,其中文件头的生成包括作者信息生成、日期生成、权限生成和版本号生成等,可由RTF 文件生成模块300中的文件头生成单元实现。颜色表即RTF文档的调色板,包括文本颜色的生成和图元颜色的生成。步骤S300 中颜色表的生成规则,可由RTF文件生成模块300中的颜色表生成单元实现,即每生成一 个文本或者图元,都要先在颜色表中查询该颜色是否存在,如果存在则提取该颜色的索引 值,如果不存在则在颜色表中新建该颜色对象并提取该颜色的索引值。字体表是将整个RTF中的字体置于一个表中进行管理。步骤S300中字体表的生 成规则,可由RTF文件生成模块300中的字体表生成单元实现,即每生成一个文本对象都 要查询该文本的字体在字体表中是否存在,如果存在则将该字体在字体表中的索引值作为 输入值进行输入,如果不存在则在字体表中新建该字体对象并将新建字体对象的索引值作 为输入值进行输入。较好的是,在本发明步骤S300中,RTF格式文档的生成策略使用的是,全文档共享 颜色表和字体表;颜色表生成单元和字体表生成单元具有全文档共享功能;因此每页中的 基本元素都共享字体表和颜色表,从而可以加快文档的生成速度和具有较小文档的大小。排版信息的输入包括节信息、栏信息、段信息和行信息等信息的输入,可由RTF文 件生成模块300中的排版信息单元实现,排版信息单元包括相互数据连接的节信息子单 元、栏信息子单元、段信息子单元和行信息子单元,其中节信息在两种情况下需要输入一种情况是,在新建一个页进行输入时,需要新建 一个节,来将本页的页信息如页面大小与其他页隔开;另一种情况是,在栏排版变化的情况 下,需要输入一个新节,来将新栏和旧栏的信息隔开;具体可由排版信息单元中的节信息子 单元实现。栏信息包括栏的个数和栏的宽度和间距等,可由排版信息单元中的栏信息子单元 实现。段信息主要包括首行缩进、段左间距设置和段右间距设置等,可由排版信息单元 中的段信息子单元实现。行信息输入主要是行间距设置,可由排版信息单元中的行信息子单元实现。较好的是,为了能够精确的控制行间距,在本发明步骤S300中,采用的是固定行 距策略,可由RTF文件生成模块300中的固定行距单元实现,即每行的间距为本行的下侧 的纵坐标减去上一行文本的下侧的纵坐标的值。文本信息的输入包括文本的内容信息和格式信息输入,可由RTF文件生成模块 300中的文本信息单元实现;内容信息就是文本的具体内容,控制信息包括文本的字体信 息、颜色信息、粗体、斜体、下划线和删除线等信息的输入。图元的信息输入,可由RTF文件生成模块300中的图元信息单元实现;首先是定位 该图元的位置,其次是绘制该图元,最后是读取颜色表设置该图元的颜色和线型信息。
图像的信息输入,可由RTF文件生成模块300中的图像信息单元实现;包括两个部 分,第一个是定位该图像,其次是用jpeg库将该图像转换为jpeg 二进制信息输入到RTF文 档中。将经步骤S200处理后的信息生成RTF格式文档的具体生成过程,如附图2所示, 步骤S300可包括以下步骤步骤S310、在生成一个RTF格式文档的开始,取一页元素信息;步骤S320、判断是否是最后一页,是则生成RTF格式文档并结束流程,否则进入步 骤 S331 ;步骤S331、输入页信息;步骤S333、输入排版信息;步骤S335、从页中得到一个基本元素;步骤S337、判断是否还有元素,是则进入步骤S340,否则返回步骤S310 ;步骤S340、判断元素是不是文本,是则进入步骤S350,否则进入步骤S360 ;步骤S350、输入文本,更新颜色表和字体表;步骤S360、判断元素是否是图元,是则进入步骤S370,否则进入步骤S380 ;步骤S370、输入图元,更新颜色表;步骤S380、输入图像,将图像转换为jpeg 二进制信息。上述直接生成RTF格式文档的方法,规避了频繁的Com调用,减少了过多占用的资 源,减轻了设备的负载,也提高了 RTF格式文档生成的效率和稳定性。4、关于步骤S400和Word文件生成模块400 在步骤S400中,Word文件生成模块400将经步骤S300后生成的RTF格式文档, 在后台转换成为Word格式文档,如附图3所示,包括以下步骤步骤S410、初始化Com环境,即初始化Com接口;步骤S420、调用Com模块中的DocumentPtr对象将RTF文件导入;步骤S430、查询注册表得到用户安装的Word版本信息,;步骤S440、根据该版本信息按照规则在后台生成对应版本的Word文档;如果用户 安装了 Word2002和Word2003则生成doc格式文档,如果用户安装了 Word2007和Word2010 则生成docx格式文档;步骤S450、转换后删除作为中间文件的RTF文件,完成XML格式文件向Word格式 文件的转换。其中,本发明中调用Com模块的具体过程如下步骤S422、调用系统的CoInitialize接口来实现MS-Word的Com环境;步骤S424、调用CreateInstance初始化应用程序对象ApplicationPtr ;同时,调 用putjisible (VARIANT_FALSE)将应用程序对象设置为后台转换模式;步骤S426、调用get_Documents得到DocumentsPtr对象;该对象代表Word文档
集合;步骤S428、调用DocumentsPtr的open接口在后台打开RTF中间文件;例如,如果 当前为Word2002系统,则需调用0pen2000接口。可见,本发明调用MS-Word的Com接口并非采用的是,动态的调用MS-Word的自动
9化Com接口实现Word中基本元素信息和属性控制信息的写入。这是因为,首先,MS-Word的 Com接口对配置环境和输入数据的格式要求较高,在频繁多次调用的情况下,经常会出现程 序挂掉的情况;其次,每输入一个基本元素都会涉及到一次Com调用,随之而来的是大量的 IO操作,所转换效率较低;再者,动态的调用MS-Word的自动化Com接口占用系统资源较 多,易造成机器负载较重。另外,本发明调用DocumentsPtr的SaveAs在后台将RTF文件另存为Word文档, 其生成规则是如果用户安装的是Word2002和Word2003则默认生成doc格式文档,如果用 户安装的是word2007和word2010,则默认生成docx格式的文档;如果保存为doc格式,则 设置 wdFormatDocument,如果保存为 docx 格式,则需设置 wdFormatXMLDocument。将 RTF 文件另存为Word格式文档的方法在后台实现了 RTF格式文档到Word格式文档的转换,同 时也支持了各种版本Word文件的生成。总而言之,本发明XML格式文档转换为Word格式文档的系统和方法的优选实施方 式,按照Word文件的内容和排版生成相同的RTF文件,在后台调用MS-Word的Com接口一 次性的将RTF文件转换为Word文件,这样在生成一个Word文档的过程中只需要一次Com 调用,在最大程度上规避了 Com调用的低效性和不稳定性,降低了资源占有量。可见,其显 著的进步体现在提高了转换效率和转换稳定性;对元素支持全面排版效果好;支持所有 Word版本文件的生成;降低了转换对系统资源的占有量。应当理解的是,以上所述仅为本发明的较佳实施例而已,并不足以限制本发明的 技术方案,对本领域普通技术人员来说,在本发明的精神和原则之内,可以根据上述说明加 以增减、替换、变换或改进,例如,作为XML格式文档转换为Word格式文档的中间文档,还可 采用Word2003的XML格式文档等同替换RTF格式文档,而所有这些增减、替换、变换或改进 后的技术方案,都应属于本发明所附权利要求的保护范围。
一种XML格式文档转换为Word格式文档的方法,其特征在于,包括以下步骤读取XML格式文档中的基本元素信息;按照Word格式文档的排版风格对读取的基本元素信息进行排版处理;将排版处理后的信息生成RTF格式文档;调用MS Word的Com接口将RTF格式文档转换为Word格式文档。
2.根据权利要求1所述的XML格式文档转换为Word格式文档的方法,其特征在于,在 读取XML格式文档基本元素信息的步骤中,具体包括以下步骤通过XML文件读取模块中的XML读取库将基本元素读出;按照基本元素的类型对元素进行分组,对各组的元素按照层次顺序进行重新排列;将重新排列后的元素信息输入到中间数据结构中。
3.根据权利要求1所述的XML格式文档转换为Word格式文档的方法,其特征在于,在 进行Word格式文档风格排版处理的步骤中,对于类型为文本的基本元素,包括以下步骤对多个文本块进行横向切割;判断纵向区间内同一垂直方向上是否存在有两个文本块; 在否的情况下将文本块合并成行。
4.根据权利要求1所述的XML格式文档转换为Word格式文档的方法,其特征在于,在 进行Word格式文档风格排版处理的步骤中,对于类型为文本的基本元素,包括以下步骤对多个文本行进行纵向切割;判断横向区间内同一水平方向上是否存在有两个文本行; 在否的情况下将文本行合并成一个文本段。
5.根据权利要求1所述的XML格式文档转换为Word格式文档的方法,其特征在于,在 进行Word格式文档风格排版处理的步骤中,对于类型为图元和图像的基本元素,包括以下 步骤若一个图元或者图像的区域位于一个文本段的区域内,则将该图元或者图像作为该文 本段的背景信息;若该图元或者图像的区域超过了一个文本块的区域,则将该图元或者图像作为整个页 面的背景信息。
6.根据权利要求1所述的XML格式文档转换为Word格式文档的方法,其特征在于,在 生成RTF格式文档的步骤中,还包括以下步骤每生成一个文本或者图元,都要先在颜色表中查询该颜色是否存在,如果存在则提取 该颜色的索引值,如果不存在则在颜色表中新建该颜色对象并提取该颜色的索引值。
7.根据权利要求1所述的XML格式文档转换为Word格式文档的方法,其特征在于,在 生成RTF格式文档的步骤中,还包括以下步骤每生成一个文本对象都要查询该文本的字体在字体表中是否存在,如果存在则将该字 体在字体表中的索引值作为输入值进行输入,如果不存在则在字体表中新建该字体对象并 将新建字体对象的索引值作为输入值进行输入。
8.根据权利要求1所述的XML格式文档转换为Word格式文档的方法,其特征在于,在 生成RTF格式文档的步骤中,还包括以下步骤每行的间距为本行的下侧的纵坐标减去上一行文本的下侧的纵坐标的值。
9.一种XML格式文档转换为Word格式文档的系统,其特征在于包括依次数据连接的 XML文件读取模块、Word风格排版模块、RTF文件生成模块和Word文件生成模块,其中XML文件读取模块,用于读取XML格式文档中的基本元素信息; Word风格排版模块,用于按照Word格式文档的排版风格对读取的基本元素信息进行 排版处理;RTF文件生成模块,用于将排版处理后的信息生成RTF格式文档;Word文件生成模块,用于调用MS-Word的Com接口将RTF格式文档转换为Word格式文档。
10.根据权利要求9所述的XML格式文档转换为Word格式文档的系统,其特征在于, Word风格排版模块200包括相互数据连接的行合并单元、段合并单元以及图元和图像合并 单元,其中行合并单元,用于横向切割多个文本块,并将文本块合并成行;段合并单元,用于纵向切割多个文本行,并将文本行合并成一个文本段;图元和图像合并单元,用于将该图元或者图像作为该文本段或整个页面的背景信息。
本发明公开了一种XML格式文档转换为Word格式文档的系统和方法,该方法包括读取XML格式文档中的基本元素信息;按照Word格式文档的排版风格对读取的基本元素信息进行排版处理;将排版处理后的信息生成RTF格式文档;调用MS-Word的Com接口将RTF格式文档转换为Word格式文档。由于采用了RTF格式文档作为转换的中间文件,在转换的过程中利用RTF格式文档进行过渡,不仅支持了MS-Word的所有元素和复杂排版式样,而且还规避了频繁的Com调用,减少了过多占用的资源,减轻了设备的负载,也提高了RTF格式文档生成的效率和稳定性,适合批量转换时使用。
文档编号G06F17/22GKSQ
公开日日 申请日期日 优先权日日
发明者解辉 申请人:深圳市万兴软件有限公司【图文】计算机基础案例解析指导教程_案例4 word2010文档编排_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
评价文档:
计算机基础案例解析指导教程_案例4 word2010文档编排
上传于||文档简介
&&计​算​机​基​础​案​例​解​析​指​导​教​程
大小:10.17MB
登录百度文库,专享文档复制特权,财富值每天免费拿!
你可能喜欢

我要回帖

更多关于 求涵盖常见词汇的文章 的文章

 

随机推荐