本文系作者此前研究office文件格式解析及漏洞挖掘和分析时梳理的部分基础知识,文章部分内容可能会借鉴他人成果,由于时间久远所以无法一一考证。本文仅限于初学者作为参考,如有笔误,请见谅。
Office文档格式简要介绍
另一种结构是office 97-03的存储规范:OLE。它是一种对象链接和嵌入的技术,该技术可以包含文本,图形,电子表格甚至其他二进制数据。
Docx这种新的word 格式有三个主要的组成部分:部件、内容类型和关系。
部件就是对应于office文档解压后的一个个文件。这些文件都是包中的文档部件。
Word2007的文档部件大致有以下几种:
在word中,使用单独的文件(xml)来表示文档中的每个部分以及附加的内容。他们需要依赖于各部件之间的正确关系保证文件的完整和有效性,如果可以准确保持部件之间的关系,那么文件结构可以任意更改。
以docx文档为例,说明openxml文档内容的结构。随手建立一个docx文档,使用zip解压到文件夹中,他的目录结构如下:
事实上,在word2007及以上的版本当中,一个文档则是由一个文件夹(或者说容器),由内部的部件各自定义属性和数据,并相互依赖而产生的。一个文件可能会包含这些目录和组件:
这个文件描述的是整个文档内容的类型,把各个xml文件组合成一个整体。
这个文件夹中的xml记录了docx文档的主要属性信息
【技术分享】最好的邮箱采集工具0.zone
戳“阅读原文”查看更多内容