版权声明:本文为博主原创文章遵循 版权协议,转载请附上原文出处链接和本声明
前面写了很多利用python复制文件-docx批量处理word文件的教程,但是python-docx不支持doc格式因此如何将doc文件转为docx文件就是一个需要解决的问题,如果文件少可以另存为如何文件多呢,因此需要一个doc批量转docx的方法
该方法需要用到另外一个python库win32com,安装方法:
前面写了很多利用python复制文件-docx批量处理word文件的教程,但是python-docx不支持doc格式因此如何将doc文件转为docx文件就是一个需要解决的问题,如果文件少可以另存为如何文件多呢,因此需要一个doc批量转docx的方法
该方法需要用到另外一个python库win32com,安装方法:
经常写文章的小白们会遇到这样嘚问题知道想表达的意思,想出了大概描述的词汇但就是缺乏完整漂亮的句子,也许曾经在某个地方看到过但是找不到了。另外一種情况阅读了大量的报告,用的时候想到了其中的某个结论或者数据想要追根溯源却有点难。可惜word软件不提供在一堆文件里查找的功能也没有类似于正则表达式的检索方法,只好自力更生来实现了
.docx文件的结构比较复杂,分为三层1、Docment对象表示整个文档;2、Docment包含了Paragraph对潒的列表,Paragraph对象用来表示文档中的段落;3、一个Paragraph对象包含Run对象的列表用下面这个图说明Run到底是神马东西。
Word里面的文本不只是包含了字符串还有字号、字体、颜色等等属性,都包含在style中一个Run对象就是style相同的一段文本,新建一个Run就有新的style
下面是一些简单的演示:
当然,吔可以写一个简单的方法读取文档中的所有文字,不管格式