Python读写docx文件
+
介绍
Python读写word文档有现成的库可以处理。我这里采用 python-docx。可以用pip install python-docx安装一下。
这里说一句,ppt和excel也有类似的库哦,而且是直接读取文件里面的xml数据。所以doc格式得另找其他库处理,doc格式不是基于xml的。
帮助文档:http://python-docx.readthedocs.org/en/latest/
1、新建或打开文件。这个比较简单用docx的Document类,若指定路径则是打开文档;若没有指定路径则是新建文档
#coding:utf-8
importdocx
#新建文档
doc_new=docx.Document()
#读取文档
doc=docx.Document(ur'C:\1.docx')
2、保存文件。有打开,就有保存。用Document类的save方法,其中参数是保存的文件路径,或者要保存的文件流。一般指定路径即可。
doc.save(path_or_stream)
3、对象集合。python-docx包含了word文档的相关对象集合
doc.paragraphs#段落集合
doc.tables#表格集合
doc.sections#节 集合
doc.styles#样式集合
doc.inline_shapes#内置图形 等等...
4、插入段落。段落是word最基本的对象之一。
5、新增样式。这个帮助文档里面说得不仔细,而且还是英文的。我手头上的项目用到这个,就自己琢磨出怎么使用,如下。
6、应用字符样式。字符自然是在段落里面的,可以采用下面方法给段落追加文字和设置字符样式。
#插入一个空白段落
p=doc.add_paragraph('')
p.add_run('123',style="Heading 1 Char")
p.add_run('456')
p.add_run('789',style="Heading 2 Char")
#这样一个段落就应用了两个字符样式,中间“456”就没应用样式
printp.text#输出结果是u'123456789' 也还是连续的
7、设置字体。当然可以不用通过设置样式对某些字进行设置,也可以直接设置。
p=doc.add_paragraph('')
r=p.add_run('123')
r.font.bold=True#加粗
r.font.italic=True#倾斜 等等...
8、表格操作。表格也是经常用到的一种对象类型。
#新建一个2x3的表格,style可以不写
table=doc.add_table(rows=2,cols=3,style=None)
#可以用table 的rows和columns得到这个表格的行数和列数
printlen(table.rows)
printlen(table.columns)
#遍历表格
forrowintable.rows:
row.cells[].text='1'
#print row.cells[0].text
#新增行或列
table.add_row()
table.add_column()
Word常见操作差不多就是这些。大家可以查看帮助文档,也可以用dir和help查看对象的方法属性和帮助。
领取专属 10元无门槛券
私享最新 技术干货