讀取存在的文件,要用到docx庫中的Document
document = Document(file_path),file_path表示要打開的Word路徑,沒有參數表示新建文檔。
代碼:
from docx import Document
document = Document('test.docx')
docx打開文件
獲取段落paragraph一個document文檔包括一個或者多個段落,都在document的paragras屬性中,document.paragraphs返回所有段落對象的列表。
例如paragrahps = document.paragraphs
paragraphs[0] --> 表示第1段對象
paragraphs[1] --> 表示第2段對象
……
len(pargraphs) --> 查看文檔有多少個自然段
代碼:
paragraphs = document.paragraphs # paragraphs表示得到的所有段落列表
type(paragraphs) # 返回列表
p1 = paragraphs[0] # p1表示第一段段落對象
len(paragraphs) # 檢查文檔一共有多少段
段落對象
獲取段落paragraph文本内容.text用于獲取文本内容,不僅可以獲取段落對象的,還可以獲取塊對象的文本内容
代碼:以p2第二段對象為例
p2.text
獲取文字塊run及其文本内容
一個段落有多個文本塊run對象組成,我們可以通過paragraph.runs獲取所有塊對象,然後通過.text獲取其内容,這裡以第4段為例p4 = paragraphs[3]
代碼:
for run in p4.runs:
print(run.text)
完整遍曆文檔document文本内容
代碼:
for paragraph in document.paragraphs:
for run in paragraph.runs:
print(run.text)
和openpyxl 操作excel類似,table表格遍曆采取三級循環樣式
A:按照行遍曆
for table in document.tables:
for row in table.rows:
for cell in row.cells:
print(cell.text)
B: 按照列遍曆
for table in document.tables:
for column in table.columns:
for cell in column.cells:
print(cell.text)
概況一下:要獲得文本,都可以使用.text,不管是段落paragraph,還是run,或者是table表格的cell單元格。
,