可將PDF轉換成docx文件的Python庫。該項目通過PyMuPDF庫提取PDF文件中的數據,然後採用python-docx庫解析內容的布局、段落、圖片、表格等,最後自動生成docx文件。
pdf2docx功能
- 解析和創建頁面布局
- 頁邊距 - 章節和分欄 (目前最多支持兩欄布局) - 頁眉和頁腳 [TODO]- 解析和創建段落 - OCR 文本 [TODO] - 水平(從左到右)或豎直(自底向上)方向文本 - 字體樣式例如字體、字號、粗/斜體、顏色 - 文本樣式例如高亮、下劃線和刪除線 - 列表樣式 [TODO] - 外部超鏈接 - 段落水平對齊方式 (左/右/居中/分散對齊)及前後間距- 解析和創建圖片 - 內聯圖片 - 灰度/RGB/CMYK等顏色空間圖片 - 帶有透明通道圖片 - 浮動圖片(襯於文字下方)- 解析和創建表格 - 邊框樣式例如寬度和顏色 - 單元格背景色 - 合併單元格 - 單元格垂直文本 - 隱藏部分邊框線的表格 - 嵌套表格- 支持多進程轉換pdf2docx同時解析出了表格內容和樣式,因此也可以作為一個表格內容提取工具。
限制
- 目前暫不支持掃描PDF文字識別
- 僅支持從左向右書寫的語言(因此不支持阿拉伯語)- 不支持旋轉的文字- 基於規則的解析無法保證100%還原PDF樣式安裝
pip install pdf2docx
案例
from pdf2docx import parse
pdf_file = '/path/to/sample.pdf'docx_file = 'path/to/sample.docx'# convert pdf to docxparse(pdf_file, docx_file)Run