太牛了!只需2行代碼,輕鬆將PDF轉換成Word!

可將PDF轉換成docx文件的Python庫。該項目通過PyMuPDF庫提取PDF文件中的數據,然後採用python-docx庫解析內容的布局、段落、圖片、表格等,最後自動生成docx文件。

 pdf2docx功能

- 解析和創建頁面布局

  - 頁邊距  - 章節和分欄 (目前最多支持兩欄布局)  - 頁眉和頁腳 [TODO]- 解析和創建段落  - OCR 文本 [TODO]   - 水平(從左到右)或豎直(自底向上)方向文本  - 字體樣式例如字體、字型大小、粗/斜體、顏色  - 文本樣式例如高亮、下劃線和刪除線  - 列表樣式 [TODO]  - 外部超鏈接  - 段落水平對齊方式 (左/右/居中/分散對齊)及前後間距- 解析和創建圖片  - 內聯圖片    - 灰度/RGB/CMYK等顏色空間圖片    - 帶有透明通道圖片    - 浮動圖片(襯於文字下方)- 解析和創建表格  - 邊框樣式例如寬度和顏色  - 單元格背景色  - 合併單元格  - 單元格垂直文本  - 隱藏部分邊框線的表格  - 嵌套表格- 支持多進程轉換

pdf2docx同時解析出了表格內容和樣式,因此也可以作為一個表格內容提取工具。

 限制

- 目前暫不支持掃描PDF文字識別

- 僅支持從左向右書寫的語言(因此不支持阿拉伯語)- 不支持旋轉的文字- 基於規則的解析無法保證100%還原PDF樣式

 安裝

pip install pdf2docx

 案例

from pdf2docx import parse

pdf_file = '/path/to/sample.pdf'docx_file = 'path/to/sample.docx'# convert pdf to docxparse(pdf_file, docx_file)

Run