太牛了！只需2行代碼，輕鬆將PDF轉換成Word!

2023-12-04 11:01:05 娛樂頭條 4202℃

可將PDF轉換成docx文件的Python庫。該項目通過PyMuPDF庫提取PDF文件中的數據，然後採用python-docx庫解析內容的布局、段落、圖片、表格等，最後自動生成docx文件。

pdf2docx功能

- 解析和創建頁面布局

- 頁邊距 - 章節和分欄 (目前最多支持兩欄布局) - 頁眉和頁腳 [TODO]- 解析和創建段落 - OCR 文本 [TODO] - 水平（從左到右）或豎直（自底向上）方向文本 - 字體樣式例如字體、字號、粗/斜體、顏色 - 文本樣式例如高亮、下劃線和刪除線 - 列表樣式 [TODO] - 外部超鏈接 - 段落水平對齊方式 (左/右/居中/分散對齊)及前後間距- 解析和創建圖片 - 內聯圖片 - 灰度/RGB/CMYK等顏色空間圖片 - 帶有透明通道圖片 - 浮動圖片（襯於文字下方）- 解析和創建表格 - 邊框樣式例如寬度和顏色 - 單元格背景色 - 合併單元格 - 單元格垂直文本 - 隱藏部分邊框線的表格 - 嵌套表格- 支持多進程轉換

pdf2docx同時解析出了表格內容和樣式，因此也可以作為一個表格內容提取工具。

限制

- 目前暫不支持掃描PDF文字識別

- 僅支持從左向右書寫的語言（因此不支持阿拉伯語）- 不支持旋轉的文字- 基於規則的解析無法保證100%還原PDF樣式

安裝

pip install pdf2docx

案例

from pdf2docx import parse

pdf_file = '/path/to/sample.pdf'docx_file = 'path/to/sample.docx'# convert pdf to docxparse(pdf_file, docx_file)

Run