pdf can't copy text 無法複製文字

有些 pdf 是通過圖片弄出來的,或者被 protect 了. 我們會無法 copy 裡面的字. 

這個時候可以用 OCR (Optical character recognition) 就是從圖片中識別出字的魔力.

做法可以是這樣 

1. pdf -> images -> word -> merge word 
http://pdftoimage.com (pdf -> images)
https://www.onlineocr.net (image -> word)
https://support.microsoft.com/en-us/help/2665750/how-to-merge-multiple-word-documents-into-one---eeekb (merge word)

 

就是把 pdf 轉換成圖,然後轉換成 microsof word, 最後把多個 word merge 起來就可以了。 

 

關鍵詞:pdf word copy 無法 merge 可以 text 複製 文字 can't

相關推薦:

Python 抓取「知識星球」內容生成電子書

實現線上預覽PDF的幾種解決方案

資料分析:基於Python的自定義文件格式轉換系統

Kaggle 廣告轉化率預測比賽小結

Python3 實現色情圖片識別

A Macro to Export Multiple Emails and their Attachments from Microsoft Outlook to a Single PDF

生成PDF的方案調研

ResNeXt——與 ResNet 相比,相同的引數個數,結果更好:一個 101 層的 ResNeXt 網路,和 200 層的 ResNet 準確度差不多,但是計算量只有後者的一半

一個成功的 Git 分支模型(適用於商業應用開發)

Jupyter Notebook