亚洲精品久久久中文字幕-亚洲精品久久片久久-亚洲精品久久青草-亚洲精品久久婷婷爱久久婷婷-亚洲精品久久午夜香蕉

您的位置:首頁技術文章
文章詳情頁

python解析PDF程序代碼

瀏覽:2日期:2022-06-16 11:18:41
說在前面

和word的文本相比PDF更類似于一張張圖片,圖上放著一個個文字。對其的解析是將圖片上的文字提取到text文件中,方便之后的分析。

添加依賴

在python的環境中安裝PDFminer3k,不要裝錯了,一開始我裝的是PDFminer,結果有幾個包不能用pip install pdfminer3k

源程序代碼

#!/usr/bin/env python3# -*- coding:utf-8 -*-# pip3 install pdfminer3kimport osfrom pdfminer.converter import PDFPageAggregatorfrom pdfminer.layout import LAParams, LTTextBoxHorizontalfrom pdfminer.pdfparser import PDFParser, PDFDocumentfrom pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter, PDFTextExtractionNotAllowedfrom pdfminer.pdfdevice import PDFDevicedef read_pdf(pdf_name, result_name): # 以二進制讀模式打開 fp = open(pdf_name, ’rb’) # 用文件對象來創建一個pdf文檔分析器 parser = PDFParser(fp) # 創建一個pdf文檔 doc = PDFDocument() # 連接分析器 與文檔對象 parser.set_document(doc) doc.set_parser(parser) # 提供初始密碼,如果沒有密碼 就創建一個空的字符串 doc.initialize(’’) # 檢測文檔是否提供txt轉換,不提供就拋出異常 if not doc.is_extractable:raise PDFTextExtractionNotAllowed # 創建PDf 資源管理器 來管理共享資源 rsrcmgr = PDFResourceManager() # 創建一個PDF設備對象 laparams = LAParams() device = PDFPageAggregator(rsrcmgr, laparams=laparams) # 創建一個PDF解釋器對象 interpreter = PDFPageInterpreter(rsrcmgr, device) with open(result_name, 'w', encoding='u8') as fd_out:# 循環遍歷列表,每次處理一個page的內容for i, page in enumerate(doc.get_pages(), 1): index = '===========《第{}頁》==========='.format(i) print(index) fd_out.write(index + 'n') interpreter.process_page(page) # 接受該頁面的LTPage對象 layout = device.get_result() for x in layout:# 這里layout是一個LTPage對象 里面存放著 這個page解析出的各種對象 一般包括LTTextBox,# LTFigure, LTImage, LTTextBoxHorizontal 等等 想要獲取文本就獲得對象的text屬性if not isinstance(x, LTTextBoxHorizontal): continueresults = x.get_text()print(results)fd_out.write(results)if __name__ == ’__main__’: # 獲取讀取文件夾 filePath = ’../PDFfile’ #遍歷文件夾 for i,j,k in os.walk(filePath):for m in k: # 格式化輸出的名稱和地址 result = ’../TextFile/’ + m[:-4] + ’.txt’ # 格式化源文件路徑 fileName = i + ’/’ + m # 調用函數解析 read_pdf(fileName, result)

參考以下代碼內容:python 讀取pdf文本內容

#!/usr/bin/env python3#-*- coding:utf-8 -*-# pip3 install pdfminer3k from pdfminer.converter import PDFPageAggregatorfrom pdfminer.layout import LAParams, LTTextBoxHorizontalfrom pdfminer.pdfparser import PDFParser, PDFDocumentfrom pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter, PDFTextExtractionNotAllowedfrom pdfminer.pdfdevice import PDFDevice def read_pdf(pdf_name, result_name): # 以二進制讀模式打開 fp = open(pdf_name, ’rb’) # 用文件對象來創建一個pdf文檔分析器 parser = PDFParser(fp) # 創建一個pdf文檔 doc = PDFDocument() # 連接分析器 與文檔對象 parser.set_document(doc) doc.set_parser(parser) # 提供初始密碼,如果沒有密碼 就創建一個空的字符串 doc.initialize(’’) # 檢測文檔是否提供txt轉換,不提供就拋出異常 if not doc.is_extractable:raise PDFTextExtractionNotAllowed # 創建PDf 資源管理器 來管理共享資源 rsrcmgr = PDFResourceManager() # 創建一個PDF設備對象 laparams = LAParams() device = PDFPageAggregator(rsrcmgr, laparams=laparams) # 創建一個PDF解釋器對象 interpreter = PDFPageInterpreter(rsrcmgr, device) with open(result_name,'w',encoding='u8') as fd_out:# 循環遍歷列表,每次處理一個page的內容for i,page in enumerate(doc.get_pages(),1): index = '===========《第{}頁》==========='.format(i) print(index) fd_out.write(index + 'n') interpreter.process_page(page) # 接受該頁面的LTPage對象 layout = device.get_result() for x in layout:# 這里layout是一個LTPage對象 里面存放著 這個page解析出的各種對象 一般包括LTTextBox,# LTFigure, LTImage, LTTextBoxHorizontal 等等 想要獲取文本就獲得對象的text屬性if not isinstance(x, LTTextBoxHorizontal): continueresults = x.get_text()print(results)fd_out.write(results) if __name__ == ’__main__’: pdf_name = ’test.pdf’ result = ’test.txt’ read_pdf(pdf_name, result)

以上就是python解析PDF的詳細內容,更多關于python解析PDF的資料請關注好吧啦網其它相關文章!

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 成人自拍视频 | 日韩爽爽爽视频免费播放 | 亚洲成人精品 | 国内自拍第100页 | 九一视频在线免费观看 | 亚洲精品aⅴ一区二区三区 亚洲精品aⅴ中文字幕乱码 | 欧美日韩一区二区三在线 | 国产a免费视频 | 日本精品在线观看视频 | 亚洲国产精品综合欧美 | 亚洲色图图片 | 婷婷激情网站 | 免费的很黄很色的床小视频 | 精品一区二区国语对白 | 午夜香蕉网 | 日韩高清中文字幕 | 精品国产亚洲一区二区在线3d | 外国成人xxx在线视频 | 欧美日韩免费播放一区二区 | 欧洲三级| 国产成a人亚洲精v品久久网 | 精品欧美一区二区三区四区 | 久久99精品久久久久久黑人 | 黄色爱爱视频 | 慈禧级淫片a级中文在线 | 国产在线精品美女观看 | 加勒比久草 | a级毛片免费观看在线播放 a级毛片免费观看网站 | 日韩色视 | 久热香蕉精品视频在线播放 | 婷婷射图 | 婷婷五月色综合 | 免费观看69xxx视频在线 | 蜜桃视频一区二区在线看 | 欧美日韩专区国产精品 | 中文字幕欧美日韩高清 | 国产精品福利视频主播真会玩 | 大尺度人体自拍私拍337p | 国产精品区一区二区三 | 国产三级在线免费观看 | 欧美成人免费草草影院视频 |