文章詳情頁(yè)

Python讀取pdf表格寫入excel的方法

瀏覽：11日期：2022-06-29 13:18:40

背景

今天突然想到之前被要求做同性質(zhì)銀行的數(shù)據(jù)分析。媽耶！十幾個(gè)銀行，每個(gè)銀行近5年的財(cái)務(wù)數(shù)據(jù)，而且財(cái)務(wù)報(bào)表一般都是 pdf 的，我們將 pdf 中表的數(shù)據(jù)一個(gè)個(gè)的拷貝到 excel 中，再借助 excel 去進(jìn)行求和求平均等聚合函數(shù)操作，完事了還得把求出來的結(jié)果再統(tǒng)一 CV 到另一張表中，進(jìn)行可視化分析…

當(dāng)然，那時(shí)風(fēng)流倜儻的老Amy 還熟練的玩轉(zhuǎn)著 excel ，也是個(gè)秀兒~ 今天就思索著，如果當(dāng)年我會(huì) Python 是不是可以讓我成為班級(jí)最靚的崽！用技術(shù)占領(lǐng)高地，HHH，所以今天我來了，希望可以幫助大家解決同性質(zhì)的問題。

開始學(xué)習(xí)叭避免CV大法

pdf 文件的表格的數(shù)據(jù)可以復(fù)制，但是這是一項(xiàng)非常繁瑣的事情。所以我首先考慮的是，Python 可否幫助我們高效且規(guī)范地讀取 pdf 中的表格數(shù)據(jù)。所以一頓的檢索，發(fā)現(xiàn)了一個(gè)比較優(yōu)質(zhì)處理 pdf 的庫(kù)：pdfplumber，當(dāng)然這個(gè)庫(kù)需要大家 pip install pdfplumber 去進(jìn)行安裝。以及詳細(xì)使用可參考全球最大基友社區(qū)：https://github.com/jsvine/pdfplumber

步驟：導(dǎo)入 pdfplumber 庫(kù) 通過 pdfplumber.open() 函數(shù) 獲取 mt2018.pdf 文件對(duì)象通過該對(duì)象.pages 獲取 pdf 每頁(yè)的對(duì)象，截取我們需要的頁(yè)對(duì)象即可通過頁(yè)對(duì)象.extract_tables() 獲取表格數(shù)據(jù)（若需要獲取文本：頁(yè)對(duì)象.extract_text()）

代碼實(shí)現(xiàn)：

import pdfplumber# 獲取 pdf 文件對(duì)象pdf_mt = pdfplumber.open('mt2018.pdf')# 因?yàn)槲倚枰@取的資產(chǎn)負(fù)債表在 51-53頁(yè) 但是索引從0開始所以切片取 50-52即可for pdf_pg in pdf_mt.pages[50:53]: # 只提取當(dāng)前頁(yè)表格數(shù)據(jù) print(pdf_pg.extract_tables()) --------------------------------------------------------------------------結(jié)果比較多，截取一部分：[[[’項(xiàng)目’, ’附注’, ’期末余額’, ’期初余額’], [’流動(dòng)資產(chǎn)：’, ’’, ’’, ’’], [’貨幣資金’, ’1’, ’112,074,791,420.06’, ’87,868,869,913.34’], [’結(jié)算備付金’, ’’, ’’, ’’], [’拆出資金’, ’’, ’’, ’’], [’以公允價(jià)值計(jì)量且其變動(dòng)計(jì)入當(dāng)n期損益的金融資產(chǎn)’, ’’, ’’, ’’], [’衍生金融資產(chǎn)’, ’’, ’’, ’’], [’應(yīng)收票據(jù)及應(yīng)收賬款’, ’2’, ’563,739,710.00’, ’1,221,706,039.00’]]]將完整表保存到 csv 文件中

我們發(fā)現(xiàn)，返回的數(shù)據(jù)集是一個(gè)三維的列表。那么在我們平時(shí)處理的 excel 表格數(shù)據(jù)(行與列)都是二維的數(shù)據(jù)。那么，這多出的一維是什么呢？其實(shí)就是我們的夜[頁(yè)]~ 再來一個(gè)循環(huán)取出二維數(shù)據(jù)進(jìn)行保存即可

for pdf_pg in pdf_mt.pages[50:53]: for pdf_tb in pdf_pg.extract_tables(): print(pdf_tb) ------------------------------------------------------------------------------結(jié)果比較多，截取一部分：[[’項(xiàng)目’, ’附注’, ’期末余額’, ’期初余額’], [’流動(dòng)資產(chǎn)：’, ’’, ’’, ’’], [’貨幣資金’, ’1’, ’112,074,791,420.06’, ’87,868,869,913.34’], [’結(jié)算備付金’, ’’, ’’, ’’], [’拆出資金’, ’’, ’’, ’’], [’以公允價(jià)值計(jì)量且其變動(dòng)計(jì)入當(dāng)n期損益的金融資產(chǎn)’, ’’, ’’, ’’], [’衍生金融資產(chǎn)’, ’’, ’’, ’’], [’應(yīng)收票據(jù)及應(yīng)收賬款’, ’2’, ’563,739,710.00’, ’1,221,706,039.00’]]

但是，真的那么簡(jiǎn)單嗎？這時(shí)，我們就需要細(xì)品我們的 pdf 了，如下圖

Python讀取pdf表格寫入excel的方法

我們發(fā)現(xiàn)，一張完整的資產(chǎn)負(fù)債表分布在多頁(yè)上。也就是說，每一頁(yè)的里面的表格數(shù)據(jù)都是一個(gè)三維的列表，所以我們保存數(shù)據(jù)的時(shí)候，需要讓其有共同的表頭(列索引)，并且進(jìn)行拼接。

那必須就要強(qiáng)推我們的 pandas 了，pandas.DataFrame() 非常完美的創(chuàng)建表格式的二維數(shù)組，以及指定列索引(表頭)。包括可以直接使用 df.append() 進(jìn)行共同表頭數(shù)據(jù)的堆疊拼接。

import pdfplumberimport pandas as pdimport numpy as np# 創(chuàng)建僅有表頭的 dataframe 數(shù)組pdf_df = pd.DataFrame(columns=[’項(xiàng)目’, ’附注’, ’期末余額’, ’期初余額’])# 獲取 pdf 文件對(duì)象pdf_mt = pdfplumber.open('mt2018.pdf')# 因?yàn)槲倚枰@取的資產(chǎn)負(fù)債表在 51-53頁(yè) 但是索引從0開始所以切片取 50-52即可for pdf_pg in pdf_mt.pages[50:53]: # 獲取二維列表 for pdf_tb in pdf_pg.extract_tables():# 將其拼接 pdf_df = pdf_df.append(pd.DataFrame(np.array(pdf_tb),columns=[’項(xiàng)目’, ’附注’, ’期末余額’, ’期初余額’]))# 顯示后五條pdf_df.tail()

dataframe數(shù)據(jù)輸出如下：

Python讀取pdf表格寫入excel的方法

pdf 53頁(yè)如下：

Python讀取pdf表格寫入excel的方法

實(shí)際上，大家也發(fā)現(xiàn)，我們獲取的最后一頁(yè)的數(shù)據(jù)還有一部分是另一個(gè)表的，所以我們需要將其去除，并且有序的設(shè)置行索引，再保存到 csv 文件中。

# 去除后三行pdf_df = pdf_df.iloc[:-3,:]# 重置索引pdf_df = pdf_df.reset_index(drop=True)# 保存到 csv 文件中pdf_df.to_csv('mt_2018.csv')

Python讀取pdf表格寫入excel的方法

當(dāng)然，今天就到這里，其它的需求我們下次給大家完善。大家也可以自己將代碼封裝成函數(shù)，這樣就可以實(shí)現(xiàn)傳入 pdf文件名稱、頁(yè)數(shù)以及保存的文件名來復(fù)用代碼。如果大家再掌握了 pandas 就可以根據(jù)自己的需求，對(duì)各個(gè)表格數(shù)據(jù)進(jìn)行處理。再結(jié)合 seaborn 繪圖可視化，完爆 excel ~ 快學(xué)習(xí)起來叭，GOGOGO

以上就是Python讀取pdf表格寫入excel的方法的詳細(xì)內(nèi)容，更多關(guān)于Python讀取pdf表格寫入excel的資料請(qǐng)關(guān)注好吧啦網(wǎng)其它相關(guān)文章！

python

上一條：python 合并多個(gè)excel中同名的sheet下一條：python 基于UDP協(xié)議套接字通信的實(shí)現(xiàn)

相關(guān)文章：

1. PHP循環(huán)與分支知識(shí)點(diǎn)梳理2. css進(jìn)階學(xué)習(xí) 選擇符3. jsp實(shí)現(xiàn)簡(jiǎn)單用戶7天內(nèi)免登錄4. 小技巧處理div內(nèi)容溢出5. 告別AJAX實(shí)現(xiàn)無刷新提交表單6. ASP 信息提示函數(shù)并作返回或者轉(zhuǎn)向7. 使用XSL將XML文檔中的CDATA注釋輸出為HTML文本8. jsp網(wǎng)頁(yè)實(shí)現(xiàn)貪吃蛇小游戲9. 低版本IE正常運(yùn)行HTML5+CSS3網(wǎng)站的3種解決方案10. 輕松學(xué)習(xí)XML教程

排行榜

					
					教你在 IntelliJ IDEA 中使用 VIM插件的詳細(xì)教程
低版本IE正常運(yùn)行HTML5+CSS3網(wǎng)站的3種解決方案
axios和ajax的區(qū)別點(diǎn)總結(jié)
Android PC端用ADB抓取指定應(yīng)用日志實(shí)現(xiàn)步驟
idea 無法debug調(diào)試的解決方案
idea設(shè)置自動(dòng)導(dǎo)入依賴的方法步驟
python 帶時(shí)區(qū)的日期格式化操作
IntelliJ IDEA2021.2.3破解，IDEA 2021.2.x激活破解，2022激活持續(xù)更新
Spring Cloud Feign 自定義配置(重試、攔截與錯(cuò)誤碼處理) 代碼實(shí)踐
基于idea把maven工程轉(zhuǎn)換為web項(xiàng)目
Sequoia 2.5 發(fā)布－JDBC集群