實例代碼講解Python 線程池
大家都知道當任務過多,任務量過大時如果想提高效率的一個最簡單的方法就是用多線程去處理,比如爬取上萬個網頁中的特定數據,以及將爬取數據和清洗數據的工作交給不同的線程去處理,也就是生產者消費者模式,都是典型的多線程使用場景。
那是不是意味著線程數量越多,程序的執行效率就越快呢。
顯然不是。線程也是一個對象,是需要占用資源的,線程數量過多的話肯定會消耗過多的資源,同時線程間的上下文切換也是一筆不小的開銷,所以有時候開辟過多的線程不但不會提高程序的執行效率,反而會適得其反使程序變慢,得不償失。
所以,如何確定多線程的數量是多線程編程中一個非常重要的問題。好在經過多年的摸索業界基本已形成一套默認的標準。
對于 CPU 密集型的計算場景,理論上將線程的數量設置為 CPU 核數就是最合適的,這樣可以將每個 CPU 核心的性能壓榨到極致,不過在工程上,線程的數量一般會設置為 CPU 核數 + 1,這樣在某個線程因為未知原因阻塞時多余的那個線程完全可以頂上。
而對于 I/O 密集型的應用,就需要考慮 CPU 計算的耗時和 I/O 的耗時比了。如果 I/O 耗時和 CPU 耗時 為 1:1,那么兩個線程是最合適的,因為當 A 線程做 I/O 操作時,B 線程執行 CPU 計算任務,當 B 線程做 I/O 操作時,A 線程執行 CPU 計算任務,CPU 和 I/O 的利用率都得到了百分百,完美。所以可以認為最佳線程數 = CPU 核數 * [1 +(I/O 耗時 / CPU 耗時]。
線程池
平時我們自己寫多線程程序時基本都是直接調用 Thread(target=method) 即可,實際上創建線程遠沒有這么簡單,需要分配內存,同時線程還需要調用操作系統內核的 API,然后操作系統還需要為線程分配一系列的資源,過程很是復雜,所以要盡量避免頻繁的創建和銷毀線程。
回想一下自己平時寫多線程代碼的模式,是不是當任務來臨時直接創建線程,執行任務,當任務執行結束之后,線程也就隨之消亡了。然后又開始循環往復。有多少個任務就創建了多少個線程。這種模式的話很浪費硬件資源。
那如何避免這種問題呢,線程池就派上用場了。
其實線程池就是生產者消費者模式的最佳實踐,當線程池初始化時,會自動創建指定數量的線程,有任務到達時直接從線程池中取一個空閑線程來用即可,當任務執行結束時線程不會消亡而是直接進入空閑狀態,繼續等待下一個任務。而隨著任務的增加線程池中的可用線程必將逐漸減少,當減少至零時,任務就需要等待了。
在 python 中使用線程池有兩種方式,一種是基于第三方庫 threadpool,另一種是基于 python3 新引入的庫 concurrent.futures.ThreadPoolExecutor。這里我們都做一下介紹。
threadpool 方式
使用 threadpool 前需要先安裝一下,看了這么久我們的文章,相信你很快就會搞定的。在命令行執行如下命令即可。
pip install threadpool
以下是一個簡易的線程池使用模版,我們創建了一個函數 sayhello,然后創建了一個大小為 2 的線程池,也就是線程池總共有兩個活躍線程。
最后通過 pool.putRequest() 將任務丟到線程池執, pool.wait() 等待所有線程結束。同時我們還可以定義回調函數,拿到任務的返回結果。
由結果我們可以看出,線程池中的確只有兩個線程,分別為 Thread-1 和 Thread-2。
import timeimport threadpoolimport threadingdef sayhello(name): print('%s say Hello to %s' % (threading.current_thread().getName(), name)); time.sleep(1) return namedef callback(request, result): # 回調函數,用于取回結果 print('callback result = %s' % result)name_list =[’admin’,’root’,’scott’,’tiger’]start_time = time.time()pool = threadpool.ThreadPool(2) # 創建線程池requests = threadpool.makeRequests(sayhello, name_list, callback) # 創建任務[pool.putRequest(req) for req in requests] # 加入任務pool.wait() print(’%s cost %d second’ % (threading.current_thread().getName(), time.time()-start_time))## 運行結果如下Thread-1 say Hello to adminThread-2 say Hello to rootThread-1 say Hello to scottThread-2 say Hello to tigercallback result = admincallback result = rootcallback result = tigercallback result = scottMainThread cost 2 second
ThreadPoolExecutor 方式
ThreadPoolExecutor 是 python3 新引入的庫,具體使用方法與 threadpool 大同小異,同樣是創建容量為 2 的線程池,提交四個任務。只不過這里分別是通過 submit 和 as_completed 來提交和獲取任務返回結果的。
同樣由輸出結果我們可以看出,兩種線程池的實現方式中關于線程的命名方式是不一致的。
import timeimport threadingfrom concurrent.futures import ThreadPoolExecutor, as_completeddef sayhello(name): print('%s say Hello to %s' % (threading.current_thread().getName(), name)); time.sleep(1) return namename_list =[’admin’,’root’,’scott’,’tiger’]start_time = time.time()with ThreadPoolExecutor(2) as executor: # 創建 ThreadPoolExecutor future_list = [executor.submit(sayhello, name) for name in name_list] # 提交任務for future in as_completed(future_list): result = future.result() # 獲取任務結果 print('%s get result : %s' % (threading.current_thread().getName(), result))print(’%s cost %d second’ % (threading.current_thread().getName(), time.time()-start_time))## 運行結果如下ThreadPoolExecutor-0_0 say Hello to adminThreadPoolExecutor-0_1 say Hello to rootThreadPoolExecutor-0_0 say Hello to scottThreadPoolExecutor-0_1 say Hello to tigerMainThread get result : rootMainThread get result : tigerMainThread get result : scottMainThread get result : adminMainThread cost 2 second
線程池總結
本文介紹了常用的兩種線程池的實現方式,在多線程編程中能使用線程池就不要自己去創建線程,并不是說線程池實現的多么好,其實我們自己完全也可以實現一個功能更強大的線程池。但是其內置的線程池一來是受過全方面測試的,在安全性,性能和方便性上基本就是最優的了,同時線程池還替我們做了很多額外的工作,比如任務隊列的維護,線程銷毀時資源的回收等都不需要開發者去關心,我們只需注重業務邏輯即可,不需要在關心其他額外的工作,這將大大提高我們的的工作效率和使用感受。
當然其自帶的線程池也不是十全十美的,至少暫時沒有提供動態添加任務的入口出來。而且在設計方面不夠靈活,比如我想線程池只維護一個核心數量,也就是上文說的最大數量。但是當任務過多時可以再額外創建出一些新的線程(閾值可以自定義),處理完之后這些多余的線程將自動銷毀,目前這個是做不到的。
代碼地址
https://github.com/JustDoPython/python-100-day/tree/master/day-053
參考資料
https://chrisarndt.de/projects/threadpool/api/
以上就是實例代碼講解Python 線程池的詳細內容,更多關于Python 線程池的資料請關注好吧啦網其它相關文章!
相關文章: