python - 如何利用多進程來解決循環嵌套速度不行的問題?
問題描述
有一個循環里面套循環的模式,在內循環的循環體內要同時用到大循環和小循環的變量。
我這里是簡化成了一個簡單的模型,這種模式如果函數復雜的話速度超級慢,想問一下如何使用多進程的辦法來解決速度問題?
我的思路是,只對小循環采用多進程,在大循環的循環體內寫多進程的代碼,但是一直失敗,求大神給出正確的代碼。
拜謝!
import random as rlist1=list(range(100))i=0reslist=[]while i<2000:#大循環 alist=[]#三個列表變量,每次循環開始時清空 blist=[] clist=[] for each in list1:#小循環x=r.randint(i+30,i+60)+each#涉及到大、小循環變量的幾個函數,這里用random示意y=r.randint(i+60,i+120)+eachz=r.randint(i+60,i+180)+eachres=2.5*x-y-zreslist.append(res)#對函數結果進行操作if res>=50: alist.append(each)if -50<res<50: blist.append(each)if res<=-50: clist.append(each)for each in alist:#在大循環中對小循環中得出的結果進行進一步其他操作print(each) for each in blist:print(each) for each in clist:print(each)i+=1
問題解答
回答1:首先,并行計算需要各個并行運算的子程序間沒有相互因果關系。小循環內,res與x,y,z,與alist,blist,clist,都是因果關系密切的,很難拆分并行計算。題主貼上來的雖然不是原始代碼,不知道原始代碼里大循環間有沒有因果關系,不過從示意代碼來看,把大循環拆分為N個線程(用不到進程吧)應該是可以的,每個線程計算2000/N次。例如,分為8個線程,線程1計算i=0到249,線程2計算i=250到499,依次類推。。。這里N的大小,可以根據CPU的核數來定,如果N超過CPU的核數,就沒有太大意義了,反而有可能會降低效率。
回答2:中間應該用elif吧,最后面for的縮進好像也有問題
回答3:可以在大循環這里開多進程,比如大循環2000次,如CPU的核數是4,則開4個進程,每個進程負責運行500個
小循環結束后,可以開子線程去執行下面的這些后續操作,大循環繼續往前處理
for each in alist:#在大循環中對小循環中得出的結果進行進一步其他操作 print(each)for each in blist: print(each)for each in clist: print(each)回答4:
可以將小循環用子進程去處理 不過這樣 你需要兩個大循環。一個循環處理小循環 ,等處理完這個循環在來個大循環處理后面的事情
像這樣
import random as rdef cumput(i, list1): alist = [] blist = [] clist = [] reslist = [] for each in list1: # 小循環x = r.randint(i + 30, i + 60) + each # 涉及到大、小循環變量的幾個函數,這里用random示意y = r.randint(i + 60, i + 120) + eachz = r.randint(i + 60, i + 180) + eachres = 2.5 * x - y - zreslist.append(res) # 對函數結果進行操作if res >= 50: alist.append(each)if -50 < res < 50: blist.append(each)if res <= -50: clist.append(each) return alist, blist, clist, reslistif __name__ == ’__main__’: multiprocessing.freeze_support() list1 = list(range(100)) i = 0 pool = multiprocessing.Pool(2) res = {} while i < 2000: # 大循環res[i]=pool.apply_async(cumput, (i, list1,))i += 1 pool.close() pool.join() for i in res:for each in res[i].get()[0]: # 在大循環中對小循環中得出的結果進行進一步其他操作 print(each)for each in res[i].get()[1]: print(each)for each in res[i].get()[2]: print(each)回答5:
如果小循環中執行的函數比較耗時的話可以考慮生產者-消費者模型
import randomfrom threading import Threadfrom Queue import Queueresqueue = Queue()aqueue = Queue()bqueue = Queue()cqueue = Queue()def producer(): list1=list(range(100))for _ in range(2000):for each in list1: x=r.randint(i+30,i+60)+each y=r.randint(i+60,i+120)+each z=r.randint(i+60,i+180)+eachres=2.5*x-y-z resqueue.put(res)if res>=50:aqueue.put(each) if -50<res<50:bqueue.put(each) if res<=-50:cqueue.put(each)def consumer_a(): while True:try: data = aqueue.get(timeout=5)except Queue.Empty: returnelse: # 耗時操作 deal_data(data) aqueue.task_done() def consumer_b(): while True:try: data = bqueue.get(timeout=5)except Queue.Empty: returnelse: # 耗時操作 deal_data(data) bqueue.task_done() def consumer_c(): while True:try: data = cqueue.get(timeout=5)except Queue.Empty: returnelse: # 耗時操作 deal_data(data) cqueue.task_done() def consumer_res(): while True:try: data = resqueue.get(timeout=5)except Queue.Empty: returnelse: # 耗時操作 deal_data(data) resqueue.task_done() if __name__ == '__main__': t1 = Thread(target=producer) t2 = Thread(target=consumer_a) ...t1.start() t2.start() 回答6:
題主是不是應該先設計好進程的輸入與輸出,多進程做并行計算的話進程之間的通信是最重要的,據我了解的應該是MPI,比如多層循環,應該是先分發部分數據到每個進程,每個進程做計算后再返回數據整合點,然后合并結果輸出。
還有一個比較重要的點是估算每個進程的執行時間,畢竟有進程間的通信的話等待時間也會導致效率下降。
@一代鍵客 所說,你的嵌套不太符合并行計算的輸入規則,可以看看這個例子
http://blog.csdn.net/zouxy09/...
之前測試過文中的例子,沒啥問題,你沿著這些做的話應該是可以搞出來的
相關文章:
1. 我的html頁面一提交,網頁便顯示出了我的php代碼,求問是什么原因?2. 我在centos容器里安裝docker,也就是在容器里安裝容器,報錯了?3. 數據庫 - 使用讀寫分離后, MySQL主從復制延遲會導致讀不到數據嗎?4. tp6表單令牌5. docker 17.03 怎么配置 registry mirror ?6. 老哥們求助啊7. django - 后臺返回的json數據經過Base64加密,獲取時用python如何解密~!8. node.js - node 客戶端socket一直報錯Error: read ECONNRESET,用php的socket沒問題哈。。9. 如何解決docker宿主機無法訪問容器中的服務?10. javascript - canvas 可以實現 PS 魔法橡皮擦的功能嗎?
