python使用多線程備份數據庫的步驟
1.多線程比單線程運行要快很多,比如在我工作中,每臺服務器至少8個庫以上,用單線程備份太慢了。
2.不是越多線程就會越好,而是根據服務器的資源來合理定義worker線程,否則會造成服務器嚴重負載,影響到線上業務。
3.備份數據庫都是消耗IO操作,用多線程比多進程稍微會更有優勢。
從Python3.2開始,標準庫為我們提供了 concurrent.futures 模塊,它提供了 ThreadPoolExecutor (線程池)和ProcessPoolExecutor (進程池)兩個類。相比 threading 等模塊,該模塊通過 submit 返回的是一個 future 對象,它是一個未來可期的對象,通過它可以獲悉線程的狀態主線程(或進程)中可以獲取某一個線程(進程)執行的狀態或者某一個任務執行的狀態及返回值:主線程可以獲取某一個線程(或者任務的)的狀態,以及返回值。當一個線程完成的時候,主線程能夠立即知道。讓多線程和多進程的編碼接口一致。
二、線程池練習演示例子1:使用submit方法from concurrent.futures import ThreadPoolExecutorimport time def test_thread(sec): time.sleep(sec) print(f'sleep {sec} done') return sec with ThreadPoolExecutor(max_workers=4) as t: # 創建一個最大容納數量為4的線程池 task1 = t.submit(test_thread, 1) task2 = t.submit(test_thread, 2) # 通過submit提交執行的函數到線程池中 task3 = t.submit(test_thread, 3) print(f'task1: {task1.done()}') # 通過done來判斷線程是否完成 print(f'task2: {task2.done()}') print(f'task3: {task3.done()}') time.sleep(2.5) print(f'task1: {task1.done()}') print(f'task2: {task2.done()}') print(f'task3: {task3.done()}') print(task1.result()) # 通過result來獲取返回值
結果輸出:
task1: Falsetask2: Falsetask3: Falsesleep 1 donesleep 2 donetask1: Truetask2: Truetask3: False1sleep 3 done
使用 with 語句 ,通過 ThreadPoolExecutor 構造實例,同時傳入 max_workers 參數來設置線程池中最多能同時運行的線程數目。使用 submit 函數來提交線程需要執行的任務到線程池中,并返回該任務的句柄(類似于文件、畫圖),注意 submit() 不是阻塞的,而是立即返回。通過使用 done() 方法判斷該任務是否結束。上面的例子可以看出,提交任務后立即判斷任務狀態,顯示3個任務都未完成。在延時2.5后,task1 和 task2 執行完畢,task3 仍在執行中。
演示例子2:使用map方法import timefrom concurrent.futures import ThreadPoolExecutor def spider(page): time.sleep(page) return page start = time.time()executor = ThreadPoolExecutor(max_workers=4) i = 1for result in executor.map(spider, [2, 3, 1, 4]): print('task{}:{}'.format(i, result)) i += 1
結果輸出:
task1:2task2:3task3:1task4:4
from concurrent.futures import ThreadPoolExecutor有兩種方式,一種是submit()函數,另一種是map()函數,兩者的主要區別在于:1.map可以保證輸出的順序, submit輸出的順序是亂的2.如果你要提交的任務的函數是一樣的,就可以簡化成map。但是假如提交的任務函數是不一樣的,或者執行的過程之可能出現異常(使用map執行過程中發現問題會直接拋出錯誤)就要用到submit()3.submit和map的參數是不同的,submit每次都需要提交一個目標函數和對應的參數,map只需要提交一次目標函數,目標函數的參數放在一個迭代器(列表,字典)里就可以。
三、線上數據庫測試環境:centos6,數據庫版本5.7,數據備份2個1.7G、一個800M、一個200M
第一種:shell腳本for的方式備份4個數據庫
#!/bin/bashbackup_path='/data/backup/'myuser='root'mypwd='123456'db_name='test_1000'current_time=$(date +%Y%m%d%H%M%S)for i in $(seq 4);do /usr/local/mysql/bin/mysqldump -u${myuser} -p${mypwd} --single-transaction --master-data=2 --set-gtid-purged=off '${db_name}${i}' | gzip > ${backup_path}/'${db_name}${i}'_${current_time}.sql.gzdone
查看執行時間
mysqldump: [Warning] Using a password on the command line interface can be insecure.mysqldump: [Warning] Using a password on the command line interface can be insecure.mysqldump: [Warning] Using a password on the command line interface can be insecure.mysqldump: [Warning] Using a password on the command line interface can be insecure. real 4m28.421suser 3m50.360ssys 0m5.962s
第二種方式:多線程備份
可以明顯看到優勢
總結:在服務器上有需要備份多個數據庫時,使用python多線程的方式比傳統的shell腳本循環備份會更有優勢,可以充分利用服務器上的資源,有效提升效率。
以上就是python使用多線程備份數據庫的步驟的詳細內容,更多關于python 多線程備份數據庫的資料請關注好吧啦網其它相關文章!
相關文章: