文章詳情頁

python - 關于NumPy數組操作的問題

瀏覽：144日期：2022-06-26 18:57:18

問題描述

[’000001_2017-03-17.csv’, ’000001_2017-03-20.csv’, ’000002_2017-03-21.csv’, ’000002_2017-03-22.csv’, ’000003_2017-03-23.csv’, ’000004_2017-03-24.csv’]

numpy數組，總共有幾個萬個元素。現在想保留每個元素前面的編號000001之類的，并且去掉重復，只保留唯一的一個編號。結果應該是[’000001’,’000002’,’000003’,’000004’]除了用for語句實現外，有沒有更高效的辦法？

問題解答

回答1：

寫個NumPy的吧~

python3

>>> import numpy as np>>> a = np.array([’000001_2017-03-17.csv’, ’000001_2017-03-20.csv’, ’000002_2017-03-21.csv’, ’000002_2017-03-22.csv’, ’000003_2017-03-23.csv’, ’000004_2017-03-24.csv’])>>> b = np.unique(np.fromiter(map(lambda x:x.split(’_’)[0],a),’|S6’))>>> barray([b’000001’, b’000002’, b’000003’, b’000004’], dtype=’|S6’)

還可以這樣寫：np.frompyfunc’|S6’是以6個字節存儲字符串

’<U6’是以6個小端序Unicode字符存儲字符串

>>> b = np.array(np.unique(np.frompyfunc(lambda x:x[:6],1,1)(a)),dtype=’<U6’)>>> barray([’000001’, ’000002’, ’000003’, ’000004’], dtype=’<U6’)回答2：

綜合兩位仁兄的寫法@同意并接受 @xiaojieluoff

如果編號長度固定是前六位，最快的寫法下面第一種最快

import timelst = [’000001_2017-03-17.csv’, ’000001_2017-03-20.csv’, ’000002_2017-03-21.csv’, ’000002_2017-03-22.csv’, ’000003_2017-03-23.csv’, ’000004_2017-03-24.csv’] * 1000000start = time.time()data = {_[:6] for _ in lst}print ’dic: {}’.format(time.time() - start)start = time.time()data = set(_[:6] for _ in lst)print ’set: {}’.format(time.time() - start)start = time.time()data = set(map(lambda _: _[:6], lst))print(’map：{}’.format(time.time() - start))start = time.time()data = set()[data.add(_[:6]) for _ in lst]print(’for：{}’.format(time.time() - start))耗時：dic: 0.72798705101set: 0.929664850235map：1.89214396477for：1.76194214821回答3：

使用 map 和匿名函數

lists = [’000001_2017-03-17.csv’, ’000001_2017-03-20.csv’,’000002_2017-03-21.csv’,’000002_2017-03-22.csv’,’000003_2017-03-23.csv’, ’000004_2017-03-24.csv’]data = list(set(map(lambda x:x.split(’_’)[0], lists)))print(data)

輸出：

[’000003’, ’000004’, ’000001’, ’000002’]

運行下面代碼可以看到，在 6百萬條數據下，map 比 for 快了 0.6s 左右

import timelists = [’000001_2017-03-17.csv’, ’000001_2017-03-20.csv’, ’000002_2017-03-21.csv’, ’000002_2017-03-22.csv’, ’000003_2017-03-23.csv’, ’000004_2017-03-24.csv’] * 1000000map_start = time.clock()map_data = list(set(map(lambda x:x.split(’_’)[0], lists)))map_end = (time.clock() - map_start)print(’map 運行時間：{}’.format(map_end))for_start = time.clock()data = set()for k in lists: data.add(k.split(’_’)[0])for_end = (time.clock() - for_start)print(’for 運行時間：{}’.format(for_end))

輸出：

map 運行時間：2.36173for 運行時間：2.9405870000000003

如果把測試數據擴大到 6千萬，差距就更明顯了

map 運行時間：29.620203for 運行時間：33.132621

Python 編程

上一條：python - pandas中mode()怎么使用?下一條：求大神解讀一段神級的Python代碼，謝謝！！

相關文章：

1. 求救一下，用新版的phpstudy，數據庫過段時間會消失是什么情況？2. python沒入門，請教一個問題3. 小程序怎么加外鏈，語句怎么寫！求救新手，開文檔沒發現4. php如何獲取訪問者路由器的mac地址5. html - 爬蟲時出現“DNS lookup failed”，打開網頁卻沒問題，這是什么情況？6. javascript - 我的站點貌似被別人克隆了， google 搜索特定文章，除了域名不一樣，其他的都一樣，如何解決？7. 求教一個mysql建表分組索引問題8. node.js - 用nodejs 的node-xlsx模塊去讀取excel中的數據，可是讀取出來的日期是數字，請問該如何讀取日期呢？9. html5 - input type=’file’ 上傳獲取的fileList對象怎么存儲于瀏覽器？10. javascript - 在 vue里面用import引入js文件，結果為undefined

排行榜

					
					python沒入門，請教一個問題
求救一下，用新版的phpstudy，數據庫過段時間會消失是什么情況？
html - 爬蟲時出現“DNS lookup failed”，打開網頁卻沒問題，這是什么情況？
php如何獲取訪問者路由器的mac地址
javascript - 我的站點貌似被別人克隆了， google 搜索特定文章，除了域名不一樣，其他的都一樣，如何解決？
小程序怎么加外鏈，語句怎么寫！求救新手，開文檔沒發現
javascript -  在 vue里面用import引入js文件，結果為undefined
node.js - 用nodejs 的node-xlsx模塊去讀取excel中的數據，可是讀取出來的日期是數字，請問該如何讀取日期呢？
java 線程監控 重啟線程 觀察者模式的問題的問題
求教一個mysql建表分組索引問題
html5 - input type=’file’ 上傳獲取的fileList對象怎么存儲于瀏覽器？
				

熱門標簽

亚洲精品久久久中文字幕-亚洲精品久久片久久-亚洲精品久久青草-亚洲精品久久婷婷爱久久婷婷-亚洲精品久久午夜香蕉

python - 關于NumPy數組操作的問題