文章詳情頁
python - 對於不同文件夾的特徵提取策略問題
瀏覽:94日期:2022-08-11 08:43:16
問題描述
問題描述:
有很多文件夾,一個文件夾下有很多文件。目的是將每個文件夾的特徵提取出來,特徵規(guī)定是該文件夾下的一個或少量文件(名,內(nèi)容hash及相對位置)。有什麼較好的算法或策略來解決該問題嗎?
我想的是暴力求解,但這效率低下。直接把該文件夾下的文件與其它文件夾下所有的文件做比較,如果有相同的,則該文件夾的下一個文件又去比較其它所有的,如果不同,則說明這個文件可以表達出該文件夾的特征。然后每個文件夾都這么做。
統(tǒng)計方法。按順序?qū)⒚總€文件夾的文件排序,選最大最小及中位數(shù)文件來作每個文件夾的特徵。但會出現(xiàn)這麼個問題,兩個文件夾可能就只有一個或少量文件不同,使用這種策略會產(chǎn)生遺漏,無法準(zhǔn)確提取出所有文件夾的特徵。
因此,我希望是在既能保證效率又能保證準(zhǔn)確率的情況下來對這問題進行求解。希望各位表哥能隨便提提建議或意見,指導(dǎo)指導(dǎo)。thx。
問題解答
回答1:將當(dāng)前文件夾隨機取固定數(shù)目個文件,將他們的文件名、大小、修改時間、權(quán)限等組合起來做個哈希,然后判重,一般重復(fù)率是不會很高的,因為即使文件名和大小一樣,修改時間一般是不一樣的。
相關(guān)文章:
1. docker安裝后出現(xiàn)Cannot connect to the Docker daemon.2. 關(guān)于Java引用傳遞的一個困惑?3. angular.js - angularjs的自定義過濾器如何給文字加顏色?4. javascript - 后端傳過來的數(shù)據(jù)格式是這樣,如何使用?5. javascript - 分類編輯保留之前分類名稱6. 關(guān)于docker下的nginx壓力測試7. python - TypeError: tryMsgcode() takes exactly 2 arguments (0 given)8. nignx - docker內(nèi)nginx 80端口被占用9. javascript - 最終生成的jsBundle文件壓縮問題10. node.js - 關(guān)于你不知道的JavaScript上一書介紹的行為委托
排行榜

熱門標(biāo)簽