亚洲精品久久久中文字幕-亚洲精品久久片久久-亚洲精品久久青草-亚洲精品久久婷婷爱久久婷婷-亚洲精品久久午夜香蕉

您的位置:首頁技術文章
文章詳情頁

Python數據標準化的實例分析

瀏覽:79日期:2022-07-29 08:19:16
說明

1、將原始數據轉換為均值為0,標準差在1范圍內。

2、對標準化而言:如果出現異常點,由于有一定數據量,少量異常點對平均值的影響不大,因此方差變化不大。

實例

def stand_demo(): ''' 標準化 :return: '''# 1. 獲取數據 data = pd.read_csv(’dating.txt’) data = data.iloc[:, :3] print(’data:n’, data) # 2.實例化一個轉換器類 transfer = StandardScaler()# 3.調用fit_transform() data_new = transfer.fit_transform(data) print(’data_new:n’, data_new) return None

知識點擴充:

幾種標準化方法:

歸一化Max-Min

min-max標準化方法是對原始數據進行線性變換。設minA和maxA分別為屬性A的最小值和最大值,將A的一個原始值x通過min-max標準化映射成在區間[0,1]中的值x’,其公式為:

新數據=(原數據-最小值)/(最大值-最小值)

這種方法能使數據歸一化到一個區域內,同時不改變原來的數據結構。

實現中心化Z-Score

這種方法基于原始數據的均值(mean)和標準差(standard deviation)進行數據的標準化。將A的原始值x使用z-score標準化到x’。

z-score標準化方法適用于屬性A的最大值和最小值未知的情況,或有超出取值范圍的離群數據的情況。

新數據=(原數據-均值)/標準差

這種方法適合大多數類型數據,也是很多工具的默認標準化方法。標準化之后的數據是以0為均值,方差為以的正太分布。但是Z-Score方法是一種中心化方法,會改變原有數據的分布結構,不適合用于對稀疏數據做處理。

很多時候數據集會存在稀疏特征,表現為標準差小,很多元素值為0,最常見的稀疏數據集是用來做協同過濾的數據集,絕大部分數據都是0。對稀疏數據做標準化,不能采用中心化的方式,否則會破壞稀疏數據的結構。

用于稀疏數據的MaxAbs

最大值絕對值標準化(MaxAbs)即根據最大值的絕對值進行標準化,假設原轉換的數據為x,新數據為x’,那么x’=x/|max|,其中max為x鎖在列的最大值。

該方法的數據區間為[-1, 1],也不破壞原數據結構的特點,因此也可以用于稀疏數據,一些稀疏矩陣。

針對離群點的RobustScaler

有些時候,數據集中存在離群點,用Z-Score進行標準化,但是結果不理想,因為離群點在標準化后喪失了利群特性。

RobustScaler針對離群點做標準化處理,該方法對數據中心化的數據的縮放健壯性有更強的參數控制能力。

到此這篇關于Python數據標準化的實例分析的文章就介紹到這了,更多相關Python數據標準化是什么內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網!

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 国产精品videossex激情 | 免费视频爱爱太爽了 | 久免费视频 | 久久99精品久久久久久黑人 | 欧美亚洲国产激情一区二区 | 国产一级理论免费版 | 男女动态视频在线观看 | 玖玖精品在线观看 | 尤物网站永久在线观看 | 国产一区成人 | 6969精品视频在线观看 | 婷婷丁香色综合狠狠色 | 国产成人综合洲欧美在线 | 巨大巨粗巨长 黑人长吊视频 | 日本精品久久久久久久 | 免费观看国产视频 | 在线精品国产 | 日本精品中文字幕在线播放 | 免费一级特黄3大片视频 | 亚洲国产日韩在线人高清不卡 | 亚洲精品视频一区 | 久久精品视频3 | 国内自产拍自a免费毛片 | 国产精品亚洲二区在线 | 黄色一级毛片看一级毛片 | 欧美一区欧美二区 | 美国特级片 | 国产在线自在拍91精品黑人 | 日韩在线一区二区三区免费视频 | 91短视频免费观看 | 高潮影院 | www亚洲一区 | 欧美激情大尺度做爰叫床声 | 337q日本大胆欧美人术艺术 | 亚洲国产成人久久午夜 | 国产精品久久久久久久9999 | 国产高清在线精品免费不卡 | 日韩第六页 | 日本免费一区二区在线观看 | 欧美一级毛片高清视频 | 久久4k岛国高清一区二区 |