mysql數據庫中的索引類型和原理解讀
目錄
- 索引初識
- 一個簡單的對比測試
- MySQL索引的概念
- MySQL索引的類型
- 1. 普通索引
- 2. 唯一索引
- 3. 全文索引(FULLTEXT)
- 4. 單列索引、多列索引
- 5. 組合索引(最左前綴)
- MySQL索引的優(yōu)化
- 建立索引的優(yōu)缺點
- 總結
索引初識
最普通的情況,是為出現在where子句的字段建一個索引。為方便講述,我們先建立一個如下的表。
CREATE TABLE mytable ( id serial primary key, category_id int not null default 0, user_id int not null default 0, adddate int not null default 0 );
很簡單吧,不過對于要說明這個問題,已經足夠了。如果你在查詢時常用類似以下的語句:
SELECT * FROM mytable WHERE category_id=1;?
最直接的應對之道,是為category_id建立一個簡單的索引:
CREATE INDEX mytable_categoryid ON mytable (category_id);
OK,搞定?先別高興,如果你有不止一個選擇條件呢?例如:
SELECT * FROM mytable WHERE category_id=1 AND user_id=2;
你的第一反應可能是,再給user_id建立一個索引。不好,這不是一個最佳的方法。你可以建立多重的索引。
CREATE INDEX mytable_categoryid_userid ON mytable (category_id,user_id);
注意到我在命名時的習慣了嗎?我使用"表名_字段1名_字段2名"的方式。你很快就會知道我為什么這樣做了。
現在你已經為適當的字段建立了索引,不過,還是有點不放心吧,你可能會問,數據庫會真正用到這些索引嗎?測試一下就OK,對于大多數的數據庫來說,這是很容易的,只要使用EXPLAIN命令:
EXPLAIN SELECT * FROM mytable? WHERE category_id=1 AND user_id=2; This is what Postgres 7.1 returns (exactly as I expected)? NOTICE: QUERY PLAN: Index Scan using mytable_categoryid_userid on? ? mytable (cost=0.00..2.02 rows=1 width=16) EXPLAIN
以上是postgres的數據,可以看到該數據庫在查詢的時候使用了一個索引(一個好開始),而且它使用的是我創(chuàng)建的第二個索引。看到我上面命名的好處了吧,你馬上知道它使用適當的索引了。
接著,來個稍微復雜一點的,如果有個ORDER BY字句呢?不管你信不信,大多數的數據庫在使用order by的時候,都將會從索引中受益。
SELECT * FROM mytable WHERE category_id=1 AND user_id=2 ORDER BY adddate DESC;
有點迷惑了吧?很簡單,就象為where字句中的字段建立一個索引一樣,也為ORDER BY的字句中的字段建立一個索引:
CREATE INDEX mytable_categoryid_userid_adddate ON mytable (category_id,user_id,adddate);??
注意: "mytable_categoryid_userid_adddate" 將會被截短為
"mytable_categoryid_userid_addda"
CREATE ? EXPLAIN SELECT * FROM mytable WHERE category_id=1 AND user_id=2 ORDER BY adddate DESC; NOTICE: QUERY PLAN: Sort (cost=2.03..2.03 rows=1 width=16) -> Index Scan using mytable_categoryid_userid_addda? on mytable (cost=0.00..2.02 rows=1 width=16) EXPLAIN
看看EXPLAIN的輸出,好象有點恐怖啊,數據庫多做了一個我們沒有要求的排序,這下知道性能如何受損了吧,看來我們對于數據庫的自身運作是有點過于樂觀了,那么,給數據庫多一點提示吧。
為了跳過排序這一步,我們并不需要其它另外的索引,只要將查詢語句稍微改一下。這里用的是postgres,我們將給該數據庫一個額外的提示--在ORDER BY語句中,加入where語句中的字段。這只是一個技術上的處理,并不是必須的,因為實際上在另外兩個字段上,并不會有任何的排序操作,不過如果加入,postgres將會知道哪些是它應該做的。
EXPLAIN SELECT * FROM mytable? ? WHERE category_id=1 AND user_id=2 ORDER BY category_id DESC,user_id DESC,adddate DESC; NOTICE: QUERY PLAN: Index Scan Backward using? mytable_categoryid_userid_addda on mytable? ? (cost=0.00..2.02 rows=1 width=16) EXPLAIN
現在使用我們料想的索引了,而且它還挺聰明,知道可以從索引后面開始讀,從而避免了任何的排序。
以上說得細了一點,不過如果你的數據庫非常巨大,并且每日的頁面請求達上百萬算,我想你會獲益良多的。不過,如果你要做更為復雜的查詢呢,例如將多張表結合起來查詢,特別是where限制字句中的字段是來自不止一個表格時,應該怎樣處理呢?我通常都盡量避免這種做法,因為這樣數據庫要將各個表中的東西都結合起來,然后再排除那些不合適的行,搞不好開銷會很大。
如果不能避免,你應該查看每張要結合起來的表,并且使用以上的策略來建立索引,然后再用EXPLAIN命令驗證一下是否使用了你料想中的索引。如果是的話,就OK。不是的話,你可能要建立臨時的表來將他們結合在一起,并且使用適當的索引。
要注意的是,建立太多的索引將會影響更新和插入的速度,因為它需要同樣更新每個索引文件。對于一個經常需要更新和插入的表格,就沒有必要為一個很少使用的where字句單獨建立索引了,對于比較小的表,排序的開銷不會很大,也沒有必要建立另外的索引。
以上介紹的只是一些十分基本的東西,其實里面的學問也不少,單憑EXPLAIN我們是不能判定該方法是否就是最優(yōu)化的,每個數據庫都有自己的一些優(yōu)化器,雖然可能還不太完善,但是它們都會在查詢時對比過哪種方式較快,在某些情況下,建立索引的話也未必會快,
例如索引放在一個不連續(xù)的存儲空間時,這會增加讀磁盤的負擔,因此,哪個是最優(yōu),應該通過實際的使用環(huán)境來檢驗。
在剛開始的時候,如果表不大,沒有必要作索引,我的意見是在需要的時候才作索引,也可用一些命令來優(yōu)化表,例如MySQL可用"OPTIMIZE TABLE"。
綜上所述,在如何為數據庫建立恰當的索引方面,你應該有一些基本的概念了。
關于MySQL索引的好處,如果正確合理設計并且使用索引的MySQL是一輛蘭博基尼的話,那么沒有設計和使用索引的MySQL就是一個人力三輪車。對于沒有索引的表,單表查詢可能幾十萬數據就是瓶頸,而通常大型網站單日就可能會產生幾十萬甚至幾百萬的數據,沒有索引查詢會變的非常緩慢。
還是以WordPress來說,其多個數據表都會對經常被查詢的字段添加索引,比如wp_comments表中針對5個字段設計了BTREE索引。
一個簡單的對比測試
以我去年測試的數據作為一個簡單示例,20多條數據源隨機生成200萬條數據,平均每條數據源都重復大概10萬次,表結構比較簡單,僅包含一個自增ID,一個char類型,一個text類型和一個int類型,單表2G大小,使用MyIASM引擎。開始測試未添加任何索引。
執(zhí)行下面的SQL語句:
SELECT id,FROM_UNIXTIME(time) FROM article WHERE a.title="測試標題";
查詢需要的時間非常恐怖的,如果加上聯合查詢和其他一些約束條件,數據庫會瘋狂的消耗內存,并且會影響前端程序的執(zhí)行。這時給title字段添加一個BTREE索引:
ALTER TABLE article ADD INDEX index_article_title ON title(200);
再次執(zhí)行上述查詢語句,其對比非常明顯:
MySQL索引的概念
索引是一種特殊的文件(InnoDB數據表上的索引是表空間的一個組成部分),它們包含著對數據表里所有記錄的引用指針。
更通俗的說,數據庫索引好比是一本書前面的目錄,能加快數據庫的查詢速度。上述SQL語句,在沒有索引的情況下,數據庫會遍歷全部200條數據后選擇符合條件的;而有了相應的索引之后,數據庫會直接在索引中查找符合條件的選項。
如果我們把SQL語句換成“SELECT * FROM article WHERE id=2000000”,那么你是希望數據庫按照順序讀取完200萬行數據以后給你結果還是直接在索引中定位呢?
上面的兩個圖片鮮明的用時對比已經給出了答案(注:一般數據庫默認都會為主鍵生成索引)。
索引分為聚簇索引和非聚簇索引兩種,聚簇索引是按照數據存放的物理位置為順序的,而非聚簇索引就不一樣了;聚簇索引能提高多行檢索的速度,而非聚簇索引對于單行的檢索很快。
MySQL索引的類型
1. 普通索引
這是最基本的索引,它沒有任何限制,比如上文中為title字段創(chuàng)建的索引就是一個普通索引,MyIASM中默認的BTREE類型的索引,也是我們大多數情況下用到的索引。
–直接創(chuàng)建索引 CREATE INDEX index_name ON table(column(length)) –修改表結構的方式添加索引 ALTER TABLE table_name ADD INDEX index_name ON (column(length)) –創(chuàng)建表的時候同時創(chuàng)建索引 CREATE TABLE `table` ( `id` int(11) NOT NULL AUTO_INCREMENT , `title` char(255) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL , `content` text CHARACTER SET utf8 COLLATE utf8_general_ci NULL , `time` int(10) NULL DEFAULT NULL , PRIMARY KEY (`id`), INDEX index_name (title(length)) ) –刪除索引 DROP INDEX index_name ON table
2. 唯一索引
與普通索引類似,不同的就是:索引列的值必須唯一,但允許有空值(注意和主鍵不同)。如果是組合索引,則列值的組合必須唯一,創(chuàng)建方法和普通索引類似。
–創(chuàng)建唯一索引 CREATE UNIQUE INDEX indexName ON table(column(length)) –修改表結構 ALTER TABLE table_name ADD UNIQUE indexName ON (column(length)) –創(chuàng)建表的時候直接指定 CREATE TABLE `table` ( `id` int(11) NOT NULL AUTO_INCREMENT , `title` char(255) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL , `content` text CHARACTER SET utf8 COLLATE utf8_general_ci NULL , `time` int(10) NULL DEFAULT NULL , PRIMARY KEY (`id`), UNIQUE indexName (title(length)) );
3. 全文索引(FULLTEXT)
MySQL從3.23.23版開始支持全文索引和全文檢索,FULLTEXT索引僅可用于 MyISAM 表;他們可以從CHAR、VARCHAR或TEXT列中作為CREATE TABLE語句的一部分被創(chuàng)建,或是隨后使用ALTER TABLE 或CREATE INDEX被添加。////對于較大的數據集,將你的資料輸入一個沒有FULLTEXT索引的表中,然后創(chuàng)建索引,其速度比把資料輸入現有FULLTEXT索引的速度更為快。不過切記對于大容量的數據表,生成全文索引是一個非常消耗時間非常消耗硬盤空間的做法。
–創(chuàng)建表的適合添加全文索引 CREATE TABLE `table` ( `id` int(11) NOT NULL AUTO_INCREMENT , `title` char(255) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL , `content` text CHARACTER SET utf8 COLLATE utf8_general_ci NULL , `time` int(10) NULL DEFAULT NULL , PRIMARY KEY (`id`), FULLTEXT (content) ); –修改表結構添加全文索引 ALTER TABLE article ADD FULLTEXT index_content(content) –直接創(chuàng)建索引 CREATE FULLTEXT INDEX index_content ON article(content)
4. 單列索引、多列索引
多個單列索引與單個多列索引的查詢效果不同,因為執(zhí)行查詢時,MySQL只能使用一個索引,會從多個索引中選擇一個限制最為嚴格的索引。
5. 組合索引(最左前綴)
平時用的SQL查詢語句一般都有比較多的限制條件,所以為了進一步榨取MySQL的效率,就要考慮建立組合索引。
例如上表中針對title和time建立一個組合索引:ALTER TABLE article ADD INDEX index_titme_time (title(50),time(10))。建立這樣的組合索引,其實是相當于分別建立了下面兩組組合索引:
- –title,time
- –title
為什么沒有time這樣的組合索引呢?這是因為MySQL組合索引“最左前綴”的結果。簡單的理解就是只從最左面的開始組合。并不是只要包含這兩列的查詢都會用到該組合索引,如下面的幾個SQL所示:
–使用到上面的索引 SELECT * FROM article WHREE title="測試" AND time=1234567890; SELECT * FROM article WHREE utitle="測試"; –不使用上面的索引 SELECT * FROM article WHREE time=1234567890;
MySQL索引的優(yōu)化
上面都在說使用索引的好處,但過多的使用索引將會造成濫用。因此索引也會有它的缺點:雖然索引大大提高了查詢速度,同時卻會降低更新表的速度,如對表進行INSERT、UPDATE和DELETE。因為更新表時,MySQL不僅要保存數據,還要保存一下索引文件。
建立索引會占用磁盤空間的索引文件。一般情況這個問題不太嚴重,但如果你在一個大表上創(chuàng)建了多種組合索引,索引文件的會膨脹很快。
索引只是提高效率的一個因素,如果你的MySQL有大數據量的表,就需要花時間研究建立最優(yōu)秀的索引,或優(yōu)化查詢語句。
下面是一些總結以及收藏的MySQL索引的注意事項和優(yōu)化方法。
1. 何時使用聚集索引或非聚集索引?
動作描述使用聚集索引使用非聚集索引列經常被分組排序使用使用返回某范圍內的數據使用不使用一個或極少不同值不使用不使用小數目的不同值使用不使用大數目的不同值不使用使用頻繁更新的列不使用使用外鍵列使用使用主鍵列使用使用頻繁修改索引列不使用使用事實上,我們可以通過前面聚集索引和非聚集索引的定義的例子來理解上表。
如:返回某范圍內的數據一項。比如您的某個表有一個時間列,恰好您把聚合索引建立在了該列,這時您查詢2004年1月1日至2004年10月1日之間的全部數據時,這個速度就將是很快的,因為您的這本字典正文是按日期進行排序的,聚類索引只需要找到要檢索的所有數據中的開頭和結尾數據即可;而不像非聚集索引,必須先查到目錄中查到每一項數據對應的頁碼,然后再根據頁碼查到具體內容。
其實這個具體用法我還不是很理解,只能等待后期的項目開發(fā)中慢慢學學了。
2. 索引不會包含有NULL值的列
只要列中包含有NULL值都將不會被包含在索引中,復合索引中只要有一列含有NULL值,那么這一列對于此復合索引就是無效的。所以我們在數據庫設計時不要讓字段的默認值為NULL。
3. 使用短索引
對串列進行索引,如果可能應該指定一個前綴長度。例如,如果有一個CHAR(255)的列,如果在前10個或20個字符內,多數值是惟一的,那么就不要對整個列進行索引。短索引不僅可以提高查詢速度而且可以節(jié)省磁盤空間和I/O操作。
4. 索引列排序
MySQL查詢只使用一個索引,因此如果where子句中已經使用了索引的話,那么order by中的列是不會使用索引的。因此數據庫默認排序可以符合要求的情況下不要使用排序操作;盡量不要包含多個列的排序,如果需要最好給這些列創(chuàng)建復合索引。
5. like語句操作
一般情況下不鼓勵使用like操作,如果非使用不可,如何使用也是一個問題。like “%aaa%” 不會使用索引而like “aaa%”可以使用索引。
6. 不要在列上進行運算
例如:select * from users where YEAR(adddate)<2007,將在每個行上進行運算,這將導致索引失效而進行全表掃描,因此我們可以改成:select * from users where adddate<’2007-01-01′。關于這一點可以圍觀:一個單引號引發(fā)的MYSQL性能損失。
最后總結一下,MySQL只對一下操作符才使用索引:<,<=,=,>,>=,between,in,以及某些時候的like(不以通配符%或_開頭的情形)。而理論上每張表里面最多可創(chuàng)建16個索引,不過除非是數據量真的很多,否則過多的使用索引也不是那么好玩的,比如我剛才針對text類型的字段創(chuàng)建索引的時候,系統差點就卡死了。
建立索引的優(yōu)缺點
為什么要創(chuàng)建索引呢?
這是因為,創(chuàng)建索引可以大大提高系統的性能。
- 第一、通過創(chuàng)建唯一性索引,可以保證數據庫表中每一行數據的唯一性。
- 第二、可以大大加快 數據的檢索速度,這也是創(chuàng)建索引的最主要的原因。
- 第三、可以加速表和表之間的連接,特別是在實現數據的參考完整性方面特別有意義。
- 第四、在使用分組和排序子句進行數據檢索時,同樣可以顯著減少查詢中分組和排序的時間。
- 第五、通過使用索引,可以在查詢的過程中,使用優(yōu)化隱藏器,提高系統的性能。
也許會有人要問:增加索引有如此多的優(yōu)點,為什么不對表中的每一個列創(chuàng)建一個索引呢?這種想法固然有其合理性,然而也有其片面性。雖然,索引有許多優(yōu)點, 但是,為表中的每一個列都增加索引,是非常不明智的。
這是因為,增加索引也有許多不利的一個方面:
- 第一、創(chuàng)建索引和維護索引要耗費時間,這種時間隨著數據量的增加而增加。
- 第二、索引需要占物理空間,除了數據表占數據空間之外,每一個索引還要占一定的物理空間。如果要建立聚簇索引,那么需要的空間就會更大。
- 第三、當對表中的數據進行增加、刪除和修改的時候,索引也要動態(tài)的維護,這樣就降低了數據的維護速度。
什么樣的字段適合創(chuàng)建索引:
索引是建立在數據庫表中的某些列的上面。因此,在創(chuàng)建索引的時候,應該仔細考慮在哪些列上可以創(chuàng)建索引,在哪些列上不能創(chuàng)建索引。
一般來說,應該在這些列上創(chuàng)建索引,例如:
- 第一、在經常需要搜索的列上,可以加快搜索的速度;
- 第二、在作為主鍵的列上,強制該列的唯一性和組織表中數據的排列結構;
- 第三、在經常用在連接的列上,這些列主要是一些外鍵,可以加快連接的速度;
- 第四、在經常需要根據范圍進行搜索的列上創(chuàng)建索引,因為索引已經排序,其指定的范圍是連續(xù)的;
- 第五、在經常需要排序的列上創(chuàng)建索引,因為索引已經排序,這樣查詢可以利用索引的排序,加快排序查詢時間;
- 第六、在經常使用在WHERE子句中的列上面創(chuàng)建索引,加快條件的判斷速度。
建立索引,一般按照select的where條件來建立,比如: select的條件是where f1 and f2,那么如果我們在字段f1或字段f2上簡歷索引是沒有用的,只有在字段f1和f2上同時建立索引才有用等。
什么樣的字段不適合創(chuàng)建索引:
同樣,對于有些列不應該創(chuàng)建索引。一般來說,不應該創(chuàng)建索引的的這些列具有下列特點:
- 第一,對于那些在查詢中很少使用或者參考的列不應該創(chuàng)建索引。這是因為,既然這些列很少使用到,因此有索引或者無索引,并不能提高查詢速度。相反,由于增加了索引,反而降低了系統的維護速度和增大了空間需求。
- 第二,對于那些只有很少數據值的列也不應該增加索引。這是因為,由于這些列的取值很少,例如人事表的性別列,在查詢的結果中,結果集的數據行占了表中數據行的很大比 例,即需要在表中搜索的數據行的比例很大。增加索引,并不能明顯加快檢索速度。
- 第三,對于那些定義為text, image和bit數據類型的列不應該增加索引。這是因為,這些列的數據量要么相當大,要么取值很少。
- 第四,當修改性能遠遠大于檢索性能時,不應該創(chuàng)建索 引。這是因為,修改性能和檢索性能是互相矛盾的。
當增加索引時,會提高檢索性能,但是會降低修改性能。當減少索引時,會提高修改性能,降低檢索性能。
因此,當修改性能遠遠大于檢索性能時,不應該創(chuàng)建索引。
創(chuàng)建索引的方法::
- 1、創(chuàng)建索引,例如 create index <索引的名字> on table_name (列的列表);
- 2、修改表,例如 alter table table_name add index[索引的名字] (列的列表);
- 3、創(chuàng)建表的時候指定索引,例如create table table_name ( [...], INDEX [索引的名字] (列的列表) );
查看表中索引的方法:
show index from table_name; 查看索引
索引的類型及創(chuàng)建例子::
1.PRIMARY KEY (主鍵索引)
MySQL> alter table table_name add primary key ( `column` )
2.UNIQUE 或 UNIQUE KEY (唯一索引)
mysql> alter table table_name add unique (`column`)
3.FULLTEXT (全文索引)
mysql> alter table table_name add fulltext (`column` )
4.INDEX (普通索引)
mysql> alter table table_name add index index_name ( `column` )
5.多列索引 (聚簇索引)
mysql> alter table `table_name` add index index_name ( `column1`, `column2`, `column3` )
總結
以上為個人經驗,希望能給大家一個參考,也希望大家多多支持。
相關文章:
