在發(fā)布一個(gè)選擇行的查詢時(shí), MySQL進(jìn)行分析,看是否能夠?qū)λM(jìn)行優(yōu)化,使它執(zhí)行更快。本文我們將研究查詢優(yōu)化程序怎樣工作。更詳細(xì)的信息,可參閱MySQL參考指南中的“Getting Maximum Performance from MySQL”,本文描述了MySQL采用的各種優(yōu)化措施。(http://www.mysql.com/ 處的MySQL聯(lián)機(jī)參考指南在不斷地更新。)
MySQL查詢優(yōu)化程序利用了索引。當(dāng)然,它也利用了其他信息。例如,如果發(fā)布下列查詢,MySQL將非?斓貓(zhí)行它,不管相應(yīng)的表有多大:
SELECT * FROM tb1_name WHERE 1= 0
在此情形中,MySQL考察WHERE 子句,如果認(rèn)識(shí)到不可能有滿足該查詢的行,就不會(huì)對(duì)該表進(jìn)行搜索?衫肊XPLAIN 語(yǔ)句知道這一點(diǎn),EXPLAIN 語(yǔ)句要求MySQL顯示某些有關(guān)它應(yīng)該執(zhí)行一條SELECT 查詢,而實(shí)際沒(méi)有執(zhí)行的信息。為了使用E X P L A I N,只需要SELECT 語(yǔ)句前放置EXPLAIN 即可,如下所示:
EXPLAIN SELECT * FROM tb1_name WHERE 1= 0
通常,EXPLAIN 返回的信息比這個(gè)多,包括將用來(lái)掃描表的索引、將要使用的連接類(lèi)型以及需要在每個(gè)表中掃描的行數(shù)估計(jì)等等。
1 優(yōu)化程序怎樣工作
MySQL查詢優(yōu)化程序有幾個(gè)目標(biāo),但其主要目標(biāo)是盡量利用索引,而且盡量使用最具有限制性的索引以排除盡可能多的行。這樣做可能會(huì)適得其反,因?yàn)榘l(fā)布一條SELECT 語(yǔ)句的目的是尋找行,而不是拒絕它們。優(yōu)化程序這樣工作的原因是從要考慮的行中排除行越快,那么找到確實(shí)符合給出標(biāo)準(zhǔn)的行就越快。如果能夠首先進(jìn)行最具限制性的測(cè)試,則查詢可以進(jìn)行得更快。假如有一個(gè)測(cè)試兩列的查詢,每列上都有一個(gè)索引:
WHERE coll = "some value" AND col2 = "some other value"
還假定,與col1上的測(cè)試相符的有900 行,與col2 上的測(cè)試相符的有300 行,而兩個(gè)測(cè)試都通過(guò)的有30 行。如果首先測(cè)試c o l 1,必須檢查900 行以找到也與col2 值相符的30 行。那么測(cè)試中有870 將失敗。如果首先測(cè)試c o l 2,要找到也與col1值相符的30 行,只需檢查300 行。測(cè)試中有失敗270 次,這樣所涉及的計(jì)算較少,磁盤(pán)I/O 也較少。遵循下列準(zhǔn)則,有助于優(yōu)化程序利用索引:
1 比較具有相同類(lèi)型的列。在比較中利用索引列時(shí),應(yīng)該使用那些類(lèi)型相同的列。例如,CHAR(10) 被視為與CHAR(10) 或VARCHAR(10) 相同,但不同于CHAR(12) 和VARCHAR( 12 )。INT 與BIGINT 不同。在MySQL3.23 版以前,要求使用相同類(lèi)型的列,否則列上的索引將不起作用。自3.23 版后,不嚴(yán)格要求這樣做,但相同的列類(lèi)型比不同類(lèi)型提供更好的性能。如果所比較的兩列類(lèi)型不同,可使用ALTER TABLE語(yǔ)句修改其中之一使它們的類(lèi)型相配。
2 比較中應(yīng)盡量使索引列獨(dú)立。如果在函數(shù)調(diào)用或算術(shù)表達(dá)式中使用一個(gè)列,則MySQL不能使用這樣的索引,因?yàn)樗仨殞?duì)每行計(jì)算表達(dá)式的值。有時(shí),這是不可避免的,但很多時(shí)候,可以重新編寫(xiě)只取索引列本身的查詢。下面的WHERE 子句說(shuō)明了怎樣進(jìn)行這項(xiàng)工作。第一行中,優(yōu)化程序?qū)⒑?jiǎn)化表達(dá)式4/2 為值2,然后使用my_col 上的索引快速地找到小于2 的值。而在第二個(gè)表達(dá)式中,MySQL必須檢索出每行的my_col 值,乘以2,然后將結(jié)果與4 比較。沒(méi)索引可用,因?yàn)榱兄械拿總(gè)值都要檢索,以便能對(duì)左邊的表達(dá)式求值:
WHERE my_col < 4/2
WHERE my_col * 2 < 4
讓我們考慮另一個(gè)例子。假如有一個(gè)索引列date _ c o l。如果發(fā)布如下的查詢,相應(yīng)的索引未被使用:
SELECT * FROM my_tb1WHERE YEAR(date_col) < 1990
其中表達(dá)式并不將索引列與1990 比較,而是將從列值計(jì)算出的值用于比較,而且必須計(jì)算每行的這個(gè)值。結(jié)果是, date_col 上的索引不可能得到使用。怎樣解決?使用一個(gè)文字日期即可,這時(shí)將會(huì)使用date_col 上的索引:
WHERE date_col < "1990-01-01"
但是假如沒(méi)有特定的日期值,那么可能會(huì)對(duì)找到具有出現(xiàn)在距今一定天數(shù)內(nèi)的日期的記錄感興趣。有幾種方法來(lái)編寫(xiě)這樣的查詢,但并非所有方法都很好。三種可能的方法如下:
其中第一行不能利用索引, 因?yàn)楸仨殲槊啃袡z索列, 以便能夠計(jì)算TO _ DAYS(date_col) 的值。第二行要好一些。c ut o ff 和TO _ DAY S ( CURRENT _ DATE) 兩者都是常量,因此比較表達(dá)式的右邊可在查詢處理前由優(yōu)化程序一次計(jì)算出來(lái),而不是每行計(jì)算一次。但date_col 列仍然出現(xiàn)在一個(gè)函數(shù)調(diào)用中,因此,沒(méi)有使用索引。第三行是最好的方法。比較表達(dá)式的右邊可在執(zhí)行查詢前作為常量一次計(jì)算出來(lái),但現(xiàn)在其值是一個(gè)日期。這個(gè)值可直接與date_col 的值進(jìn)行比較,不再需要轉(zhuǎn)換為天數(shù),可以利用索引。
■ 在LIKE 模式的起始處不要使用通配符。有時(shí),有的人會(huì)用下列形式的WHERE 子句來(lái)搜索串:
WHERE col_name LIKE "%string%"
如果希望找到s t r i n g,不管它出現(xiàn)在列中任何位置,那么這樣做是對(duì)的。但不要出于習(xí)慣在串的兩邊加“ %”。如果實(shí)際要查找的只是出現(xiàn)在列的開(kāi)始處的串,則不應(yīng)該要第一個(gè)“%”號(hào)。例如,如果在一個(gè)包含姓的列中查找“ M a c”起始的姓,應(yīng)該編寫(xiě)如下的WHERE 子句:
WHERE last_name LIKE "Mac%"
優(yōu)化程序考慮模式中的開(kāi)始的文字部分,然后利用索引找到相符合的行。不過(guò)寧可寫(xiě)成如下的表達(dá)式,它允許使用last_name 上的索引:
WHERE last_name >= "Mac" AND last_name < "Mad"
這種優(yōu)化對(duì)使用REGEXP 操作符的模式匹配不起作用。
■ 幫助優(yōu)化程序更好地評(píng)估索引的有效性。缺省時(shí),如果將索引列中的值與常量進(jìn)行比較,優(yōu)化程序?qū)⒓俣ㄦI字是均勻地分布在索引中的。優(yōu)化程序還將對(duì)索引進(jìn)行一個(gè)快速的檢查,以估計(jì)在確定相應(yīng)的索引是否應(yīng)該用于常量的比較時(shí)要使用多少條目。可利用myisamchk 或isamchk 的--analyze 選項(xiàng)給優(yōu)化程序提供更好的信息,以便分析鍵值的分布。myisamchk 用于MyISAM 表,isamchk 用于ISAM 表。為了完成鍵值分析,必須能夠登錄到MySQL服務(wù)器主機(jī)中,而且必須對(duì)表文件具有寫(xiě)訪問(wèn)權(quán)限。
■ 利用EXPLAIN 檢驗(yàn)優(yōu)化程序操作。檢查用于查詢中的索引是否能很快地排除行。如果不能,那么應(yīng)該試一下利用STRAIGHT_JOIN 強(qiáng)制按特定次序使用表來(lái)完成一個(gè)連接。查詢的執(zhí)行方式不那么顯然;MySQL可能會(huì)有很多理由不以您認(rèn)為最好的次序使用索引。
■ 測(cè)試查詢的其他形式,而且不止一次地運(yùn)行它們。在測(cè)試一個(gè)查詢的其他形式時(shí),應(yīng)該每種方法運(yùn)行幾次。如果對(duì)兩個(gè)不同方法中的每種只運(yùn)行查詢一次,通常會(huì)發(fā)現(xiàn)第二個(gè)查詢更快,因?yàn)閬?lái)自第一個(gè)查詢的信息在磁盤(pán)高速緩存中,不需要實(shí)際從磁盤(pán)上讀出。還應(yīng)該盡量在系統(tǒng)負(fù)載相對(duì)平穩(wěn)的時(shí)候運(yùn)行查詢,以避免受系統(tǒng)中其他活動(dòng)的影響。