數(shù)據(jù)庫規(guī)范化技巧

簡介
  在設(shè)計(jì)數(shù)據(jù)庫時(shí),最重要的步驟是要確保數(shù)據(jù)正確分布到數(shù)據(jù)庫的表中。使用正確的數(shù)據(jù)結(jié)構(gòu),可以極大地簡化應(yīng)用程序的其他內(nèi)容(查詢、窗體、報(bào)表、代碼等)。正確進(jìn)行表設(shè)計(jì)的正式名稱是“數(shù)據(jù)庫規(guī)范化”。

  本文簡要介紹數(shù)據(jù)庫規(guī)范化的基本概念和一些需要注意并力求避免的常見問題。

  理解您的數(shù)據(jù)
  在設(shè)計(jì)表之前,應(yīng)明確您打算如何處理數(shù)據(jù),還要了解隨著時(shí)間的推移數(shù)據(jù)會(huì)發(fā)生什么樣的變化。您所做的假設(shè)將會(huì)影響最終的設(shè)計(jì)。
您需要什么樣的數(shù)據(jù)?
  設(shè)計(jì)應(yīng)用程序時(shí),關(guān)鍵要了解設(shè)計(jì)的最終結(jié)果,以便確保您準(zhǔn)備好所有必需的數(shù)據(jù)并知道其來源。例如,報(bào)表的外觀、每個(gè)數(shù)據(jù)的來源以及所需的所有數(shù)據(jù)是否都存在。對(duì)項(xiàng)目損失最大的莫過于在項(xiàng)目后期發(fā)現(xiàn)重要報(bào)表缺少數(shù)據(jù)。
  知道需要什么樣的數(shù)據(jù)后,就必須確定數(shù)據(jù)的來源。數(shù)據(jù)是否從其他數(shù)據(jù)源中導(dǎo)入?數(shù)據(jù)是否需要清理或驗(yàn)證?用戶是否需要輸入數(shù)據(jù)?
  明確所需數(shù)據(jù)的類型和來源是數(shù)據(jù)庫設(shè)計(jì)的第一步。
  您打算如何處理這些數(shù)據(jù)?
  用戶是否需要編輯這些數(shù)據(jù)?如果需要,應(yīng)如何顯示數(shù)據(jù)以便于用戶理解和編輯?有沒有驗(yàn)證規(guī)則和相關(guān)的查找表?要求對(duì)編輯和刪除保留備份的數(shù)據(jù)輸入有沒有相關(guān)聯(lián)的審核問題?需要為用戶顯示哪些摘要信息?是否需要生成導(dǎo)出文件?了解這些信息后,就可以想象字段之間是如何相互關(guān)聯(lián)的了。
數(shù)據(jù)之間如何相互關(guān)聯(lián)?
  將數(shù)據(jù)分組放入相關(guān)字段(例如與客戶相關(guān)的信息、與發(fā)票相關(guān)的信息等),每個(gè)字段組都代表要建立的表。然后考慮如何將這些表相互關(guān)聯(lián)。例如,哪些表具有一對(duì)多關(guān)系(例如,一個(gè)客戶可能持有多張發(fā)票)?哪些表具有一對(duì)一關(guān)系(這種情況下,通常會(huì)考慮將其組合到一個(gè)表中)?
  隨著時(shí)間的推移數(shù)據(jù)會(huì)發(fā)生什么樣的變化?
  設(shè)計(jì)表之后,常常會(huì)由于沒有考慮時(shí)間的影響而導(dǎo)致以后出現(xiàn)嚴(yán)重問題。許多表設(shè)計(jì)在當(dāng)時(shí)使用時(shí)效果非常好,但是,常常會(huì)因?yàn)橛脩粜薷臄?shù)據(jù)、添加數(shù)據(jù)以及隨時(shí)間的推移而崩潰。開發(fā)人員經(jīng)常會(huì)發(fā)現(xiàn)需要重新設(shè)計(jì)表的結(jié)構(gòu)來適應(yīng)這些變化。表的結(jié)構(gòu)發(fā)生變化時(shí),所有相關(guān)的內(nèi)容(查詢、窗體、報(bào)表、代碼等)也必須隨之更新。理解并預(yù)測(cè)數(shù)據(jù)會(huì)隨時(shí)間推移發(fā)生哪些變化,可以實(shí)現(xiàn)更好的設(shè)計(jì),減少問題的發(fā)生。
  學(xué)習(xí)如何使用查詢
  了解如何分析和管理數(shù)據(jù)同樣很重要。您應(yīng)該深刻理解查詢的工作原理,理解如何使用查詢?cè)诙鄠(gè)表之間鏈接數(shù)據(jù),如何使用查詢對(duì)數(shù)據(jù)進(jìn)行分組和匯總,以及如何在不需要以規(guī)范化格式顯示數(shù)據(jù)時(shí)使用交叉表查詢。
好的數(shù)據(jù)設(shè)計(jì)的最終目標(biāo)就是要平衡兩個(gè)需要:既要隨著時(shí)間的推移有效地存儲(chǔ)數(shù)據(jù),又要輕松地檢索和分析數(shù)據(jù)。理解查詢的功能對(duì)正確設(shè)計(jì)表很有幫助。
數(shù)據(jù)庫規(guī)范化概念
  這部分介紹數(shù)據(jù)庫規(guī)范化所涉及的基本概念,而不是對(duì)數(shù)據(jù)庫規(guī)范化進(jìn)行理論性的探討。如何在您的實(shí)際情況中應(yīng)用這些概念可能會(huì)隨著應(yīng)用程序需要的不同而有所變化。這部分的目的是理解這些基本概念、根據(jù)實(shí)際需要應(yīng)用它們,并理解偏離這些概念將會(huì)出現(xiàn)哪些問題。
  將唯一信息存儲(chǔ)在一個(gè)地方
  大部分?jǐn)?shù)據(jù)庫開發(fā)人員都理解數(shù)據(jù)庫規(guī)范化的基本概念。理想情況下,您希望將相同的數(shù)據(jù)存儲(chǔ)在同一個(gè)地方,并在需要引用時(shí)使用 ID 來進(jìn)行引用。因此,如果某些信息發(fā)生了變化,則可以在一個(gè)地方進(jìn)行更改,而整個(gè)程序中的相應(yīng)信息也會(huì)隨之更改。
  例如,客戶表會(huì)存儲(chǔ)每個(gè)客戶的記錄,包括姓名、地址、電話號(hào)碼、電子郵件地址以及其他特征信息?蛻舯碇锌赡馨ㄒ坏 CustomerID 字段(通常是 Autonumber 字段),這個(gè)字段即該表的主鍵字段,其他表使用它來引用該客戶。因此,發(fā)票表可以只引用客戶的 ID 值,而不是在每張發(fā)票中存儲(chǔ)客戶的所有信息(因?yàn)橥粋(gè)客戶可能會(huì)持有多張發(fā)票),這樣利用客戶的 ID 值即可從客戶表中查找客戶的詳細(xì)信息。使用 Access 中功能強(qiáng)大的窗體(使用組合框和子窗體),可以輕松地完成這項(xiàng)工作。如果需要修改客戶信息(例如新增電話號(hào)碼),只需在客戶表中修改,應(yīng)用程序中引用該信息的任何其他部分都會(huì)隨之自動(dòng)更新。
  使用正確規(guī)范化的數(shù)據(jù)庫,通過簡單的編輯即可輕松處理數(shù)據(jù)隨時(shí)間推移而發(fā)生的更改。使用未正確規(guī)范化的數(shù)據(jù)庫,通常需要利用編程或查詢來更改多條記錄或多個(gè)表。這不僅會(huì)增加工作量,還會(huì)增加由于未正確執(zhí)行代碼或查詢而導(dǎo)致數(shù)據(jù)不一致的可能性。
  記錄是免費(fèi)的,而新字段非常昂貴
  理想的數(shù)據(jù)庫應(yīng)該只需要隨著時(shí)間的推移添加新的記錄,數(shù)據(jù)庫表應(yīng)該能夠保存大量記錄。但是,如果您發(fā)現(xiàn)需要增加更多字段,則可能會(huì)碰到設(shè)計(jì)問題。
電子表格專家經(jīng)常會(huì)遇到上述問題,因?yàn)樗麄兞?xí)慣于按照設(shè)計(jì)電子表格的方式設(shè)計(jì)數(shù)據(jù)庫。設(shè)計(jì)經(jīng)常隨時(shí)間變化的字段(例如,年、季度、產(chǎn)品和銷售人員)需要在將來添加新字段。而正確的設(shè)計(jì)應(yīng)該是轉(zhuǎn)換信息并將隨時(shí)間變化的數(shù)據(jù)放在一個(gè)字段內(nèi),這樣就可以添加更多記錄。例如,只需創(chuàng)建“年”字段,然后在該字段中輸入各記錄相應(yīng)的年份值即可,無需為每年創(chuàng)建一個(gè)單獨(dú)的字段。
  增加額外的字段可能會(huì)產(chǎn)生問題,因?yàn)楸斫Y(jié)構(gòu)的變化會(huì)對(duì)應(yīng)用程序的其他部分產(chǎn)生影響。在表中添加更多字段時(shí),依賴該表的對(duì)象和代碼也需要更新。例如,查詢需要獲取額外的字段,窗體需要顯示這些字段,而報(bào)表則需要包含這些字段,等等。但是,如果數(shù)據(jù)已經(jīng)規(guī)范化,則現(xiàn)有對(duì)象會(huì)自動(dòng)檢索新數(shù)據(jù),并正確計(jì)算或顯示這些數(shù)據(jù)。查詢功能尤其強(qiáng)大,因?yàn)樗试S您按“年”字段進(jìn)行分組,以逐年顯示摘要(不管表中包含哪些年份)。
  但是,數(shù)據(jù)規(guī)范化并不意味著不能顯示或使用隨時(shí)間而變化或依賴時(shí)間的字段。需要瀏覽或顯示這類信息的開發(fā)人員通?梢允褂媒徊姹聿樵儊磉_(dá)到這一目的。如果您不熟悉交叉表查詢,應(yīng)該學(xué)習(xí)如何使用它們。雖然它們與表有所不同(尤其是用戶無法編輯交叉表查詢的結(jié)果),但它們的確可以用于在數(shù)據(jù)表中顯示信息(最多可以達(dá)到 255 個(gè)字段)。如果要在報(bào)表中使用它們,則會(huì)更加復(fù)雜,因?yàn)閳?bào)表需要包含額外的或不斷變化的字段名。這就是為什么大多數(shù)報(bào)表將數(shù)據(jù)作為獨(dú)立的分組(而不是獨(dú)立的列)顯示的原因。對(duì)于那些別無選擇的情況,您必須花時(shí)間去解決這個(gè)問題。希望所有人都能夠理解這種決定會(huì)隨著時(shí)間的變化對(duì)其他資源產(chǎn)生的影響。
這就是為什么增加記錄是免費(fèi)的(這是數(shù)據(jù)庫的巨大優(yōu)勢(shì))而增加字段是如此昂貴的原因。如果數(shù)據(jù)庫設(shè)計(jì)正確,則可以適應(yīng)各種各樣的變化。
  了解何時(shí)需要復(fù)制數(shù)據(jù)
  有時(shí)數(shù)據(jù)需要反規(guī)范化,以便保存可能會(huì)隨時(shí)間變化的信息。
  在通過客戶 ID 號(hào)將發(fā)票鏈接到客戶表的簡單示例中,我們可能需要保留開出發(fā)票時(shí)的客戶地址(而不是制作發(fā)票時(shí)的地址,因?yàn)榭蛻粜畔⒃谶@兩個(gè)事件之間可能會(huì)有所變化)。如果開出發(fā)票時(shí)未保留客戶地址,而將來又必須更新客戶信息,則可能無法確定發(fā)送某些發(fā)票的確切地址。這可能會(huì)導(dǎo)致非常嚴(yán)重的商業(yè)問題。當(dāng)然,有些信息(如客戶的電話號(hào)碼)可以不保存。因此,應(yīng)該有選擇地決定需要復(fù)制哪些數(shù)據(jù)。
  需要復(fù)制數(shù)據(jù)的另一個(gè)例子是填寫發(fā)票的明細(xì)項(xiàng)。報(bào)價(jià)單通常用于挑選客戶訂購的商品。我們可以只存儲(chǔ)報(bào)價(jià)單 ID,而 ID 指向包含產(chǎn)品說明、價(jià)格和其他詳細(xì)信息的報(bào)價(jià)單。但是,產(chǎn)品說明和價(jià)格會(huì)隨著時(shí)間而改變。如果不將數(shù)據(jù)從報(bào)價(jià)單復(fù)制到明細(xì)表中,將來則無法準(zhǔn)確地重新打印原始發(fā)票。如果您尚未收到付款,問題將非常嚴(yán)重。
  因此,雖然規(guī)范化可以將相同的數(shù)據(jù)很好地保存在一個(gè)地方并能簡化編輯工作,但某些情況下卻不需要這些優(yōu)勢(shì)。如果以后由于歷史原因需要數(shù)據(jù)的快照,則必須從一開始就在數(shù)據(jù)庫中設(shè)計(jì)好。否則,一旦數(shù)據(jù)被覆蓋就無法再找回。
  使用沒有確切含義的字段作為主鍵字段
  為了提高效率,每個(gè)表都應(yīng)該有一個(gè)主鍵字段。主鍵字段定義了在表中的唯一性,并由索引在其他字段中使用,以提高搜索性能。例如,客戶表可以包含為每個(gè)客戶定義唯一編號(hào)的 CustomerID 字段。為了便于討論,假定表中包含多個(gè)字段,而不僅僅是簡單的單一表查找(例如國家/地區(qū)列表)。
  一般來說,主鍵字段應(yīng)具有如下特征:
  1、應(yīng)該只包含一個(gè)字段
  可以將多個(gè)字段定義為表的主鍵字段,但最好是使用一個(gè)字段。首先,如果需要使用多個(gè)字段來定義唯一性,則需要占用更多的空間來存儲(chǔ)主鍵。其次,表中的其他索引還必須使用主鍵字段的組合,這樣所占用的空間比使用一個(gè)字段所占用的空間要多。最后,在表中標(biāo)識(shí)記錄需要獲取字段組合。使用一個(gè) CustomerID 字段定義客戶比使用其他字段組合要好得多。
  2、應(yīng)該為數(shù)字類型
  Access 提供的 AutoNumber 字段類型是一個(gè) Long Integer(長整數(shù)),非常適用于主鍵字段。這些值可以自動(dòng)保證每個(gè)記錄的唯一性,同時(shí)也支持多用戶數(shù)據(jù)輸入。
  3、不會(huì)隨時(shí)間而改變
  主鍵字段不應(yīng)該隨時(shí)間而改變。一旦標(biāo)識(shí)了主鍵字段,就應(yīng)該永遠(yuǎn)不變(象社會(huì)保障號(hào)一樣)。更改過的主鍵字段將很難再使用歷史數(shù)據(jù),因?yàn)槠渲械逆溄颖黄茐牧恕?
  4、應(yīng)該沒有確切含義
  要確保主鍵字段不會(huì)隨時(shí)間而更改,它應(yīng)該沒有確切含義。沒有確切含義的主鍵值在其他數(shù)據(jù)不完整時(shí)也非常有用。例如,您可以指定一個(gè)客戶編號(hào),而無需該客戶的完整地址。應(yīng)用程序的其余部分可以很好地工作,您也可以在檢索記錄時(shí)添加信息。如果表中使用了國家/地區(qū)字段或其他您沒有的標(biāo)識(shí)字段作為主鍵的一部分,則很可能會(huì)導(dǎo)致無法使用應(yīng)用程序。
  鑒于上述原因,我們建議在大部分表中使用 AutoNumber 字段作為主鍵字段。通過使用組合框和隱藏列,可以將字段綁定到 AutoNumber 字段并將其隱藏,使用戶無法看到。
  使用引用完整性
  對(duì)表進(jìn)行定義并理解各表是如何關(guān)聯(lián)的之后,請(qǐng)確保添加引用完整性來鞏固各表之間的關(guān)系。這樣可以避免錯(cuò)誤地修改鏈接字段而留下孤立的記錄。Microsoft Jet 數(shù)據(jù)庫引擎支持復(fù)雜的引用完整性,允許用戶進(jìn)行級(jí)聯(lián)更新和刪除。一般情況下,不應(yīng)修改 ID 字段。因此,級(jí)聯(lián)更新用得較少,但級(jí)聯(lián)刪除卻非常有用。
  例如,如果發(fā)票表與訂單表相關(guān)聯(lián),其中的一張發(fā)票可能有無限多個(gè)訂單(明細(xì)項(xiàng)),并且每個(gè)訂單記錄包含它所鏈接的發(fā)票編號(hào),則可以使用級(jí)聯(lián)刪除操作來刪除發(fā)票記錄,并自動(dòng)刪除所有相應(yīng)的訂單記錄。這樣可以避免出現(xiàn)沒有相應(yīng)發(fā)票記錄的訂單記錄。
  小結(jié)
  我們希望您能盡快將這些數(shù)據(jù)庫設(shè)計(jì)概念應(yīng)用到您的應(yīng)用程序設(shè)計(jì)中,從而最大程度地減少問題,減少未實(shí)現(xiàn)此類設(shè)計(jì)時(shí)需要進(jìn)行的修正。祝您好運(yùn)。
北大青鳥網(wǎng)上報(bào)名
北大青鳥招生簡章