Normalizace databázeNormalizace databáze je v informatice označení postupu, kdy je struktura dat v relační databázi přeorganizována tak, aby využívala výhody relačního modelu dat. Normalizace databáze umožňuje data efektivněji ukládat, prohledávat, třídit i zpracovávat. Při normalizaci jsou v databázi měněny atributy (sloupce) jednotlivých tabulek a zaváděny mezi nimi výhodné vztahy, je omezována redundance uložených dat (vět) a je brán ohled na řešení problému s případnou nekonzistencí dat. Autorem termínu normalizace databáze je britsko-americký matematik a informatik Edgar. F. Codd. CharakteristikaV relačním modelu jsou data uložena v tabulkách, na které má jisté požadavky. Při splnění požadavků je tabulka označována jako normalizovaná. Pokud nejsou tyto požadavky splněny, jsou označovány jako nenormalizované a proces jejich převodu na tabulky se označuje jako normalizace. Při tomto procesu dochází k odstraňování nedostatků tabulek jako je redundance nebo možnost vzniku aktualizační anomálie, tj. nechtěného vedlejšího efektu operace nad databází, při kterém dojde ke ztrátě nebo nekonzistenci dat. Postup normalizace je rozdělen do několika kroků a po dokončení každého z nich se tabulka nachází v určité normální formě. V praxi se většinou normalizuje do třetí normální formy, vyšší normální formy je vcelku obtížné porušit a vyžadují relativně velké znalosti, stejně jako návrh databází takové velikosti, kde je možné je porušit. Normální formyPřestože existuje řada normálních forem, v praxi se za normalizovanou databázi považuje taková, která splňuje alespoň první tři normální formy. Předmětem zkoumání prvních čtyř forem (1NF, 2NF, 3NF, BCNF) je vztah neklíčových atributů na primárním klíči, předmětem zkoumání posledních dvou normálních forem (4NF, 5NF) jsou vztahy uvnitř složených primárních klíčů. Důležité také je, že každá z normálních forem obsahuje a vyžaduje splnění všech pravidel obsažených ve formách předchozích.
Historie normálních forem
Pro splnění určité normální formy je nutné splnit i ty předchozí. V praxi se obvykle používají pouze první tři. Nenormalizovaná forma (UNF)Nenormalizovaná forma (z anglického Unnormalized Form) byla pojmenována v roce 1970 E. F. Coddem a představuje formu jakékoliv tabulky, která je v nenormalizovaném stavu, tj. tabulky, na níž dosud nebyly aplikovány žádné normální formy. Nultá normální forma (0NF)Nultá normální forma bývá obdobně jako nenormalizovaná forma zřídka v literatuře zmiňována. V některých případech je uváděna jako součást první normální formy. Obvykle není zvažována, jelikož její splnění bývá v praxi automaticky zaručeno. Přesto lze nalézt následující definici:
První normální forma (1NF)Pro splnění první normální formy je zapotřebí zajistit následující:
Příklad 1Klasickým příkladem tabulky porušující první normální formu bývá nejčastěji problém s telefonními čísly, kdy naším cílem je umožnit evidovat pro každou osobu dvě různá telefonní čísla, jak lze vidět v tabulce níže:
Tato tabulka ovšem porušuje první normální formu, jelikož sloupec (atribut) telefonní číslo není atomický. Zjevným řešením této situace by mohlo být přidání druhého sloupce pro telefonní číslo, abychom zajistili splnění pravidla atomických atributů:
Přestože je tato tabulka formálně správná a již neporušuje pravidlo první normální formy, její návrh je stále problematický. Problém nastane zejména v případě, že bude zapotřebí evidovat čísel více. Rozšiřování tabulky o další sloupce telefonních čísel není často realizovatelné a také se označuje za špatný návrh. Správným řešením je vytvoření nové tabulky a odstranění sloupce telefonních čísel z tabulky osob, jak lze vidět na příkladu níže:
V tomto případě je tedy první normální forma splněna a rozdělením tabulek jsme umožnili bezproblémové přidávání libovolného počtu telefonních čísel pro každou osobu. Všimněme si, že tabulka s kontakty obsahuje navíc kromě primárního klíče také cizí klíč, který nám zajišťuje svázání telefonního čísla se správnou osobou. Druhá normální forma (2NF)Pravidla definovaná druhou normální formou lze shrnout na následující:
Druhá normální forma klade důraz především na odstranění možných duplicit v záznamech. Příklad 2Uveďme si příklad, kdy máme tabulku evidující následující informace o kurzech. Všimněme si především toho, že tabulka má složený primární klíč {ID Kurzu, ID Semestru}:
Tato tabulka porušuje druhou normální formu, jelikož sloupec Jméno kurzu není plně závislý na celém primárním klíči. Jméno kurzu je závislé na sloupci ID Kurzu, ovšem není již závislé na sloupci ID Semestru. V takovéto tabulce navíc dochází k redundanci dat, jak lze vidět na opakujících se jménech každého kurzu. Při vypisování již existujících kurzů v budoucnu (v nových semestrech) by docházelo k neustálému opakování těchto záznamů. Způsob, jakým lze tento problém vyřešit je dekompozice tabulky a zajištění, že všechny neklíčové atributy dané tabulky budou závislé na celém klíči. Možným řešením může být například následující rozdělení tabulky:
Výše uvedená dekompozice tabulky zajišťuje splnění druhé normální formy. Jediný neklíčový atribut v původní tabulce – Počet míst je již závislý na celém složeném primárním klíči, obdobně jako jediný neklíčový atribut Jméno kurzu v tabulce Kurz, který je již závislý na jediném primárním klíči nově vytvořené tabulky. Třetí normální forma (3NF)Třetí normální forma klade následující podmínky:
Funkční závislost v databázích chápeme jako vztah mezi atributy, kdy tvrzení, že atribut Y je funkčně závislý na atributu X značíme jako: Tato závislost zajišťuje, že dva řádky mající stejnou hodnotu atributu X budou mít vždy stejnou hodnotu atributu Y. Tranzitivní závislost pak chápeme jako vztah mezi třemi atributy (např. X, Y, Z), kdy atribut Y je funkčně závislý na atributu X, atribut Z je funkčně závislý na atributu Y, a proto lze implikovat, že atribut Z je také funkčně závislý na atributu X. Tento vztah značíme jako:
Příklad 3Nejlépe však tuto normální formu lze pochopit na vypovídajícím příkladu. Mějme následující tabulku evidující jednotlivé filmy, jejich žánry a délku jejich stopáže:
Na první pohled není s tabulkou nic v nepořádku. Tabulka splňuje druhou normální formu, všechny neklíčové atributy jsou závislé na celém primárním klíči (tedy v tomto případě na atributu ID Filmu). Přesto tato tabulka nesplňuje pravidla určená třetí normální formou. Způsob, jakým lze třetí normální formu uspokojit je dekompozice tabulky, díky čemuž dosáhneme odstranění nalezené tranzitivní závislosti. Pro příklad výše by dekompozice vypadala následovně:
Rozkladem původní tabulky nyní dostáváme dvě tabulky, které již neobsahují žádné tranzitivní závislosti. Navíc jsme díky naplnění třetí normální formy napomohli ke snížení redundance dat. Boyceho-Coddova normální forma (BCNF)Viz článek Boyceho–Coddova normální forma Čtvrtá normální forma (4NF)Čtvrtá normální forma je dalším krokem po uplatnění Boyceho-Coddovy normální formy. Jak již bylo nastíněno v počátku, druhá, třetí a Boyceho-Coddova normální forma řeší funkční závislosti jednotlivých atributů, kdežto čtvrtá a pátá normální forma zkoumá vztahy složených primárních klíčů. Dle jedné z definic navíc od splnění všech předešlých normálních forem umožňuje rozlišení a oddělení nezávislých vícehodnotových atributů vytvářejících složený primární klíč. [8] Požadavky pro splnění 4NF jsou tedy následující:
Příklad 4Mějme následující tabulku evidující záznamy o prodejcích, prodávaných produktech a pobočkách, kde nabízejí své produkty:
Stejně jako předchozí normální formy, i čtvrtá normální forma se snaží zamezit zbytečné redundanci dat. Množství záznamů v tabulce výše bylo zvoleno především proto, aby bylo možné ilustrovat, že i tato normální forma napomáhá ke snížení redundance dat. Jelikož tabulka neobsahuje žádné neklíčové atributy (je tvořena pouze složeným primárním klíčem {Prodejce, Produkt, Pobočka}), máme zajištěné splnění všech předchozích normálních forem. Tato tabulka však nesplňuje pravidla určená čtvrtou normální formou. Vezmeme-li v úvahu, že všichni prodejci poskytují všechny své produkty na všech svých pobočkách, zjistíme, že složený klíč je bezpochyby tvořen z nezávislých dat, kdy produkt není vázán na určitou pobočku. Z toho důvodu je porušena čtvrtá normální forma a pro její splnění je zapotřebí provést dekompozici tabulky, která by vypadala následovně:
Po dekompozici tabulky již máme splnění čtvrté normální formy zajištěné. Pátá normální forma (5NF)Pátá normální forma tkví ve splnění následujících podmínek:
Ve všech předchozích normálních formách nedocházelo dekompozicí tabulek ke ztrátě dat[11], ovšem upravíme-li příklad a situaci ze čtvrté normální formy, kdy prodejci již neposkytují všechny své produkty na každé své pobočce, ale pouze některé z nich, dojde při rozkladu ke ztrátě informací. Příklad 5Mějme tedy následující upravenou tabulku z minulého příkladu:
Když se pokusíme o dekompozici tabulky, stejně jako při uspokojování čtvrté normální formy, dostaneme následující:
Zajisté jsme dekompozicí pomohli snížit redundanci dat v naší databázi, která by byla zjevná především u rozsáhlých databází s velkým počtem záznamů. Ovšem ve výsledku jsme ztratili důležité informace o závislosti prodejců – produktů – poboček. Při aplikaci některého z možných spojení tabulek, např. přirozeného spojování (NATURAL JOIN), dostáváme následující výsledky:
Všimněme si, že dle obdržených výsledků vrácených spojením tabulek Prodejce-Produkt a Prodejce-Pobočka došlo k vytvoření tří nových záznamů, které tvrdí, že např. Prodejce 01 prodává lyžařské brýle v Pardubicích, což ovšem v porovnání s původní tabulkou víme, že není pravda. Uvažujme tedy o dekompozici původní tabulky na tři tabulky oproti dvěma původním. Tedy kromě tabulek Prodejce-Produkt a Prodejce-Pobočka přidáme ještě tabulku Pobočka-Produkt evidující vztah mezi produkty a jejich dostupností na jednotlivých pobočkách. Mějme tedy navíc následující tabulku:
Problém však nastává ve chvíli, kdy se pokusíme tyto tři tabulky spojit a dostat tak původní data. Zjistíme, že se nám takové spojení realizovat nepodaří a že není způsob, jak bychom dekompozici původní tabulky mohli provést bezeztrátově. Tedy lze konstatovat, že tabulka Prodejce-Produkt-Pobočka již nelze dále bezeztrátově rozložit (je tedy v 5NF), a proto se musíme spokojit s redundancí dat původní tabulky pro zajištění, že nepřijdeme o žádná potenciálně důležitá data. Příklad 6Víme už tedy o jaké tabulce můžeme konstatovat, že je v páté normální formě. Ukažme si ještě tabulku, která pátou normální formu porušuje. Upravíme-li záznamy původní tabulky a určíme-li, že se v Praze prodávají všechny produkty (lyže a lyžařské brýle), ale v Pardubicích pouze lyžařské brýle, bude nová tabulka vypadat následovně:
Budeme-li postupovat stejně jako při pokusu o dekompozici bezeztrátově nerozdělitelné tabulky z minulého příkladu, dostaneme následující tři tabulky:
Při pokusu o jejich opětovné spojení, zjistíme, že se nám v tomto případě podařila bezeztrátová dekompozice a výsledkem naší selekce je totožná tabulka s tabulkou před rozdělením. Po spojení těchto tabulek tedy získáváme:
Jelikož se nám podařilo opětovně spojit tři rozdělené tabulky a získat tak nezměněnou původní tabulku, lze konstatovat, že tabulka nesplňuje pravidla stanovená pátou normální formou. Srovnáme-li oba příklady této normální formy, zjistíme, že hlavním rozdílem bylo uvedení rozšiřujících informací, které nejsou ihned zjevné při pohledu na samotnou tabulku. Identifikování tabulek, které porušují pátou normální formu bývá v praxi velmi složité, a navíc reálný přínos její aplikace bývá často nezřetelný. Pátá normální forma patří mezi formy založené spíše na teoretickém zázemí, postrádajíc reálně dosažitelné výsledky při aplikaci v praxi. Další normální formyNásledující normální formy jsou zřídka uváděny a obvykle se s nimi při normalizaci nesetkáváme. Většina z nich je postavena na čistě teoretickém modelu a jejich aplikace v praxi bývá přehlížena (občas záměrně). Pro úplnost je vhodné uvést i tyto normy. Normální forma elementárních klíčů (EKNF)Normální forma elementárních klíčů (z anglického Elementary key normal form) je nadstavbou nad třetí normální formou a striktně spadá před BCNF, tedy platí pravidlo, že relace v EKNF jsou zároveň i ve třetí normální formě. Tuto normální formu představil v roce 1982 Carlo Zaniolo.[12] EKNF cílí na zachycení hlavních kvalit jak třetí normální formy, tak BCNF a zároveň adresuje jejich problémy. Formální definice EKNF zní:
Normální forma nezbytných n-tic (ETNF)Normální forma nezbytných n-tic (z anglického Essential tuple normal form), zkráceně ETNF, je jedna z nejnovějších normálních forem. Její představení proběhlo v roce 2012. [13]
Jedná se o normální formu, která zaujímá místo mezi čtvrtou a pátou normální formou. Předmětem zkoumání této normální formy jsou funkční závislosti v relacích relačních databázích. Hlavní výhodou aplikace této normální formy je obdobně jako v případě ostatních normálních forem snížení redundance dat. Dle znění formální definice je schéma relace R v normální formě nezbytných n-tic (ETNF) právě tehdy, když:
Normální forma doménových klíčů (DK/NF)Normální forma doménových klíčů (z anglického Domain-key normal form) je další normální formou, jejímž autorem je R. Fagin.[14] Dle jedné z definic je DK/NF splněna, pokud:
Dle další definice[15] je DK/NF splněna, pokud:
Poznámka: V literatuře se můžeme setkat s chápáním DK/NF jako synonymem k šesté normální formě, ovšem dle definice Christophera Date se DK/NF od jím definované šesté normální formy liší. Šestá normální forma (6NF)Šestá normální forma je poslední uváděná normální forma představená v roce 2003. Jejími autory jsou C. J. Date, H. Darwen a N. A. Lorentzos. Cílem šesté normální formy je dekompozice relací na dále již neredukovatelné komponenty (relace). [16] [17] [18] Dle jedné z možných definic je tabulka v 6NF právě tehdy, když:[19]
Šestá normální forma nabírá na důležitosti s využitím dočasných datových uložišť a datových skladů. OdkazyReference
Literatura
Externí odkazy |
Portal di Ensiklopedia Dunia