Różnica między schematem gwiazdy i płatka śniegu

Hurtownie danych to system przeznaczony do przechowywania i organizowania danych w centralnych repozytoriach, w tym danych z innych źródeł. Jest to podstawowa koncepcja analizy biznesowej w relacyjnych modelach baz danych, która wykorzystuje techniki analityczne do integracji danych biznesowych z centralną bazą danych.

Istnieją dwa popularne modele architektoniczne stosowane w hurtowni danych:

  • Program gwiezdny
  • Schemat płatka śniegu

Oba są powszechnymi wielowymiarowymi modelami baz danych wykorzystywanymi do zaspokajania potrzeb dużych baz danych do celów analitycznych w rzeczywistych hurtowniach danych.

Prezentujemy bezstronne porównanie między nimi, aby lepiej zrozumieć, które z nich jest lepsze od drugiego.

Co to jest schemat gwiezdny?

Jest to najczęściej stosowany i szeroko akceptowany model architektoniczny wykorzystywany do opracowywania hurtowni danych i centrów danych, w których dane są uporządkowane według faktów i wymiarów. Jest to najprostszy model architektoniczny, w którym jedna tabela faktów jest używana w odniesieniu do tabel wielu wymiarów, imitując wzór gwiazdy.

Jak sama nazwa wskazuje, schemat przypomina gwiazdę z tabelą faktów pośrodku i promieniującymi z niej tabelami wielowymiarowymi, tworząc wzór podobny do gwiazdy.

Jest również znany jako Schemat dołączania do gwiazdy i przechowuje wszystkie atrybuty wymiaru w jednej zdenormalizowanej tabeli faktów, aby szybko nawigować po dużych, wielowymiarowych zestawach danych, co odpowiada szybkiemu czasowi odpowiedzi na zapytanie.

Co to jest schemat płatka śniegu?

Jest przedłużeniem schematu gwiazdy z dodatkowymi funkcjami. W przeciwieństwie do schematu gwiazdy tabele wymiarów w schemacie płatka śniegu są znormalizowane do wielu powiązanych tabel.

Model architektoniczny reprezentuje logiczny układ tabel w hierarchii relacji wiele-do-jednego, w której tabele wielu wymiarów są znormalizowane do tabel podwymiarowych, przypominających wzór płatka śniegu, stąd nazwa.

Jest to bardziej złożona wersja schematu gwiaździstego z większą liczbą połączeń między tabelami wymiarów, co odpowiada za długi czas przetwarzania w celu pobrania danych, co oznacza wolne czasy odpowiedzi na zapytania. Minimalizuje nadmiarowość danych, co z kolei poprawia wydajność zapytań.

Różnica między schematem gwiazdy i płatka śniegu

Architektura schematu gwiazdy i płatka śniegu

W relacyjnych bazach danych schemat gwiazd jest najprostszym modelem architektonicznym stosowanym do tworzenia hurtowni danych i wielowymiarowych centrów danych. Jak sama nazwa wskazuje, model przypomina gwiazdę z punktami promieniującymi od środka, co oznacza, że ​​tabela faktów jest środkiem, a punkty są tabelami wymiarów. Podobnie jak inne modele wymiarowe, składa się z danych w postaci faktów i wymiarów. Z drugiej strony schemat płatka śniegu jest bardziej złożonym modelem architektonicznym, który odnosi się do wielowymiarowej bazy danych z logicznym układem tabel w formie płatka śniegu.

Tabela wymiarów

Schemat płatka śniegu jest dość podobny do schematu gwiaździstego, z tym wyjątkiem, że może mieć więcej niż jeden tabele wymiarów, które są dalej znormalizowane do wielu powiązanych tabel zwanych tabelami wymiarów podrzędnych. Reprezentuje wiele poziomów relacji, które rozgałęziają się w wzór płatka śniegu. Jednak schemat gwiazdy przechowuje wszystkie powiązane atrybuty wymiaru w jednej zdenormalizowanej tabeli wymiarów, co ułatwia zrozumienie i obsługę prostszych zapytań.

Model biznesowy schematu gwiazdy i płatka śniegu

Tabela wymiarów nie może zawierać zduplikowanych wierszy w relacyjnych modelach baz danych, ponieważ może powodować niejednoznaczności podczas wyszukiwania. Każda tabela powinna mieć kolumnę lub kombinację kolumn zwaną kluczem podstawowym, która jednoznacznie identyfikuje wszystkie rekordy tabeli. Klucz obcy to kolumna lub grupa kolumn, która zapewnia łącze między dwiema tabelami. W schemacie gwiaździstym każda tabela wymiarów ma klucz podstawowy, który jest powiązany z kluczem obcym w tabeli faktów. Hierarchia biznesowa w schemacie typu płatek śniegu jest reprezentowana przez relację klucza podstawowego / klucza obcego między tabelami wymiarów.

Integralność danych w schemacie gwiazdy i płatka śniegu

Kluczową różnicą między dwoma modelami relacyjnych baz danych jest normalizacja. Tabele wymiarów w schemacie gwiaździstym nie są znormalizowane, co oznacza, że ​​model biznesowy wykorzysta stosunkowo więcej miejsca do przechowywania tabel wymiarów, a więcej miejsca oznacza więcej zbędnych rekordów, co ostatecznie spowodowałoby niespójność. Z drugiej strony schemat płatka śniegu minimalizuje nadmiarowość danych, ponieważ tabele wymiarów są znormalizowane, co stanowi o wiele mniej zbędnych rekordów. Hierarchia biznesowa i jej wymiary są zachowywane dzięki integralności referencyjnej, co oznacza, że ​​relacje mogą być aktualizowane niezależnie w hurtowniach danych.

Wydajność zapytania

Schemat gwiaździsty ma mniej połączeń między tabelą wymiarów a tabelą faktów w porównaniu do schematu płatka śniegu, który ma wiele połączeń, co odpowiada mniejszej złożoności zapytań. Ponieważ wymiary w schemacie gwiaździstym są połączone za pomocą centralnej tabeli faktów, ma on wyraźne ścieżki łączenia, co oznacza krótkie czasy odpowiedzi na zapytania, a szybki czas odpowiedzi oznacza lepszą wydajność. Schemat płatka śniegu ma większą liczbę złączeń, więc dłuższe czasy odpowiedzi na zapytania, co skutkuje bardziej złożonymi zapytaniami, co ostatecznie obniża wydajność.

Schemat gwiazdy kontra schemat płatka śniegu: Tabela porównawcza


Podsumowanie wersetu gwiazdowego Schemat płatka śniegu

Oba są najczęściej stosowanymi i szeroko stosowanymi modelami architektonicznymi wykorzystywanymi do tworzenia hurtowni baz danych i centrów danych. Jednak każdy model biznesowy ma uczciwy udział wady i zalety. Chociaż schemat gwiazd jest najprostszym wielowymiarowym modelem stosowanym do organizowania danych w fakty i wymiary, jest on idealny do opracowywania rzutników danych, które obejmują mniej złożone relacje. Schemat płatka śniegu jest logiczną reprezentacją tabel w wielowymiarowej bazie danych, w której wymiary są przechowywane w tabelach wymiarów. Główną różnicą między nimi jest normalizacja. Tabele wymiarów w schemacie płatka śniegu są całkowicie znormalizowane do wielu tabel przeglądowych, podczas gdy w schemacie gwiaździstym tabele wymiarów są denormalizowane w jedną centralną tabelę faktów.