Eksploracja danych a hurtownia danych
Eksploracja danych i hurtownia danych są bardzo potężnymi i popularnymi technikami analizy danych. Użytkownicy skłonni do statystyki korzystają z Data Mining. Wykorzystują modele statystyczne do wyszukiwania ukrytych wzorców w danych. Eksperci danych są zainteresowani znalezieniem użytecznych relacji między różnymi elementami danych, co jest ostatecznie opłacalne dla firm. Z drugiej strony eksperci od danych, którzy mogą bezpośrednio analizować wymiary firmy, zwykle korzystają z hurtowni danych.
Eksploracja danych jest również znana jako Knowledge Discovery in data (KDD). Jak wspomniano powyżej, jest to dziedzina informatyki, która zajmuje się wydobywaniem nieznanych wcześniej i interesujących informacji z surowych danych. Ze względu na gwałtowny wzrost danych, szczególnie w takich obszarach jak biznes, eksploracja danych stała się bardzo ważnym narzędziem do konwersji tego ogromnego bogactwa danych na inteligencję biznesową, ponieważ ręczne wydobywanie wzorców stało się w ostatnich kilku dekadach pozornie niemożliwe. Na przykład jest obecnie używany do różnych aplikacji, takich jak analiza sieci społecznościowych, wykrywanie oszustw i marketing. Eksploracja danych zwykle zajmuje się czterema następującymi zadaniami: grupowaniem, klasyfikacją, regresją i asocjacją. Klastrowanie polega na identyfikowaniu podobnych grup na podstawie danych nieustrukturyzowanych. Klasyfikacja to reguły uczenia się, które można zastosować do nowych danych i zazwyczaj obejmują następujące etapy: wstępne przetwarzanie danych, projektowanie modelowania, uczenie się / wybór funkcji oraz ocena / walidacja. Regresja znajduje funkcje z minimalnym błędem do modelowania danych. A skojarzenie szuka związków między zmiennymi. Eksploracja danych jest zwykle używana do odpowiedzi na pytania, takie jak jakie są główne produkty, które mogą pomóc w osiągnięciu wysokiego zysku w przyszłym roku w Wal-Mart?
Jak wspomniano powyżej, hurtownia danych jest również wykorzystywana do analizy danych, ale przez różne zestawy użytkowników i nieco inny cel. Na przykład, jeśli chodzi o sektor detaliczny, użytkownicy hurtowni danych są bardziej zainteresowani tym, jakie rodzaje zakupów są popularne wśród klientów, więc wyniki analizy mogą pomóc klientowi, poprawiając jego zadowolenie. Ale Data Minery najpierw wysuwają hipotezę, na przykład, którzy klienci kupują określony typ produktu i analizują dane w celu przetestowania hipotezy. Hurtownia danych mogłaby być prowadzona przez dużego detalistę, który początkowo zaopatruje swoje sklepy takimi samymi rozmiarami produktów, aby później dowiedzieć się, że nowojorskie sklepy sprzedają zapasy mniejszych rozmiarów znacznie szybciej niż w sklepach w Chicago. Patrząc na ten wynik, sprzedawca może zaopatrzyć nowojorski sklep o mniejszych rozmiarach w porównaniu do sklepów w Chicago.
Jak więc wyraźnie widać, te dwa rodzaje analiz wydają się mieć ten sam charakter gołym okiem. Oba obawiają się o zwiększenie zysków na podstawie danych historycznych. Ale oczywiście istnieją kluczowe różnice. Mówiąc najprościej, eksploracja danych i hurtownia danych są dedykowane do dostarczania różnego rodzaju analiz, ale zdecydowanie dla różnych typów użytkowników. Innymi słowy, Data Mining szuka korelacji, wzorców wspierających hipotezę statystyczną. Ale hurtownia danych odpowiada na stosunkowo szersze pytanie i od tego momentu dzieli i kroi dane, aby rozpoznać sposoby poprawy w przyszłości.