Data Mining vs OLAP
Zarówno eksploracja danych, jak i OLAP to dwie popularne technologie Business Intelligence (BI). Business Intelligence odnosi się do komputerowych metod identyfikowania i wydobywania przydatnych informacji z danych biznesowych. Eksploracja danych to dziedzina informatyki, która zajmuje się wydobywaniem interesujących wzorców z dużych zbiorów danych. Łączy wiele metod sztucznej inteligencji, statystyki i zarządzania bazami danych. OLAP (internetowe przetwarzanie analityczne), jak sama nazwa wskazuje, jest kompilacją sposobów na zapytania do wielowymiarowych baz danych.
Eksploracja danych jest również znana jako Knowledge Discovery in data (KDD). Jak wspomniano powyżej, jest to dziedzina informatyki, która zajmuje się wydobywaniem nieznanych wcześniej i interesujących informacji z surowych danych. Ze względu na gwałtowny wzrost danych, szczególnie w takich obszarach jak biznes, eksploracja danych stała się bardzo ważnym narzędziem do konwersji tego ogromnego bogactwa danych na inteligencję biznesową, ponieważ ręczne wydobywanie wzorców stało się w ostatnich kilku dekadach pozornie niemożliwe. Na przykład jest obecnie używany do różnych aplikacji, takich jak analiza sieci społecznościowych, wykrywanie oszustw i marketing. Eksploracja danych zwykle zajmuje się czterema następującymi zadaniami: grupowaniem, klasyfikacją, regresją i asocjacją. Klastrowanie polega na identyfikowaniu podobnych grup na podstawie danych nieustrukturyzowanych. Klasyfikacja to reguły uczenia się, które można zastosować do nowych danych i zazwyczaj obejmują następujące etapy: wstępne przetwarzanie danych, projektowanie modelowania, uczenie się / wybór funkcji oraz ocena / walidacja. Regresja znajduje funkcje z minimalnym błędem do modelowania danych. A skojarzenie szuka związków między zmiennymi. Eksploracja danych jest zwykle używana do odpowiedzi na pytania, takie jak jakie są główne produkty, które mogą pomóc w osiągnięciu wysokiego zysku w przyszłym roku w Wal-Mart.
OLAP to klasa systemów, które zapewniają odpowiedzi na zapytania wielowymiarowe. Zazwyczaj OLAP służy do marketingu, budżetowania, prognozowania i podobnych aplikacji. Nie trzeba dodawać, że bazy danych używane do OLAP są skonfigurowane pod kątem złożonych zapytań ad-hoc z myślą o szybkiej wydajności. Zwykle do wyświetlania wyniku OLAP używana jest matryca. Wiersze i kolumny są utworzone przez wymiary zapytania. Często używają metod agregacji w wielu tabelach w celu uzyskania podsumowań. Na przykład można go użyć, aby dowiedzieć się o sprzedaży w tym roku w Wal-Mart w porównaniu do ubiegłego roku? Jakie są prognozy sprzedaży w następnym kwartale? Co można powiedzieć o tym trendzie, patrząc na zmianę procentową?
Chociaż oczywiste jest, że eksploracja danych i OLAP są podobne, ponieważ działają na danych w celu uzyskania inteligencji, główna różnica wynika z tego, jak działają na danych. Narzędzia OLAP zapewniają wielowymiarową analizę danych i zapewniają podsumowania danych, ale przeciwnie, eksploracja danych koncentruje się na stosunkach, wzorcach i wpływach w zbiorze danych. Jest to umowa OLAP z agregacją, która sprowadza się do działania danych poprzez „dodawanie”, ale eksploracja danych odpowiada „podziałowi”. Inną znaczącą różnicą jest to, że podczas gdy narzędzia do eksploracji danych modelują dane i zwracają wykonalne reguły, OLAP przeprowadzi techniki porównywania i kontrastowania wzdłuż wymiaru biznesowego w czasie rzeczywistym.