KDD vs eksploracja danych
KDD (Knowledge Discovery in Databases) to dziedzina informatyki, która obejmuje narzędzia i teorie, które pomagają ludziom w wydobywaniu przydatnych i wcześniej nieznanych informacji (tj. Wiedzy) z dużych zbiorów zdigitalizowanych danych. KDD składa się z kilku kroków, a jednym z nich jest Data Mining. Data Mining to zastosowanie określonego algorytmu w celu wydobycia wzorców z danych. Niemniej jednak KDD i Data Mining są używane zamiennie.
Co to jest KDD?
Jak wspomniano powyżej, KDD to dziedzina informatyki, która zajmuje się wydobywaniem nieznanych wcześniej i interesujących informacji z surowych danych. KDD to cały proces próby zrozumienia danych poprzez opracowanie odpowiednich metod lub technik. Ten proces dotyczy mapowania danych niskiego poziomu na inne formy, które są bardziej zwarte, abstrakcyjne i przydatne. Osiąga się to poprzez tworzenie krótkich raportów, modelowanie procesu generowania danych i opracowywanie modeli predykcyjnych, które mogą przewidywać przyszłe przypadki. Ze względu na gwałtowny wzrost danych, szczególnie w takich obszarach, jak biznes, KDD stało się bardzo ważnym procesem przekształcania tego ogromnego bogactwa danych w inteligencję biznesową, ponieważ ręczne wydobycie wzorców stało się w ostatnich kilku dekadach pozornie niemożliwe. Na przykład jest obecnie wykorzystywany do różnych aplikacji, takich jak analiza sieci społecznościowych, wykrywanie oszustw, nauka, inwestycje, produkcja, telekomunikacja, czyszczenie danych, sport, wyszukiwanie informacji i głównie w celach marketingowych. KDD jest zwykle używany do odpowiedzi na pytania, takie jak jakie są główne produkty, które mogą pomóc uzyskać wysoki zysk w przyszłym roku w Wal-Mart ?. Ten proces składa się z kilku etapów. Zaczyna się od zrozumienia zrozumienia domeny aplikacji i celu, a następnie utworzenia docelowego zestawu danych. Następnie następuje czyszczenie, przetwarzanie wstępne, redukcja i wyświetlanie danych. Kolejnym krokiem jest użycie Data Mining (wyjaśnione poniżej) do zidentyfikowania wzorca. Wreszcie odkryta wiedza jest utrwalana poprzez wizualizację i / lub interpretację.
Co to jest Data Mining?
Jak wspomniano powyżej, wyszukiwanie danych jest tylko krokiem w całym procesie KDD. Istnieją dwa główne cele Data Mining określone przez cel aplikacji, a mianowicie weryfikacja lub wykrycie. Weryfikacja weryfikuje hipotezę użytkownika dotyczącą danych, a odkrycie automatycznie znajduje ciekawe wzorce. Istnieją cztery główne zadania eksploracji danych: grupowanie, klasyfikacja, regresja i asocjacja (podsumowanie). Klastrowanie polega na identyfikowaniu podobnych grup na podstawie danych nieustrukturyzowanych. Klasyfikacja to reguły uczenia się, które można zastosować do nowych danych. Regresja znajduje funkcje z minimalnym błędem do modelowania danych. A skojarzenie szuka związków między zmiennymi. Następnie należy wybrać określony algorytm eksploracji danych. W zależności od celu można wybrać różne algorytmy, takie jak regresja liniowa, regresja logistyczna, drzewa decyzyjne i Naïve Bayes. Następnie przeszukuje się wzorce zainteresowania jedną lub większą liczbą form reprezentacyjnych. Na koniec modele są oceniane albo przy użyciu dokładności predykcyjnej, albo zrozumiałości.
Jaka jest różnica między KDD a eksploracją danych?
Chociaż oba terminy KDD i Data Mining są szeroko stosowane zamiennie, odnoszą się do dwóch powiązanych, ale nieco odmiennych koncepcji. KDD to ogólny proces wydobywania wiedzy z danych, podczas gdy Data Mining jest krokiem w procesie KDD, który zajmuje się identyfikowaniem wzorców w danych. Innymi słowy, Data Mining to tylko zastosowanie określonego algorytmu opartego na ogólnym celu procesu KDD.