Różnica między workowaniem a losowym lasem

Z biegiem lat wiele systemów klasyfikujących, zwanych także systemami zespołowymi, było popularnym tematem badań i cieszyło się coraz większym zainteresowaniem w społeczności inteligencji obliczeniowej i uczenia maszynowego. Przyciągnął zainteresowanie naukowców z kilku dziedzin, w tym uczenia maszynowego, statystyki, rozpoznawania wzorców i odkrywania wiedzy w bazach danych. Z biegiem czasu metody zespołowe okazały się bardzo skuteczne i wszechstronne w szerokim spektrum dziedzin problemowych i rzeczywistych aplikacji. Opracowane pierwotnie w celu zmniejszenia wariancji w zautomatyzowanym systemie decyzyjnym, od tego czasu stosuje się metody zespolone do rozwiązywania różnych problemów uczenia maszynowego. Prezentujemy przegląd dwóch najbardziej znanych algorytmów zespołu - Bagging i Random Forest - a następnie omawiamy różnice między nimi.

W wielu przypadkach tworzenie worków, które wykorzystuje próbkowanie bootstrap, wykazano, że warkocz klasyfikacyjny ma wyższą dokładność niż pojedyncze drzewo klasyfikacji. Tworzenie worków jest jednym z najstarszych i najprostszych algorytmów zespolonych, które można zastosować do algorytmów opartych na drzewach w celu zwiększenia dokładności prognoz. Istnieje jeszcze jedna ulepszona wersja workowania zwana algorytmem Losowego Lasu, która jest zasadniczo zbiorem drzew decyzyjnych szkolonych za pomocą mechanizmu workowania. Zobaczmy, jak działa algorytm losowego lasu i czym różni się od workowania w modelach zespołowych.

Parcianka

Agregacja bootstrap, znana również jako workowanie, jest jednym z najwcześniejszych i najprostszych algorytmów opartych na zespole, dzięki którym drzewa decyzyjne są bardziej niezawodne i osiągają lepszą wydajność. Koncepcja workowania polega na połączeniu prognoz kilku podstawowych uczniów w celu uzyskania dokładniejszych wyników. Leo Breiman wprowadził algorytm workowania w 1994 roku. Pokazał, że agregacja bootstrap może przynieść pożądane wyniki w niestabilnych algorytmach uczenia się, w których niewielkie zmiany w danych treningowych mogą powodować duże różnice w prognozach. Bootstrap to próbka zestawu danych z zamiennikiem, a każda próbka jest generowana przez równomierne próbkowanie zestawu szkoleniowego o rozmiarze m, aż do uzyskania nowego zestawu z instancjami m.

Losowy las

Losowy las jest nadzorowanym algorytmem uczenia maszynowego opartym na uczeniu się w zespole i ewolucji oryginalnego algorytmu workowania Breimana. Jest to doskonała poprawa w porównaniu do workowanych drzew decyzyjnych w celu budowania wielu drzew decyzyjnych i agregowania ich w celu uzyskania dokładnego wyniku. Breiman dodał dodatkową losową odmianę do procedury workowania, tworząc większą różnorodność wśród powstałych modeli. Losowe lasy różnią się od drzew z workami, zmuszając je do korzystania z podzbioru dostępnych predyktorów do podziału w fazie wzrostu. Wszystkie drzewa decyzyjne tworzące losowy las są różne, ponieważ każde drzewo jest zbudowane na innym losowym podzbiorze danych. Ponieważ minimalizuje to nadmierne dopasowanie, wydaje się być bardziej dokładne niż pojedyncze drzewo decyzyjne.

Różnica między Bagging a Random Forest

Podstawy

- Zarówno worki, jak i losowe lasy są algorytmami opartymi na zestawach, które mają na celu zmniejszenie złożoności modeli, które przewyższają dane treningowe. Agregacja bootstrap, zwana także workowaniem, jest jedną z najstarszych i skutecznych metod łączenia, aby zapobiec nadmiernemu dopasowaniu. Jest to meta-technika, która wykorzystuje wiele klasyfikatorów w celu poprawy dokładności predykcyjnej. Pakowanie oznacza po prostu pobieranie losowych próbek z próbki treningowej w celu wymiany w celu uzyskania zestawu różnych modeli. Losowy las jest nadzorowanym algorytmem uczenia maszynowego opartym na uczeniu się w zespole i ewolucji oryginalnego algorytmu workowania Breimana.

Pojęcie

- Koncepcja próbkowania bootstrap (workowania) polega na szkoleniu kilku nieoszacowanych drzew decyzyjnych na różnych losowych podzbiorach danych treningowych, próbkowaniu z zastępowaniem, w celu zmniejszenia wariancji drzew decyzyjnych. Chodzi o to, aby połączyć prognozy kilku podstawowych uczniów, aby uzyskać dokładniejsze wyniki. W przypadku losowych lasów do procedury workowania dodawana jest dodatkowa losowa odmiana, aby zwiększyć różnorodność uzyskanych modeli. Ideą losowych lasów jest budowanie wielu drzew decyzyjnych i agregowanie ich w celu uzyskania dokładnego wyniku.

Cel

- Zarówno spakowane drzewa, jak i losowe lasy są najczęstszymi zestawami narzędzi do uczenia się stosowanymi do rozwiązywania różnych problemów uczenia się maszynowego. Próbkowanie Bootstrap jest meta-algorytmem zaprojektowanym w celu poprawy dokładności i stabilności modeli uczenia maszynowego za pomocą uczenia zespołowego i zmniejszenia złożoności modeli nadmiernie dopasowanych. Algorytm losowego lasu jest bardzo odporny na nadmierne dopasowanie i jest dobry w przypadku niezrównoważonych i brakujących danych. Jest to również preferowany wybór algorytmu do budowania modeli predykcyjnych. Celem jest zmniejszenie wariancji poprzez uśrednienie wielu drzew głębokiej decyzji, przeszkolonych na różnych próbkach danych.

Bagging vs. Random Forest: Tabela porównawcza

streszczenie

Zarówno spakowane drzewa, jak i losowe lasy są najczęstszymi zestawami narzędzi do uczenia się stosowanymi do rozwiązywania różnych problemów uczenia się maszynowego. Tworzenie worków jest jednym z najstarszych i najprostszych algorytmów zespolonych, które można zastosować do algorytmów opartych na drzewach w celu zwiększenia dokładności prognoz. Random Forests, z drugiej strony, jest nadzorowanym algorytmem uczenia maszynowego i ulepszoną wersją modelu próbkowania bootstrap wykorzystywanego zarówno do problemów z regresją, jak i klasyfikacją. Ideą losowego lasu jest budowanie wielu drzew decyzyjnych i agregowanie ich w celu uzyskania dokładnego wyniku. Losowy las wydaje się być dokładniejszy niż jedno drzewo decyzyjne, ponieważ minimalizuje nadmierne dopasowanie.