Menu Zamknij

Cztery metody eksploracji danych: prediction, clustering, association, classification

Eksploracja danych (data mining) to proces wyszukiwania i analizowania dużej partii surowych danych w celu identyfikacji wzorców i wydobycia przydatnych informacji. Obejmuje ona wykorzystywanie algorytmów związanych m.in. z uczeniem maszynowym. Celem eksploracji danych jest przekształcenie tzw. surowych danych, dostępnych w różnego rodzaju bazach, w cenne informacje ułatwiające funkcjonowanie danej organizacji. Może to być szczególnie przydatne przy planowaniu nowych usług.

Techniki eksploracji danych można podzielić na dwie kategorie – techniki predykcyjne oraz deskrypcyjne (opisowe). Do głównych metod eksploracji danych zaliczają się:

1) Predykcja (ang. prediction) polega na próbie przewidywania wyniku na podstawie wartości innych niż wartości wejściowe. Jej celem jest uzyskanie modelu umożliwiającego przewidywanie wartości pewnych cech. Metoda ta może być wykorzystywana do przeprowadzania badań rynkowych dotyczących zarobków przedstawicieli określonej grupy zawodowej. Dzięki danym takim jak: wykształcenie, doświadczenie czy dane demograficzne można przewidzieć średnie wynagrodzenie na konkretnym stanowisku, które uwzględni wymienione czynniki. Innym przykładem stosowania predykcji jest analizowanie aktywności użytkownika na stronie tematycznej, np. dotyczącej kinematografii, gdzie na podstawie ocen wystawionych poszczególnym filmom można przewidzieć, jakie inne pozycje filmowe mogą wydać się dla danego użytkownika interesujące. Predykcja może być stosowana także w sprawach karnych, czemu będzie poświęcony odrębny wpis.

2) Grupowanie (ang. clustering) jest metodą organizowania danych w grupy (tzw. klastery). Polega na grupowaniu obiektów wykazujących podobne właściwości. Technika ta umożliwia tworzenie skończonej ilości zbiorów na podstawie podobieństwa danych. Grupowanie umożliwia dzielenie danych na grupy, które nie zostały wcześniej zidentyfikowane. W praktyce technika ta wykorzystywana jest do segmentacji rynku – można ustalić czy klienci dzielą się na pewne grupy oraz na tej podstawie zoptymalizować metody sprzedaży.

3) Analiza skojarzeń (ang. association) umożliwia odkrywanie reguł pomiędzy poszczególnymi zbiorami elementów danych. Pozwala wyodrębnić wzorce, które opisują silnie powiązane cechy składowych danego zbioru. W praktyce umożliwia m.in. analizę koszyka zakupowego poprzez wskazanie, które produkty były kupowane przez klientów razem (w sytuacji gdy dany mechanizm był często powtarzany). Robiąc zakupy online, zanim przejdziemy do koszyka i dokonamy płatności, napotkamy ramkę z proponowanymi produktami oznaczonymi jako takie, które mogą nas również zainteresować, co jest oparte właśnie na tej technice eksploracji danych.

4) Klasyfikacja (ang. classification) jest wykorzystywana w procesie przypisywania obiektów do określonych klas lub kategorii. Klasyfikowanie odbywa się poprzez wskazanie podobieństwa do innych obiektów, przy czym w tej metodzie klasy mogą wykluczać się wzajemnie. Często tworzy się dwie przeciwstawne grupy, np. przy analizie ratingu kredytowego klasami byłyby „rating niski” oraz „rating wysoki”. Jedną z najczęściej stosowanych metod jest klasyfikacja baysejowska, sieci neuronowe czy drzewa decyzyjne.

Data mining umożliwia segregację danych oraz formułowanie prognoz dotyczących przyszłości, co zwiększa m.in. skuteczność strategii marketingowych. Techniki eksploracyjne polegające na klasyfikacji tekstowej są także stosowane podczas wyszukiwania treści w Internecie oraz korzystania z poczty mailowej.

Marta Kaczmarek