Do góry

Eksploracja danych

Eksploracja danych (data mining)

Inne spotykane określenia to : Drążenie danych, pozyskiwanie wiedzy, ekstrakcja danych bądź wydobywanie danych.

Eksploracja to jedno z działań podejmowanych dla wydobywania wiedzy z baz danych. Całość tego etapu polega na znajdowaniu ukrytych, ze względu na ograniczenia czasowe, dla człowieka zależności w danych nagromadzonych w bazach, hurtowniach danych. Działania te są podejmowane skutecznie ze względu na szybkość dostępnych komputerów.

Techniki wydobywania danych wywodzą się z nauk takich jak uczenie maszynowe i statystyczna analiza wielowymiarowa – statystyka. Na proces eksploracji danych składają się metody przetwarzania, które różnią się między sobą zakresem zastosowań, sposobami prezentowania rozwiązań, czy też ich stosowanymi algorytmami. Do podstawowych metod przetwarzania zaliczyć można: streszczenie, klasyfikacja, grupowanie, poszukiwanie asocjacji, analiza jakościowa bądź też ilościowa danych.

Zastosowania eksploracji danych

Eksploracja danych znajduje zastosowanie w miejscach gdzie wykorzystywane są systemy informatyczne, dla gromadzenia pozyskiwanych danych w postaci baz danych, albo w hurtowniach danych. Potrzeba eksploracji danych wynika z dużej prostoty w konstruowaniu baz danych, przystępności cen, a także z tego, że dane, które są gromadzone wykorzystuje się praktycznie we wszystkich dziedzinach życia.

Miejsca gdzie szeroko stosuje się data minig to szeroko pojęty biznes, ekonomia, astronomia czy też medycyna. Eksplorację danych można wykorzystać przy okazji rozpoznawaniu sygnałów obrazu, pisania oraz mowy, wspomaganiu diagnostyki medycznej lub badaniach genetycznych. Dodatkowo znajduje zastosowanie również w analizie operacji bankowych, projektowaniu hurtowni danych, w prognozowaniu sprzedaży, wykrywaniu nadużyć, ocenianiu ryzyka kredytowego, segmentacji klientów.

Wizualizacja graficzna w eksploracji danych

Rozwiązania uzyskane za pomocą eksploracji danych można przedstawić za pomocą wizualizacji graficznych, których przykładem są:

  1. Histogramy – ich stosowanie najbardziej wskazane jest w momencie kiedy wybrane zmienne predykcyjne są bardzo zróżnicowane, w przeciwnym razie gdy słupki się nakładają na siebie, ze względu na ich małe zróżnicowanie, nie ma możliwości wyznaczenia klasy, do której należą.
  2. Boxplot – ma na celu wykazanie zmiennych, które charakteryzują się największymi przesunięciami kwantyli, wartości minimalnych i maksymalnych, median względem siebie.
  3. Gęstości empiryczne, które są wykresami rozkładów empirycznych stosowanych dla wybranych zmiennych predykcyjnych. Podobnie jak w histogramie, stosowanie gęstości daje lepsze efekty w przypadku zróżnicowanych zmiennych.

Wiadomości, które można odczytać z wykresów to kwantyle i mediana z boxplotu, wartości minimalne, maksymalne i wartości cech ze wszystkich trzech wykresów, liczebność i częstość z gęstości i histogramu. Zaś z gęstości i histogramu można odczytać wzajemną korelację zmiennych.

Procenty i punkty procentowe

Różnice pomiędzy procentami i punktami procentowymi stanowią dla wielu osób problem. Dlatego poniżej prezentujemy obszerny opis procentów i punktów procentowych oraz różnic między nimi.

Procent

Procent, w języku łacińskim znaczy „przez sto” co wynika z per – przez, za pomocą, poprzez oraz z „centrum” – sto. Jest to sposób na wyrażenie liczby jako ułamka, o mianowniku równym sto. Graficzny sposób przedstawienia liczby w postaci procentów wymaga użycia symbolu – „%”.

Znaku „%” nie należy jednak rozumieć jako jednostki miary. Gdy mamy podane „zawodnik przebiegł 10% wymaganej trasy” chodzi o to, że przebiegł 10/100 z tej trasy a nie 10  km trasy. Jednostką miary będzie kilometr w tym przypadku, zaś określenie „5 %” pokazuje jaki dystans został już pokonany.

Procenty używane są wówczas gdy chcemy w wygodny sposób wyrazić jedną wielkość w stosunku do innej wielkości – np. zmianę wielkości początkowej, jaką część stanowi wielkość jednej wartości zawarta w drugiej wartości.

W pierwszym przypadku można posłużyć się następującym przykładem : początkowo cena chleba wynosiła 2,00 zł. Po podwyżce cen, za chleb zapłacimy 2,20 – wynika stąd, iż cena chleba podrożała o 0,20 groszy, a więc o 10 %. W mianowniku znajdzie się cena początkowa, zaś w liczebniku wartość, o którą cena została podniesiona à 0,20/2,00 = 0.1;  a więc 10%.

Punkt procentowy

Punkt procentowy (w skrócie: p.p.)  jest to jednostka, za pomocą której wyrażona jest różnica między dwiema wartościami, dotyczącymi jednej wielkości i wyrażonymi w procentach. Oznacza to, że jeżeli wielkość A spadła z 50 % do 35 %, to zmiana jest równa 15 p.p.

Różnice

Brak rozróżniania tych dwóch pojęć – punktu procentowego i procentu prowadzi często do licznych pomyłek w obliczeniach. Procent to jedna część zawarta w drugiej (np. 50% ze 150) zaś punkt procentowy to różnica między jedną a drugą wartością tej samej wielkości (np. wzrost wielkości z 20% do 25% oznacza wzrost o 5 punktów procentowych).Jeżeli coś wzrosło o 2 %, to oznacza że wzrosło z poziomu x na poziom x% + 2%, zaś jeżeli wzrosło o 2 punkty procentowe to oznacza że wzrosło na poziom : x% + (2% * x%).

Bardzo ważne jest rozróżnianie tych dwóch pojęć, ponieważ błędne rozumienie i używanie procentów zamiast punktów procentowych może skutkować różnicą w wartościach.

Średnia arytmetyczna i ważona

Średnia arytmetyczna jest klasyczną miarą średnią. Miary te, inaczej nazywane miarami położenia lub miarami przeciętnymi obrazują typowy, średni poziom wartości badanej cechy. Jako, że są miarami średnimi, to wokół nich skupiają się pozostałe wartości cechy która została poddana analizie.

Średnia arytmetyczna jest ilorazem sumy wartości zmiennej i liczebności badanej zbiorowości. Tak wyrażona średnia jest nazywana inaczej średnią arytmetyczną nieważoną – prostą, zwykłą. Innym określeniem dla średniej arytmetycznej jest średnia potęgowa rzędu 1. Jest wyliczana dla szeregu szczegółowego, czyli takiego w którym występują pojedyncze wartości cechy dla każdej próby. Inny sposób definiowania, bardziej potoczny, to suma wartości zmiennej wszystkich jednostek zbiorowości, podzielona przez liczbę tych jednostek.

Co czytane jest jako : średnia arytmetyczna to iloraz sumy wszystkich wartości zmiennej wszystkich jednostek (X1 …. Xn) i liczba tych jednostek (N). Jest to równoznaczne sumie zmiennej i-tej jednostki podzielonej przez liczebność obserwowanej zbiorowości.

Średnia arytmetyczna jest wartością abstrakcyjną, dającą tylko ogólny obraz. Nie należy się nią sugerować w opisywaniu badanej zbiorowości, ponieważ może być zaniżana bądź też zawyżana przez wielkości skrajne. Najlepsze wyniki daje w odniesieniu do zbiorowości o jednorodnym charakterze, a więc posiadające niewielki stopień zróżnicowania wartości zmiennej. Jako miara położenia rozkładu i miara tendencji centralnych jest jedną z głównych metod statystycznych, użyteczną we wszystkich dziedzinach nauki. Często jest stosowana w życiu codziennym. Warto też zauważyć, iż każda zmiana dowolnej jednostki z analizowanego zbioru prowadzi do zmiany wartości średniej.

Średnia ta ma bardzo rozległe zastosowanie, można mówić o np. o średniej wartości zarobków w danej firmie, średniej cenie jakiegoś produktu, średniej liczbie zgonów wypadków w danym województwie.

Średnia arytmetyczna ważona – jest to klasyczna miara położenia, czyli ona także wskazuje wartość średnią, wokół której koncentrują się pozostałe wartości cechy która stanowi przedmiot badania.

W przeciwieństwie do średniej arytmetycznej nieważonej, średnia ta jest wyliczana dla szeregów rozdzielczych, zarówno punktowych jak i przedziałowych, gdzie wartości zmiennych występują z różnym natężeniem. Liczebności, które odpowiadają poszczególnym wariantom cech są nazywane wagami.

Średnia arytmetyczna ważona jest obliczana inaczej dla szeregu rozdzielczego punktowego, a inaczej dla szeregu rozdzielczego przedziałowego.

Średnia arytmetyczna i ważona

Średnia arytmetyczna jest klasyczną miarą średnią. Miary te, inaczej nazywane miarami położenia lub miarami przeciętnymi obrazują typowy, średni poziom wartości badanej cechy. Jako, że są miarami średnimi, to wokół nich skupiają się pozostałe wartości cechy która została poddana analizie.

Średnia arytmetyczna jest ilorazem sumy wartości zmiennej i liczebności badanej zbiorowości. Tak wyrażona średnia jest nazywana inaczej średnią arytmetyczną nieważoną – prostą, zwykłą. Innym określeniem dla średniej arytmetycznej jest średnia potęgowa rzędu 1. Jest wyliczana dla szeregu szczegółowego, czyli takiego w którym występują pojedyncze wartości cechy dla każdej próby. Inny sposób definiowania, bardziej potoczny, to suma wartości zmiennej wszystkich jednostek zbiorowości, podzielona przez liczbę tych jednostek.
Co czytane jest jako : średnia arytmetyczna to iloraz sumy wszystkich wartości zmiennej wszystkich jednostek (X1 …. Xn) i liczba tych jednostek (N). Jest to równoznaczne sumie zmiennej i-tej jednostki podzielonej przez liczebność obserwowanej zbiorowości.

Średnia arytmetyczna jest wartością abstrakcyjną, dającą tylko ogólny obraz. Nie należy się nią sugerować w opisywaniu badanej zbiorowości, ponieważ może być zaniżana bądź też zawyżana przez wielkości skrajne. Najlepsze wyniki daje w odniesieniu do zbiorowości o jednorodnym charakterze, a więc posiadające niewielki stopień zróżnicowania wartości zmiennej. Jako miara położenia rozkładu i miara tendencji centralnych jest jedną z głównych metod statystycznych, użyteczną we wszystkich dziedzinach nauki. Często jest stosowana w życiu codziennym. Warto też zauważyć, iż każda zmiana dowolnej jednostki z analizowanego zbioru prowadzi do zmiany wartości średniej.

Średnia ta ma bardzo rozległe zastosowanie, można mówić o np. o średniej wartości zarobków w danej firmie, średniej cenie jakiegoś produktu, średniej liczbie zgonów wypadków w danym województwie.

Średnia arytmetyczna ważona – jest to klasyczna miara położenia, czyli ona także wskazuje wartość średnią, wokół której koncentrują się pozostałe wartości cechy która stanowi przedmiot badania.

W przeciwieństwie do średniej arytmetycznej nieważonej, średnia ta jest wyliczana dla szeregów rozdzielczych, zarówno punktowych jak i przedziałowych, gdzie wartości zmiennych występują z różnym natężeniem. Liczebności, które odpowiadają poszczególnym wariantom cech są nazywane wagami.Średnia arytmetyczna ważona jest obliczana inaczej dla szeregu rozdzielczego punktowego, a inaczej dla szeregu rozdzielczego przedziałowego:

  1. Gdzie każdej wartość zmiennej i-tej jednostki odpowiada osobna liczebność.  Jest to iloraz sumy iloczynu wartości zmiennej i-tej jednostki i odpowiadającej jej i-tej liczebności oraz ogólnej liczebności (N).
  2. W szeregach rozdzielczych przedziałowych wartości zmiennej mieszczą się w przedziałach, określonych według przyjętych założeń. Dla wyznaczenia średniej w takim przypadku, konieczne jest wyznaczenie środka takowego przedziału poprzez wyciągnięcie średniej arytmetycznej z górnej i dolnej granicy każdego przedziału – często nazywanego również klasą.

Gdzie średnia arytmetyczna ważona jest ilorazem sumy iloczynów wartości środka przedziału zmiennej i-tej jednostki i odpowiadającej jej i-tej liczebności oraz liczebności całej analizowanej zbiorowości.

Obliczenie średniej arytmetycznej dla szeregów przedziałowych, gdzie chociaż jedna klasa pozostaje otwarta jest niemożliwe.

Dodatkowo posiadając wszystkie wartości średnich arytmetycznych dla badanych grup, można obliczyć średnią ze średniej, która stanowi iloraz sumy iloczynów średnich arytmetycznych i-tej jednostki i odpowiadającej im i-tej liczebności oraz liczebności całej zbiorowości.

Author avatar
Wojciech Hadała
https://hadalawojciech.pl
Na bieżąco śledzę trendy w SEO (optymalizacji pod kątem wyszukiwarek internetowych) i pozycjonowaniu (link building), ale interesuję się również social mediami, marketingiem dla urządzeń mobilnych oraz SXO (Search Engine Experience). Codziennie przekonuję się o tym, że praca może łączyć się z pasją, stając się tym samym ciekawym i pełnym wyzwań sposobem na życie.Teoria? Bardziej cenię sobie praktykę i wysoką efektywność działań. Dzięki doświadczeniu łączę w odpowiednich proporcjach SEO, User Experience oraz Web Performance, spełniając oczekiwania użytkowników poszukujących w sieci Twojego produktu lub usług.Więcej o posiadanych kwalifikacjach, certyfikatach i doświadczeniu dowiesz się na stronie O mnie. Szukasz wiedzy, inspiracji lub masz chwilę wolną i chcesz coś poczytać? Zapraszam na mój blog. Potrzebujesz pomocy lub porady w zakresie SEO / Link Building? Po prostu skontaktuj się ze mną.Polecam się do kontaktu w kwestiach technicznych oraz przy wytycznych do rozbudowy serwisu.
Używam plików cookie, aby zapewnić najlepszą jakość serwisu.