BLACK WEEKS DO -60%     |        7-24 listopada     |        + dodatkowe -10% dla zamówień od 150 zł

close
Cart icon
User menu icon
User icon
Skontaktuj się z nami:
+48 888-916-333
Lightbulb icon
Jak to działa?
FAQ icon
FAQ
Contact icon
Kontakt
Terms of service icon
Regulamin zakupów
Privacy policy icon
Polityka prywatności
Analiza danych dla początkujących: kluczowe pojęcia i technikiAnaliza danych dla początkujących: kluczowe pojęcia i techniki

Analiza danych dla początkujących: kluczowe pojęcia i techniki

Analiza danych to proces przekształcania, modelowania i interpretacji danych w celu uzyskania użytecznych informacji. W tym artykule zebraliśmy zestaw najważniejszych pojęć oraz technik, niezbędnych do pracy z danymi.

Pojęcia związane z analizą danych

Dane

Zaczniemy od najważniejszej koncepcji, czyli od danych. Dane mogą mieć różne postacie.

Dane ustrukturyzowane

Dane zorganizowane w tabelach, np. w bazach danych lub arkuszach kalkulacyjnych. Takie dane można łatwo przeglądać, sortować oraz filtrować.

Dane nieustrukturyzowane

Są to dane, które nie są zorganizowane według jakiegoś schematu. Zazwyczaj będą one wymagały pewnego uporządkowania i dopasowania do narzuconego schematu.

Zmienne

Zmienna to etykieta, która opisuje jakąś wartość albo zestaw wartości. Wyobraź sobie, że mamy dane na temat studentów. Zmienną może być np. Wiek albo Wynik Egzaminu.

Zmienne dzielimy na zmienne zależne oraz niezależne. W trakcie eksperymentu albo badania, sprawdzamy jaki jest wpływ zmiennej niezależnej na wartość zmiennej zależnej.


Wyobraź sobie, że badamy wpływ wieku studenta na wynik egzaminu. Wiek jest zmienną niezależną. A my chcemy sprawdzić, jak ten wiek wpływa na wynik czyli na zmienną zależną.

Zmienne mogą być:

  • ilościowe np. wzrost, waga,
  • jakościowe np. kolor, opinia na temat produktu

Więcej informacji na temat znaczenia zmiennych ilościowych oraz jakościowych, znajdziesz w podlinkowanym artykule.

Miary tendencji centralnej

Mamy trzy podstawowe miary, pokazują nam jakie wartości dominują, albo jakie wartości tworzą “środek” zestawu danych.

  • Średnia czyli suma wartości podzielona przez ich liczbę
  • Mediana czyli środkowa wartość w zestawie danych
  • Moda czyli najczęściej występująca wartość w zestawie danych

Miary rozproszenia

Ta grupa miar, pokazuje jak bardzo dane są rozproszone w stosunku do wybranej miary centralnej. 

  • Odchylenie standardowe to miara rozproszenia danych wokół średniej.
  • Wariancja to średnia kwadratowa odchylenia od średniej.
  • Zakres to różnica między największą a najmniejszą wartością.

Korelacja

Korelacja to miara związku pomiędzy dwiema zmiennymi.

Czy więcej czasu spędzonego na nauce jest związane z lepszymi wynikami testu? Jeśli tak, to korelacja jest dodatnia. Jeśli z kolei większa ilość czasu nauki skutkuje gorszymi wynikami, to mamy korelację ujemną.

Najważniejsze techniki analizy danych

Oczyszczanie danych

Analizę rozpoczynamy od oczyszczenia oraz uporządkowania danych. Może to obejmować następujące czynności:

  • Usuwanie duplikatów
  • Zastępowanie brakujących danych np. średnią wartością
  • Usuwanie wierszy z brakującymi danymi

Eksploracyjna analiza danych (EDA)

Ta technika pozwala nam ogólnie podsumować dane i zbadać ich główne charakterystyki. Celem jest lepsze zrozumienie zbioru danych, zbadanie relacji oraz struktury. Często obejmuje to np. obliczenie średniej wartości, analizowanie najważniejszych zmiennych itp.

Wizualizacja danych

Nic nie przemawia tak dobrze, jak wizualna prezentacja danych w formie wykresu. Warto poznać główne rodzaje wykresów.

  • Histogram - Wizualizacja rozkładu jednej zmiennej.
  • Wykres pudełkowy (boxplot) - Pokazuje rozkład zmiennych i potencjalne wartości odstające.
  • Wykres punktowy (scatter plot) - Ilustruje związek między dwiema zmiennymi.
  • Wykres słupkowy (bar chart) - Wizualizacja danych kategorialnych.

Regresja

Regresja to technika statystyczna, która pozwala przewidzieć wartość jednej zmiennej, na podstawie innej zmiennej. Najczęściej spotykaną odmianą, jest regresja liniowa.

Regresja to potężne narzędzie używane m.in do prognozowania sprzedaży w biznesie, do prognozowania trendów w ekonomii, w medycynie, naukach społecznych i wielu innych dziedzinach.

Podsumowanie

Analiza danych to bardzo ważna i obszerna dziedzina. W artykule mogliśmy pokazać zaledwie sam początek - najważniejsze pojęcia i techniki. Tworzą one absolutny fundament tej niezwykle fascynującej dziedziny.