Autor:12.07.2024
Analiza danych to proces przekształcania, modelowania i interpretacji danych w celu uzyskania użytecznych informacji. W tym artykule zebraliśmy zestaw najważniejszych pojęć oraz technik, niezbędnych do pracy z danymi.
Zaczniemy od najważniejszej koncepcji, czyli od danych. Dane mogą mieć różne postacie.
Dane zorganizowane w tabelach, np. w bazach danych lub arkuszach kalkulacyjnych. Takie dane można łatwo przeglądać, sortować oraz filtrować.
Są to dane, które nie są zorganizowane według jakiegoś schematu. Zazwyczaj będą one wymagały pewnego uporządkowania i dopasowania do narzuconego schematu.
Zmienna to etykieta, która opisuje jakąś wartość albo zestaw wartości. Wyobraź sobie, że mamy dane na temat studentów. Zmienną może być np. Wiek albo Wynik Egzaminu.
Zmienne dzielimy na zmienne zależne oraz niezależne. W trakcie eksperymentu albo badania, sprawdzamy jaki jest wpływ zmiennej niezależnej na wartość zmiennej zależnej.
Wyobraź sobie, że badamy wpływ wieku studenta na wynik egzaminu. Wiek jest zmienną niezależną. A my chcemy sprawdzić, jak ten wiek wpływa na wynik czyli na zmienną zależną.
Zmienne mogą być:
Więcej informacji na temat znaczenia zmiennych ilościowych oraz jakościowych, znajdziesz w podlinkowanym artykule.
Mamy trzy podstawowe miary, pokazują nam jakie wartości dominują, albo jakie wartości tworzą “środek” zestawu danych.
Ta grupa miar, pokazuje jak bardzo dane są rozproszone w stosunku do wybranej miary centralnej.
Korelacja to miara związku pomiędzy dwiema zmiennymi.
Czy więcej czasu spędzonego na nauce jest związane z lepszymi wynikami testu? Jeśli tak, to korelacja jest dodatnia. Jeśli z kolei większa ilość czasu nauki skutkuje gorszymi wynikami, to mamy korelację ujemną.
Analizę rozpoczynamy od oczyszczenia oraz uporządkowania danych. Może to obejmować następujące czynności:
Ta technika pozwala nam ogólnie podsumować dane i zbadać ich główne charakterystyki. Celem jest lepsze zrozumienie zbioru danych, zbadanie relacji oraz struktury. Często obejmuje to np. obliczenie średniej wartości, analizowanie najważniejszych zmiennych itp.
Nic nie przemawia tak dobrze, jak wizualna prezentacja danych w formie wykresu. Warto poznać główne rodzaje wykresów.
Regresja to technika statystyczna, która pozwala przewidzieć wartość jednej zmiennej, na podstawie innej zmiennej. Najczęściej spotykaną odmianą, jest regresja liniowa.
Regresja to potężne narzędzie używane m.in do prognozowania sprzedaży w biznesie, do prognozowania trendów w ekonomii, w medycynie, naukach społecznych i wielu innych dziedzinach.
Analiza danych to bardzo ważna i obszerna dziedzina. W artykule mogliśmy pokazać zaledwie sam początek - najważniejsze pojęcia i techniki. Tworzą one absolutny fundament tej niezwykle fascynującej dziedziny.