BLACK WEEKS DO -60%     |        7-24 listopada     |        + dodatkowe -10% dla zamówień od 150 zł

close
Cart icon
User menu icon
User icon
Skontaktuj się z nami:
+48 888-916-333
Lightbulb icon
Jak to działa?
FAQ icon
FAQ
Contact icon
Kontakt
Terms of service icon
Regulamin zakupów
Privacy policy icon
Polityka prywatności
Pozna kluczowe pojęcia związane z big dataPozna kluczowe pojęcia związane z big data

Co to jest Big Data?

Big Data to wielkie i zróżnicowane zbiory danych. Są one tak obszerne, że tradycyjne metody przetwarzania oraz przechowywania danych, nie są w stanie sobie z nimi poradzić. Analiza takich zbiorów danych jest trudna, ale jednocześnie może być bardzo wartościowa. Może pomóc nam w odkryciu nowych zależności i schematów, a to z kolei, pomaga nam podejmować lepsze decyzje.

Zbiory danych Big Data są takie wielkie, że ich rozmiary określa się czasem w petabajtach albo zettabajtach. Relacyjne bazy SQL mają trudności z obsługą Big Data bo są  zoptymalizowane do pracy z uporządkowanymi danymi o stosunkowo małej skali, podczas gdy Big Data obejmuje ogromne, często niestrukturalne zbiory informacji (np. zdjęcia, teksty, multimedia). Do tego jeszcze dochodzą inne problemy:

  • Skalowanie relacyjnych baz danych w poziomie (dodawanie więcej serwerów) jest trudne i kosztowne. 
  • Tradycyjne bazy nie są zaprojektowane do przetwarzania danych w czasie rzeczywistym na dużą skalę. A to jest akurat bardzo istotne w Big Data.

Big Data - historia i teoria

Określenie Big Data pojawiło się w latach 90tych i oznaczało obszerne zbiory danych, których nie da się przetwarzać w tradycyjny sposób. Dzisiaj używamy trzech podstawowych atrybutów Big Data. Mówimy czasem o tzw. “Trzech V”.

  • Volume (Wolumen) - Ogromna ilość danych.
  • Velocity (Prędkość) - W Big Data ważna jest także szybkość przetwarzania danych. Często są to systemy, które muszą błyskawicznie przeanalizować dużą ilość informacji.
  • Variety (Różnorodność) - Big Data obejmuje bardzo różnorodne źródła danych.

Czyli mamy dużą ilość danych, te dane muszą być szybko przetwarzane i pochodzą z różnych zródeł bez jednego schematu. Z czasem doszły dwie kolejne literki V

  • Variability – Zmienność (dane bardzo często się zmieniają)
  • Complexity – Żłożoność (dane mogą mieć bardzo skomplikowaną strukturę)

Gdzie używa się Big Data?

Handel Internetowy

Duże sklepy np. Amazon czy Ebay, wykorzystują Big Data do personalizacji zakupów, rekomendując produkty na podstawie wcześniejszych zakupów, przeglądanych produktów oraz zachowań innych użytkowników.

Media Społecznościowe

Facebook i Twitter analizują miliardy interakcji użytkowników, aby dostarczać spersonalizowane treści, reklamy oraz analizować nastroje społeczne.

Finanse

Banki analizują duże ilości danych, aby automatycznie oceniać ryzyko kredytowe.

Nauka

Big Data jest także obecne w wielu dziedzinach nauki np. w astronomii używamy Big Data do przetwarzania i analizy zdjęć z teleskopów.

Logistyka

Duże firmy transportowe używają Big Data do planowania optymalnej trasy i do przewidywania opóźnień.

Zawody i specjalizacje w Big Data

Big Data to bardzo szeroki temat, w którym znajdziemy wiele zawodów wymagających specyficznych umiejętności.

Data Scientist (Naukowiec danych)

Analizuje dane, aby odkryć w nich nowe wzorce i zależności. Potrzebuje umiejętności programowania np. w języku R albo Python. Musi też znać się na statystyce i wizualizacji danych.

Data Engineer (Inżynier danych)

Projektuje i rozwija infrastrukturę niezbędną do zbierania danych. Musi mieć wiedzę na temat systemów baz danych i narzędzi do zbierania informacji.

Data Analyst (Analityk danych)

Analizuje dane, wyciąga wnioski i tworzy wizualizacje (wykresy). Musi znać się na analizie danych i znać niezbędne do tego narzędzia np. Excel czy Tableau.

Big Data Architect (Architekt Big Data)

Projektuje i planuje architekturę systemów Big Data. Dokonuje wyboru właściwej technologii oraz integruje w całość różne systemy.

Machine Learning Engineer (Inżynier uczenia maszynowego)

Tworzy modele uczenia maszynowego. Musi posiadać umiejętność programowania i znać narzędzia uczenia maszynowego (np. TensorFlow, PyTorch).

Business Intelligence Analyst (Analityk BI)

Analizuje dane biznesowe, tworzy raporty i udostępnia je osobom decyzyjnym.

Pamiętaj, że granice pomiędzy tymi specjalizacjami są dość płynne. W mniejszych zespołach, jedna osoba będzie czasami odpowiedzialna za więcej niż jeden obszar działania. Mamy nadzieję, że ta część artykułu dała Ci jakieś ogólne pojęcie na temat umiejętności niezbędnych do pracy w Big Data.

Zarobki w Big Data

Podobnie jak specjalizacje, tak i zarobki są bardzo zróżnicowane. Będą one się bardzo różnić w zależności od firmy i doświadczenia pracownika. Popatrzmy więc na kilka przykładów.

  • Data Scientist może liczyć na kwoty w zakresie 10000 zł do 20000 zł (brutto).
  • Analityk Danych może liczyć na kwoty w zakresie od 7000 zł do 16000 zł.

Narzędzia Big Data

Warto też wspomnieć o najczęściej używanych narzędziach w Big Data. Trochę już o tym zresztą mówiliśmy opisując najbardziej popularne specjalizacje.

  • Przechowywanie danych: Amazon S3, Hadoop HDFS
  • Bazy danych: SQL Server, MongoDB, Cassandra
  • Przetwarzanie danych: Apache Spark
  • Analiza danych i uczenie maszynowe: TensorFlow, Scikit-learn
  • Wizualizacja danych: Power BI, Tableau

To tylko wybrane przykłady. Każda specjalizacja ma swoje typowe narzędzia. Ta dziedzina bardzo szybko się rozwija i nowe narzędzia cały czas powstają.

Wyzwania związane z Big Data

Jak już wiesz, Big Data to duże, zróżnicowane i dynamiczne zbiory danych. Przetwarzanie takich zbiorów wiąże się z wieloma wyzwaniami natury technicznej, organizacyjnej oraz prawnej.

  • Znalezienie specjalistów z doświadczeniem w przetwarzaniu takich danych jest dla wielu firm sporym problemem.
  • Big Data często zawiera dane osobowe. Przetwarzanie takich danych musi być więc zgodne z obowiązującymi regulacjami (RODO itp.)
  • Infrastruktura umożliwiająca przetwarzanie dużych zbiorów danych jest bardzo kosztowna,
  • Istnieje ryzyko wyciągnięcia niewłaściwych wniosków na podstawie danych. Zwłaszcza jeśli zostały one zebrane i przetworzone w niewłaściwy sposób.
  • Są też problemy natury etycznej np. bardzo ważny problem prywatności naszych danych. Skąd mamy wiedzieć, co dana firma zrobi z naszymi danymi?

Podsumowanie

Big Data to zbieranie i przetwarzanie dużej ilości danych, których nie da się przetwarzać za pomocą tradycyjnych narzędzi. Dzięki Big Data możemy analizować informacje i wyciągać nowe, odkrywcze wnioski. To bardzo rozwojowa dziedzina, która ma wiele zastosowań i wiele specjalizacji. Z Big Data wiążą się też określone problemy związane z kosztami, trudnościami technicznymi oraz etyką przetwarzania wrażliwych danych.