Začnimo pri osnovah – če pogledamo na Wikipedijo in povzamemo definicijo, za Big data (slo. množični podatki, masovni podatki) velja naslednje: termin množični podatki se nanaša na velike količine različnih tipov podatkov, ki jih pridobimo od različnih virov, kot so ljudje, stroji ali senzorji. Gre za informacije z velikega števila različnih področij. Množični podatki lahko vključujejo tudi osebne podatke oz. podatke, ki se nanašajo na posameznika.
Podatki obstajajo od nekdaj. Sam koncept njihovega zbiranja ni nič posebnega ali novega. Se je pa izraz big data pojavil v začetku devetdesetih let prejšnjega stoletja, ko sta se obseg in hitrost pridobivanja podatkov začela zelo hitro povečevati. Danes (no, že nekaj časa) smo v fazi, ko takšnega nabora podatkov ni več mogoče obdelovati s tradicionalnimi metodami obdelave.
Trendi? Zakaj že?
Ali poznate koga, ki nima mobilnega telefona – razen najmlajših seveda? Poznate koga, ki nima niti ene naprave, ki bi bila vseskozi povezana z internetom? Danes se tehnologija razvija s svetlobno hitrostjo, prav tako njena dostopnost. Zato ni nič čudnega, da uporabljamo različne naprave, od majhnih (čip v pametni uri) do velikih (avto), ki imajo eno zelo pomembno lastnost – konstantno so povezane v internet. Vsem tem stvarem pravimo tudi internet stvari (ang. Internet of Things oz. IoT). Razlogi za stalno povezljivost so različni. Najpogosteje gre za to, da programska oprema za pravilno delovanje potrebuje dostop do strežnika ali do drugih naprav. Še pomembnejši razlog, ki nas tudi najbolj zanima, pa je, da velika večina teh naprav s strežniki oz. med sabo izmenjuje različne podatke – v osnovi vsaj podatke o uporabi aplikacije, hkrati pa tudi bolj osebne. Pri npr. tekaški aplikaciji bomo lahko videli, kdaj in kje smo pretekli tistih 5 km, hkrati pa bodo ti podatki lahko vidni tudi drugim uporabnikom iste aplikacije in njenim razvijalcem.
Kako pa je vse zgoraj našteto povezano z big data? Odgovor je v osnovi zelo preprost: kot že omenjeno, velika večina teh t. i. pametnih naprav s strežniki in drugimi napravami izmenjuje goro podatkov. Intel napoveduje, da bo v letu 2020 število pametnih naprav naprav preseglo številko 200 milijard. Ja, prav ste prebrali. V povprečju približno 26 pametnih naprav na osebo. Količina podatkov je in bo torej skoraj nepredstavljiva, hkrati pa tudi hitrost, s katero se podatki pretakajo.
Če v vso to mineštro dodamo še poslovno komponento, pridemo do izbire – ali bomo delali po starem in pustili konkurenci, da izkoristi to goro podatkov in vse, kar se lahko iz njih nauči, ali pa bomo sami tisti, ki bomo skočili na vlak in izkoristili priložnost. Za lažjo predstavo, kaj si lahko obetamo na področju big data in v katero smer bo šel razvoj, so v nadaljevanju opisani pričakovani trendi, pri čemer se osredotočamo na poslovne vidike.
Podatki so povsod
Po podatkih podjetja Raconteur Media smo na svetu že v letu 2019 na dan proizvedli 2,5 eksabajtov podatkov (1 EB = 1018 B). Za boljšo predstavo koliko je to: če bi želeli posneti video klic, ki bi zasedel 1 eksabajt, bi morali začeti s tem klicem pred 237.823 leti. Do leta 2025 naj bi količina dnevno proizvedenih podatkov narasla na 463 eksabajtov.
Vir: Raconteur Media
Količina podatkov nas hočeš nočeš sili v razvoj na različnih področjih, kot so npr. pridobivanje dodatnih znanj zaposlenih (pridobivanje, obdelava in analiza podatkov), razvoj napredne analitike, razvoj različnih orodij ipd. Verjetno bi lahko na tem mestu omenil kar pojem digitalna transformacija, ki bo potrebna v večini podjetij, tudi pri tistih, ki o njej še ne razmišljajo.
Pričakovanja so visoka
V podjetjih se zavedamo, da podatki skrivajo pomembne informacije, ki nam lahko in bodo pomagale do rasti. Lahko govorimo o specifičnih informacijah o svojih strankah, na podlagi katerih lahko razvijemo nove, primernejše produkte in storitve ali izboljšamo stare. Lahko govorimo o specifičnih informacijah o konkurenci ali o trgu, na katerem smo prisotni. Je pa še ogromno drugih. V vsakem primeru nam bodo na novo pridobljene informacije pomagale do izbire primernejših poslovnih ciljev, boljših poslovnih odločitev, večje produktivnosti, boljše uporabniške izkušnje strank ipd.
Da bomo lahko v polnosti izkoristili potencial, ki ga skrivajo podatki, je treba že v tem trenutku razmišljati o takem pristopu. V podjetjih se moramo že zdaj naučiti upravljati z big data, hkrati pa razmišljati o dolgoročni strategiji, kako celotno podjetje transformirati na način, da bodo poslovne odločitve slonele na podatkih. Sam pri tem sicer nikoli ne izključujem zdrave pameti ali pa instinkta, so pa podatki običajno v veliko pomoč.
Analitika “po domače”
Trenutno stanje je takšno, da večina podjetij uporablja več analitičnih rešitev. Kot eno izmed njih lahko navedem orodje Google Analytics za spremljanje spletne analitike. Pogosto uporabljamo različna orodja za različne dele poslovanja in za različne potrebe. To vodi v kaotičnost, kjer na koncu leva roka ne ve, kaj počne desna (in seveda obratno). Še huje, izgubljajo se dragocene informacije, predvsem pa možnost resne analize in pridobivanja podatkovnih uvidov na višjem nivoju znotraj podjetja.
Trend gre v smer modeliranja podatkov in izgradnjo semantičnih modelov, ki bodo za uporabnika zagotavljali eno vstopno točko do vseh podatkov. Dodati je treba seveda še napredno vizualizacijo in poročila. Zaradi količine podatkov pa na koncu ne bo šlo brez strojnega učenja in verjetno tudi rešitev v oblaku.
Največja ovira – integracija podatkov
Že pri prejšnjem trendu omenjamo različna analitična orodja, različne oddelke ipd. Pravzaprav govorimo o podatkovnih silosih, ki so dobri do trenutka, ko hoče npr. nekdo podatke iz svojega silosa združiti s podatki iz drugega. Kar pomeni, da želi podatke iz dveh različnih podatkovnih virov. Ker podjetja uporabljamo tudi namenska analitična orodja, je iluzorno pričakovati, da bomo vsa zavrgli in se odločili samo za eno splošno. Hkrati pa se verjetno ne moremo v nedogled ukvarjati z izvozi in pripravo podatkov iz različnih virov, da jih sploh pripravimo za analizo. Zato gre trend v smeri načrtovanja in razvoja abstrakcijskega nivoja, ki bo omogočal obdelavo in analizo podatkov na skupnem, višjem nivoju, ne glede na njihov vir. Na ta način bomo lahko obdržali trenutno arhitekturo, za uporabnika pa bo videti, kot da dela na enotni bazi podatkov.
Uporaba oblačnih rešitev je v porastu
Kljub pomislekom o varnosti podatkov se uporablja vedno več oblačnih rešitev. Zakaj? Vidim nekaj pomembnejših razlogov:
- varnost pri ponudnikih oblačnih storitev je pogosto celo boljša kot v podjetjih. Specifike so namreč že tako posebne, da potrebujemo znanje, ki ga posameznik težko pridobi, če ni specializiran za točno določeno rešitev. Pri posameznih ponudnikih so večje tudi ekipe strokovnjakov, ki znajo poskrbeti, da je vse lepo in prav.
- Infrastruktura je redno vzdrževana, tako z vidika strojne, kot tudi programske opreme, kar zopet vpliva na varnost.
- Če pogledamo prejšnji dve točki, je strošek obojega v lastni režiji pogosto enostavno previsok in se ne splača, kar v preteklosti ni nujno držalo. Z razmahom računalništva v oblaku so se pocenile tudi storitve v tem segmentu, to pa pomeni večjo dostopnost tudi za podjetja. Vložek v lastno infrastrukturo enostavno postaja vedno težje opravičljiv.
- Še en pomemben razlog za tak trend je skalabilnost. Ponudniki s svojimi orodji omogočajo presenetljivo hitro prilagajanje infrastrukture. Za to običajno poskrbijo grafični vmesniki, ki npr. omogočajo, da dodamo podatkovno bazo z vsemi nastavitvami z nekaj kliki. Podobno je z virtualnim okoljem. Ali pa menjavo podatkovnega diska.
Trenutno smo v nekem obdobju uporabe hibridnega modela (del podatkov v oblaku, del v podjetju), pričakujemo pa, da bo odstotek uporabe oblačnih rešitev strmo rasel.
Varnost ostaja prioriteta
Kjer se ukvarjamo s podatki, je varnost na prvem mestu (ali pa bi vsaj morala biti). Sploh ko gre za osebne podatke. Pri tem ne govorimo samo o dostopu do podatkov, ampak recimo tudi o formatih nestrukturiranih podatkov (slike, videi ipd.).
Vse pogosteje se bo dogajalo, da nam ne bo dovolj, da bo neko orodje omogočalo samo dostop z geslom, ampak bomo želeli npr. uporabljati dvostopenjsko avtentikacijo, omejen dostop glede na vlogo uporabnika ali pa recimo varnostna pravila na nivoju posameznega podatka v podatkovni bazi.
Hitrost in agilnost sta ključni
Če bomo želeli ostati konkurenčni, se bomo morali naučiti delati s podatki. Če se ne bomo sami, se bo pa konkurenca.
Druga hitrostna komponenta pa je agilnost in prilagajanje spremembam. Zaradi količine podatkov in hitrosti njihovega pridobivanja bo treba procese čim bolj avtomatizirati. Sploh če bomo želeli obdelavo in odločanje v realnem času. Pri tem ne pozabite na agregiranje podatkov iz različnih podatkovnih virov.
Z vidika uporabe in uporabniške izkušnje je hitrost tako rekoč najpomembnejša – to je pomemben element, ki ga uporabnik opazi, redko pa si predstavlja, kaj vse je potrebno postoriti v ozadju.
So podatki sploh kaj vredni?
Osnovni namen analitike je pridobiti nove informacije, ki pomagajo k boljšim poslovnim odločitvam. Še vedno se dogaja, da se podjetja (ali njihova vodstva) nekako upirajo uporabi podatkov ali sprejemanju odločitev na podlagi informacij, ki jih iz podatkov dobijo. Razlogi so lahko bolj objektivne narave (npr. neprimerna struktura podjetja, neprimerni procesi v podjetju), lahko pa bolj subjektivne (npr. strah zaposlenih pred spremembami). V vsakem primeru gre za podcenjevanje dejstva, da so podatki pomembni in da brez njih ne bomo konkurenčni drugim.
Podjetja, ki v podatkih vidijo dodano vrednost, bodo v prihodnosti temu prilagodila celotno svoje delovanje, cilje in procese. Pri tem bodo razmišljala tudi izven okvirjev – poskušala bodo z novimi orodji, razvijala svoje in veliko testirala.
Intel napoveduje, da bo v letu 2020 število pametnih naprav preseglo številko 200 milijard.
Začne se pri posameznikih
Če želimo, da se podjetja lažje in hitreje prilagodijo novim trendom, bomo morali zelo hitro začeti vključevati zaposlene. Pojavlja se namreč potreba po tem, da vsak posameznik najprej sprejme dejstvo, da bo sprejemanje odločitev na podlagi podatkov postala stalnica, upam si trditi, da celo tehtnica med konkurenčnimi in nekonkurenčnimi podjetji. Pri odločitvah mislim na odločitve na različnih nivojih in vseh oddelkih, od višjih (npr. kakšne prihodke lahko pričakujemo v podjetju prihodnje leto; kaj je treba izboljšati pri neki storitvi, da ne bomo izgubljali strank) do nižjih (kateri oglas je boljši za specifično oglasno kampanjo; ali dejstvo, da vsak teden naročimo košarico sadja za zaposlene, vpliva na njihovo zadovoljstvo). Zgled za to mora biti vodstvo podjetja.
Prehod bo lažji, če bomo znali izbrati ali razviti prava orodja, ki se ne bodo izkazala samo z različnimi funkcionalnostmi, pač pa tudi z uporabnostjo. Eden od trendov, ki se pojavlja na tem področju, je »samopostrežna analitika« v smislu, da so orodja zmogljiva, hkrati pa uporabna in intuitivna. Na ta način se razbremenijo tudi programerji in IT sektor, saj ni potrebe po konstantni podpori.
Na tem mestu s ponosom ugotavljam, da v Red Orbitu tečemo v pravo smer. Že pred leti smo namreč začeli s spodbujanjem zaposlenih, da so začeli razvijati kompetence v smeri obdelave, analize in uporabe podatkov. Upam si trditi, da v naši ekipi ni posameznika, ki bi pozabil na podatke in ne bi poznal njihove vrednosti.
Na koncu vas vabim, da delite svoja videnja in svoja mnenja, predvsem o tem, kaj pričakujete na področju big data v prihodnosti. Hkrati vas iz čiste radovednosti prosim, da po svoji laični ali profesionalni presoji v komentarje zapišete, kakšen prevod angleške besedne zveze big data se vam zdi v slovenščini najbolj primeren. Standardiziranega prevoda namreč še nisem srečal, mogoče ste ga vi?