Big Data, fetysze i przełom cywilizacyjny

05.01.2015

 

Big Data nabiera rozpędu w Polsce. Już 4 lata temu z zainteresowaniem obserwowałem jak za oceanem temat elektryzuje coraz szersze kręgi przedsiębiorców, start-up’owców i naukowców. Od tamtego czasu technologie i rozwiązania służące do inteligentnej analizy dużych zbiorów danych potaniały, a inwazja urządzeń mobilnych przyczyniła się do gigantycznego wzrostu liczby danych, które produkujemy każdego dnia. Czekałem aż ta fala przyjdzie do Polski. Dwa lata temu rozpocząłem pracę (być może jako pierwsza osoba w Polsce) na stanowisku Main Data Scientist, a rok temu wraz z kolegami z uczelni założyliśmy firmę oferującą usługi związane z Big Data dla polskich firm. Przez tych kilka ostatnich lat utwierdziłem się w przekonaniu, że przyszłość branży Internetowej (i nie tylko jej) jest związana z wykorzystaniem metod sztucznej inteligencji do analizy dużych zbiorów danych.

Jednak co tak naprawdę znaczy hasło „Big Data” — często powtarzane i wybierane na główny motyw wielu konferencji. W moim przekonaniu istnieją co najmniej 3 znaczenia pojęcia „Big Data”:

  1. W pierwszym znaczeniu Big Data to po prostu bliżej niesprecyzowana mgławica haseł i obietnic. W takim ujęciu Big Data to fetysz, czyli przedmiot magiczny otoczony kultem. Big Data ma zwiększyć w jakiś magiczny sposób nasze zyski i sprawić, że będziemy prowadzili klienta po lejku konwersyjnym jak po sznurku. Takie Big Data fajnie jest mieć w swojej firmie, bo oznacza, że jesteśmy nowocześni i innowacyjni. Nie wiadomo o co do końca chodzi, ale trzeba mieć! Big Data fetyszyzujące pełni głównie funkcje marketingowe i ma pozytywnie wpływać na wizerunek organizacji, która wykorzystanie dużych zbiorów danych ma w swoim portfolio. Nic w tym złego ani zaskakującego — każda nowa technologia, zanim na dobre oswoi się z nią biznes, wytwarza wokół siebie kłębowisko niesprecyzowanych i jednocześnie rozdmuchanych  oczekiwań. Ma to swoje odzwierciedlenie chociażby w słynnej krzywej Gartnera.  Takie Big Data ma coś wspólnego z danymi, sztuczną inteligencją i biznesem, jednak natura tych związków jest tutaj drugorzędna, liczy się przede wszystkim oprawa i aura innowacyjności.
  2. W swoim drugim znaczeniu termin „Big Data” dotyczy przede wszystkim zjawisk o charakterze technicznym i ekonomicznym. Big Data często opisuje się za pomocą modelu 3V: volume, velocity, variety – mówi się tu, że współcześnie mamy do czynienia ze zbiorami danych, które jednocześnie mają dużą objętość (volume), są dynamiczne, a więc dość szybko zmieniają się w czasie (velocity) i wreszcie są to dane o różnorodnym charakterze (variety). Wydobycie wartościowej wiedzy z takich dużych, dynamicznych i zróżnicowanych zbiorów wymaga zastosowania technik i metod, których dotąd nie używano w większości organizacji. Może tu np. chodzić o wykorzystanie niestandardowych baz danych, uczenia maszynowego, czy środowisk do prowadzenia obliczeń rozproszonych (np. Hadoop). Są to rozwiązania i metody na które jeszcze parę lat temu mogły sobie pozwolić tylko największe firmy (Google, Amazon, Facebook, LinkedIn etc.). Było je stać na zatrudnianie zespołu naukowców, którzy opracowywali dla nich autorskie rozwiązania. Wówczas Big Data to było coś dla dużych – małe i średnie firmy musiały obejść się smakiem. Dzisiaj sytuacja zasadniczo się zmienia i to jest jeden z kluczowych aspektów ekonomicznych zjawiska Big Data. Rozwiązania informatyczne służące do inteligentnej analizy dużych zbiorów danych na tyle potaniały w ostatnich latach, że mogą sobie na nie pozwolić również firmy, które nie dysponują budżetami opiewającymi na miliony dolarów. Pojawiło się wiele rozwiązań open source, które sprawny zespół Data Science może wykorzystać — niczym klocki — do zbudowania rozwiązań które jeszcze parę lat temu były poza zasięgiem średnich i małych firm. Przed tym nie ma ucieczki: coraz więcej firm będzie wykorzystywać Big Data, bowiem staje się to zwyczajnie opłacalne. Problemem jest raczej deficyt osób, które potrafią przekuwać dostępne dane w zyskowną wiedzę dla firm.
  3. Wreszcie w trzecim znaczeniu Big Data to pewien przełom cywilizacyjny. Kluczowe zmiany w przetwarzaniu i utrwalaniu informacji są związane z przełomami w dziejach ludzkości. Przykładowo upowszechnienie się pisma klinowego 3700 lat p.n.e. w Sumerze stanowi granicę pomiędzy prehistorią, a historią ludzkości. Od tego momentu ludzie potrafili utrwalać informację i jej przekaz nie był już całkowicie uzależniony od stanu pamięci pojedynczych osób. Jednym z symboli końca średniowiecza i wejścia Europy w erę nowożytną jest z kolei upowszechnienie się wynalazku Gutenberga, a więc ruchomej czcionki drukarskiej. Wraz z tym wynalazkiem książki znacząco potaniały, bowiem nie musiały być już ręcznie przepisywane. To z kolei sprawiło, że dostęp do wiedzy stał się łatwiejszy.W latach pięćdziesiątych XX wieku niektórzy sądzili, że wystarczy aby na świecie istniało zaledwie kilka komputerów – przypuszczano, że maszyny liczące mogą być przydatne jedynie dla wojska i naukowców. Szybko okazało się, że to nieprawda. Dzisiaj wypatrujemy momentu, gdy komputerów będzie więcej niż ludzi. Wedle niektórych szacunków wraz z końcem roku 2014 na świecie w użytku będzie około 2 miliardów maszyn stacjonarnych oraz około 2 miliardów urządzeń mobilnych. Zjawisko Big Data w swoim trzecim znaczeniu jest właśnie pokłosiem tej rewolucji informatycznej. Społeczeństwo zostaje osnute nową warstwą informacji cyfrowej, w której utrwala swój własny obraz. Pomyślmy np. o tym jak za 100, 200 lat będą wyglądały lekcje historii. Dzisiaj poznając jakąś epokę sięgamy między innymi do tekstów źródłowych, w których utrwalone są informacje o władcach, czołowych politykach i największych myślicielach danej epoki. Natomiast nasze czasy są utrwalane w cyfrowych smugach, które zostawiamy za sobą w Internecie. Rozdzielczość  tak stworzonego obrazu pozwala na przyjrzenie się losom pojedynczych, niegdyś anonimowych, osób. Na tym między innymi polega zjawisko Big Data – na dostępie do obrazu milionów (miliardów) użytkowników.

Wszelkie przedsięwzięcia biznesowe które nie zareagują przełom tej skali, zwyczajnie nie podołają konkurencji. Jak już powiedziałem, rozwiązania Big Data tanieją i wcześniej, czy później będą wdrażane na każdym poziomie biznesowym – wiedza uzyskana o klientach w drodze analizy ich cyfrowego obrazu będzie dawała firmom przewagę konkurencyjną głównie dzięki automatyzacji wielu procesów oraz  zracjonalizowaniu wydatków. Branża reklamy, w szczególności reklamy internetowej, odczuje na swojej skórze przełom Big Data chyba w największej skali. Podobnie jak Keiichiro Shimada (http://bit.ly/1AQlKxM) uważam, że reklama jaką znamy niebawem przestanie istnieć – Big Data umożliwia masowy przekaz spersonalizowany, a więc dotarcie z komunikatem skomponowanym bardzo indywidulanie do milionów odbiorców. Oczywiście to algorytmy, a nie ludzie, skomponują kilka milionów odpowiednich treść dla kilku milionów odbiorców.