Dane – powrót do korzeni

Data: 2019-09-09
Autor: Sebastian Konkol
Dane – powrót do korzeni

Skuteczne działanie musi cechować celowość. Sfera danych staje się coraz bardziej złożona, przez co zachowanie celowości i skuteczności w tych nowych warunkach staje się często poważnym wyzwaniem. Wszak operujemy na danych nie po to, żeby mieć raport. Zdecydowanie nie! Na danych operujemy po to, żeby rutynowo podejmować w codziennych działaniach operacyjnych trafniejsze decyzje i robić to szybciej. Wiedza i zrozumienie danych to krok do celu, a nie cel sam w sobie – tak samo, jak ze zrozumienia reguł rządzących giełdą nic nie wynika, a wynika dopiero z zastosowania tej wiedzy.

Wiedza o mechanizmach giełdy może być różnie użyta – jedni grają na giełdzie, inni piszą o tym książki. Wzrost złożoności zagadnień danych ujawniający się w wielu wymiarach (m.in. wolumenu, zmienności i tempa zachodzenia tych procesów, zmiany struktur danych i ich form) staje się zagadnieniem na tyle poważnym, że zachowanie celowości i skuteczności w tej sferze wymaga odpowiedniej dyscypliny. Wyjaśnię to na kilku przykładach.

Plaga fake news zmusza do wzmacniania mechanizmów weryfikacji tego, co widzimy i słyszymy. W praktyce komunikacji w firmach mamy często do czynienia z podobnym fenomenem. Obserwując praktyki raportowania w niektórych firmach odnoszę wręcz wrażenie, że fake news powstało właśnie na gruncie komunikacji korporacyjnej. Wszelkie raportowanie powinno być traktowane trochę w kategoriach fake news. Musimy umieć oceniać, na ile wiarygodność przygotowywanych danych przystaje do celu ich użycia – i to w całym procesie, od określenia oczekiwań „raportowych”, przez przygotowanie „raportu”, aż po wysnucie wniosków i ich wdrożenie. We współczesnych warunkach nie ma biznesowo wartościowych danych w pełni absolutnie wiarygodnych, więc musimy wdrożyć mechanizmy weryfikacji wniosków wyciąganych z posiadanych danych, oceny poziomu wiarygodności danych i ufności wniosków – wszystko w odniesieniu do wagi stawianych celów decyzyjnych, w których podjęciu mają pomóc przygotowywane dane.

W konsekwencji eksplozji danych, współczesne operowanie danymi coraz częściej opiera się o wyniki interpretacji danych, a nie o same dane – coraz więcej działań, siłą rzeczy, przenosi się ze sfery danych do sfery „metadanych”. Używamy narzędzi uczenia maszynowego i inteligencji obliczeniowej do interpretacji pisma, obrazów, dźwięków, odnajdywania schematów i wzorców, budowania zrozumienia zachodzących procesów na podstawie ich objawów zapisanych w danych. Musimy to robić, bo – ze względu na wolumen danych i zróżnicowanie ich form – bezpośrednie operowanie danymi wymyka się percepcji człowieka w czasie dostępnym dla dokonania tej interpretacji. Wszystkie te operacje służą właśnie temu, aby sprowadzić dane do wiedzy nadającej się do bezpośredniego wykorzystania przez człowieka. Na ML/DL/AI proponowałbym patrzeć w ten właśnie sposób – jako narzędzie do wydobycia prostych informacji z chaosu danych. Są to niewątpliwie narzędzia o dużym potencjale wydobywania informacji wymaganych do podejmowania decyzji, a ich dobór powinien być podporządkowany celom skuteczności i efektywności ich użycia, dobrze określonym i możliwym do obiektywnego zmierzenia wartości efektów.

Eksperci od uczenia maszynowego twierdzą, że ML (a nawet całość AI) to zmiana paradygmatu tworzenia rozwiązań informatycznych, gdzie miejsce kodu programu zajmuje model maszynowy – zamiast określanych kodem programu reguł określających co zrobić w odpowiedzi na określone sygnały wejściowe (w nadziei uzyskania określonego zachowania wyjściowego) pojawia się model, którego tworzenie opiera się na wskazaniu sygnałów wejściowych i oczekiwanego zachowania wyjściowego (z nadzieją, że przyszłość będzie analogiczna do przeszłości). Na drodze zmiany paradygmatu jesteśmy na tyle wcześnie, że przytłaczająca większość użytkowników postrzega ML jako swego rodzaju magię, często pokładając bezkrytyczną wiarę w jej skuteczność. Choć to duże uproszczenie, esencja ML polega na stacjonarności związku między sygnałami wejściowymi a zachowaniem wyjściowym – opiera się o znajdowanie korelacji między historycznym wejściem a wyjściem, aby w przyszłości na takie wejście zareagować tak, jak za poprawne uznane zostało to historyczne. Pędząc więc ku tej magicznej technologii wyliczeń nie zapominajmy o silnej uznaniowości wywieranej przez tzw. Data Scientists w procesach tworzenia modeli (dobór zmiennych, danych uczących, testujących i walidacyjnych, siła czynionych założeń, wybór algorytmów, struktur sieci i całej reszty), o fundamentach statystyki (sprzężenie zwrotne efektów działania modelu, konieczność posiadania grup kontrolnych, wpływ zmian w otoczeniu na stacjonarność predykcji) oraz nowych praktyk będących konsekwencją zmiany paradygmatu (konieczność dokonywania korekt modeli, wdrożenia rutynowej zdolności do testowanie hipotez, weryfikacji jakości danych  wejściowych i skuteczności predykcji modelu). W końcu zasadniczą zmianą paradygmatu jest prosty fakt, że model może się mylić, podczas gdy deterministyczny komputer się nie myli wykonując program w zawsze taki sam sposób.

Czas więc na powrót do korzeni – ustalenie nie tyle „parku maszynowego” operowania na danych, co celu prowadzenia tych działań i świadomości uwarunkowań. Wydaje się, że przez całkiem długi jeszcze czas celem „działań na danych” będzie automatyzacja procesów dla podniesienia ich efektywności oraz podniesienie trafności decyzji na podstawie lepszych danych – wiarygodniejszych, szybciej dostępnych, poprawniej i pełniej rozumianych, także w wymiarze wiarygodności i ufności. Im szybciej chcemy coś wiedzieć, tym pewniejsze, wiarygodniejsze muszą być dane, a związek musi być bezpośredni – nie po to, żeby móc „operować na danych”, ale żeby móc rozwiązywać konkretne dylematy biznesowe i podejmować skuteczne decyzje dobre dla biznesu.

Pozostaw komentarz