Wbrew pozorom praca nad projektem AI nie zaczyna się wtedy, gdy developer siada przed komputerem, lecz już na etapie gromadzenia danych. To zbiór informacji jest fundamentem konkretnego narzędzia, zatem prawidłowe przeprowadzenie tego procesu ma kluczowe znaczenie dla powodzenia przedsięwzięcia. Znając pułapki czyhające na tej drodze uważamy, że jest to odpowiedni moment na nawiązanie współpracy z firmami takimi, jak Numlabs.
Cena za błędy
Zasada jest prosta – wyjściowe rezultaty działania każdego systemu opartego na sztucznej inteligencji zależą od jakości danych wejściowych. Niestety, jak pokazują nasze doświadczenia, o tej prawidłowości pamięta niewielu. Błędy popełnione w fazie zbierania, opisywania i obrabiania danych to jeden z najczęstszych problemów, z jakimi styka się nasz zespół przystępując do pracy nad zleconym projektem. Powody mogą być różne: od kumulowania nieodpowiednich danych, przez zapisywanie ich w mało funkcjonalnych formatach, po niekompetencję podwykonawców, którym powierzono zadanie. Efekty są zaś zawsze takie same – większe koszty projektu, wydłużenie czasu jego realizacji i niezadowalające wyniki. Jak może to wyglądać? Oto dwa przykłady:
1. Klient zatrudnił podwykonawcę do ręcznej transkrypcji dużego pliku danych. W efekcie dostarczono mu arkusze kalkulacyjne, których elementem był czas zapisany jako hh:mm:ss.sss. Ze względu na manualny charakter wykonanej pracy, dane nie były wolne od typowo ludzkich błędów (na przykład pomyłka przy wpisywaniu wartości). Nieprawidłowość ujawniona zostaje dopiero przez zespół zatrudniony do opracowania narzędzia AI. Przed przystąpieniem do właściwego zadania deweloperzy muszą więc najpierw przeanalizować zgromadzone przez podwykonawcę dane w celu zdiagnozowania problemu, a następnie zastosować lepsze narzędzie transkrypcji, lub przynajmniej takie, które odnajduje i zaznacza błędy w arkuszu, co ułatwiłoby naniesienie poprawek. Ostatecznie finalizacja opóźnia się.
2. Inny klient zatrudnia specjalistów branży AI do pomocy przy rozbudowie zespołu odpowiedzialnego za szeroko pojęty wzrost i kulturę eksperymentacji. Deweloperzy podejmują współpracę z dobrze zarządzanym i zaangażowanym w projekt team'em. Na początku więc nic nie zwiastuje komplikacji. Błędy dają o sobie znać dopiero pod koniec prac. Audyt posiadanych rozwiązań odpowiedzialnych za przełączanie eksperymentów i zbieranie danych wykazuje, że przyczyna leży u podstaw projektu – w danych. Wewnętrzny zespół nastawiony był bowiem na inne zadanie, zaś zbieranie danych traktował jedynie jako poboczną część ich zadania. Koszty projektu znacznie wzrastają, gdyż błędy u podstaw zdeterminowały kształt całości.
“Obrońca danych” od początku do końca
Podobnych problemów można jednak w stosunkowo prosty sposób uniknąć. Kłopoty w rodzaju tych opisanych powyżej wynikają z suboptymalnej organizacji projektu. Chodzi o podejście, które zakłada skorzystanie z rozwiązań odpowiadających na większość, lecz nie wszystkie wyzwania projektu. Dane użyteczne z punktu widzenia uczenia maszynowego są często - jak w drugim z przytoczonych przykładów - produktem ubocznym najważniejszych funkcjonalności narzędzia. Zazwyczaj więc pracujący nad nim zespół nie skupia się na danych gromadzonych pod uczenie systemu AI i nie ma kompetencji w zakresie machine learningu. Tym samym zbiory informacji są w zasadzie pozbawione interesariusza, który służyłby wsparciem w podejmowaniu decyzji przez Product Ownera i developerów oraz naświetlał możliwe konsekwencje działań proponowanych przez osoby niezwiązane z ML. Taka postawa czyni projekt podatnym na błędy i naraża całe przedsięwzięcie na niepowodzenie.
To właśnie na tym początkowym etapie do pracy powinien przystąpić “Obrońca danych” - specjalista bądź ich zespół zorientowany na przyszłe działanie w machine learningu. Obecny przy projekcie od samego początku, mógłby stworzyć podstawy systemu zbierania danych, który integrowałby etap akumulowania informacji i późniejszą z nimi pracę. Korzyść dla klienta jest jaskrawo widoczna - rozwiązanie zabezpiecza przed ryzykiem wystąpienia problemów opóźniających produkcję, a przynajmniej daje możliwość późniejszego modyfikowania projektu pod kątem uczenia maszynowego. Jak zatem widać, obecność "obrońcy danych" przez cały projekt, a nie tylko w ostatniej jego fazie, jest kluczowa.
Nasze doświadczenie w twoim projekcie
W Numlabs specjalizujemy się w przygotowywaniu praktycznych narzędzi wykorzystujących sztuczną inteligencję. Przystępując do pracy nad projektem wnosimy zatem know-how dotyczące Machine Learningu. Jak najwcześniejsze włączenie nas w przedsięwzięcie pozwoli na zminimalizowanie niebezpieczeństw oraz obniżenie kosztów związanych z przetwarzaniem danych na potrzeby ML. Mówiąc krótko - zapewniamy efektywniejszą realizację projektu. Dbamy przy tym o wygodę pracy z narzędziem, gdyż z doświadczenia wiemy, jak ważne dla pracowników jest user experience i ergonomia. Współpraca z Numlabs polegałaby przede wszystkim na konsultowaniu projektu, wczesnej ocenie zbieranych danych i ulepszaniu produktu tak, by zadowalał zarówno użytkownika, jak i tworzący go zespół. Chcesz skorzystać z naszego doświadczenia? Skontaktuj się z nami i poznaj szczegóły.