Samochody autonomiczne są poddawane diecie danych

Rosnące floty, bardziej zaawansowane czujniki i bardziej napięte budżety zmuszają deweloperów pojazdów autonomicznych do bardziej selektywnego podejścia do tego, co pozostaje na ich serwerach.

Dla deweloperów samochodów autonomicznych, podobnie jak dla wielu użytkowników iPhone’ów i Google Photos, rosnący koszt przechowywania plików w chmurze stał się uciążliwym problemem.

Na początku firmy zajmujące się samochodami autonomicznymi stosowały podejście siłowe, aby zmaksymalizować przebieg i dane.

Mogliśmy wziąć wszystkie dane, które samochody widziały na przestrzeni czasu, setki tysięcy pieszych, rowerzystów i pojazdów, i stworzyć z tego model, jak oczekujemy, że się poruszają
— Chris Urmson, wczesny lider projektu autonomicznych samochodów Google w wystąpieniu TED w 2015 r.

Urmson mówił w czasach, gdy prototypy pojazdów autonomicznych były stosunkowo nieliczne, a garstka firm testujących je mogła sobie pozwolić na zachowanie prawie każdego punktu danych, który zebrały z drogi. Ale prawie dekadę później projekt Google i wiele innych znacznie opóźniły się w stosunku do własnych prognoz dotyczących harmonogramu sukcesu. Rosnące floty, bardziej zaawansowane czujniki i bardziej napięte budżety zmuszają firmy pracujące nad usługami robotaxi i robofreight do bardziej selektywnego podejścia do tego, co pozostaje na ich serwerach.

Nowo odkryta powściągliwość jest oznaką dojrzałości dla branży, która zaczęła przewozić ludzi i towary bez kierowców w kilku miastach, gdy pogoda jest dobra, a ulice są stosunkowo puste, ale jeszcze nie generuje zysków. Określenie, które dane zachować, a które odrzucić, może być kluczem do rozszerzenia usług na więcej lokalizacji, gdy firmy szkolą swoją technologię na niuansach nowych obszarów.

„Posiadanie mnóstwa danych jest wartościowe do pewnego stopnia” — mówi Andrew Chatham, który nadzoruje infrastrukturę komputerową w Waymo, spin-offie technologii bezzałogowej Google. „Ale w pewnym momencie ważniejsze jest posiadanie bardziej interesujących danych”. Rywale, w tym Aurora, Cruise, Motional i TuSimple, również uważniej przyglądają się swoim zasobom danych.

Trend ten może się rozprzestrzenić w czasie, gdy projekty bezzałogowe są pod presją kontrolowania wydatków po latach strat. Firmy, począwszy od General Motors, które posiada usługę robotaxi Cruise, po właściciela Waymo, Alphabet, są w trakcie szeroko zakrojonych cięć kosztów w tym roku – w tym masowych zwolnień – ponieważ sprzedaż w podstawowych działalnościach spowalnia z powodu niestabilnej gospodarki. Tymczasem tanie i łatwe finansowanie wysycha dla startupów pojazdów autonomicznych.

Naturalnie, wszystkie wydatki są poddawane kontroli. Amazon Web Services pobiera około 2 centów za gigabajt miesięcznie za swoją popularną usługę przechowywania w chmurze S3, co szybko się sumuje w projektach intensywnie korzystających z danych, a w niektórych przypadkach podwaja się, gdy uwzględnia się koszty przepustowości do przesyłania danych. Intel oszacował w 2016 roku, że każdy pojazd autonomiczny generowałby 4000 gigabajtów danych dziennie, co kosztowałoby około 350 000 dolarów rocznie przy obecnych cenach Amazona.

Wyrzucanie danych może brzmieć perwersyjnie dla branży technologicznej. Firmy takie jak Google i Meta od dawna były wyśmiewane, a nawet karane za zbieranie wszystkiego, co mogą — w tym lokalizacji użytkowników, kliknięć i wyszukiwań — z myślą, że lepsze zrozumienie zachowań prowadzi do lepiej zaprojektowanych usług. Mantra ta stworzyła kulturę zbierania danych mimo braku wyraźnego zastosowania. Na przykład dyrektor generalny Google Sundar Pichai przyznał w 2019 roku, że tylko „mały podzbiór danych pomaga w serwowaniu reklam”.

Deweloperzy samochodów autonomicznych początkowo mieli podobną filozofię maksymalizacji danych. Generują wideo z zestawów kamer wewnątrz i na zewnątrz pojazdów, nagrania audio z mikrofonów, chmury punktów mapujące obiekty w przestrzeni z lidarów i radarów, odczyty diagnostyczne z części pojazdów, odczyty GPS i wiele więcej.

Niektórzy zakładali, że im więcej danych zbierają, tym mądrzejszy może stać się system autonomiczny, mówi Brady Wang, który bada technologie motoryzacyjne w firmie badawczej Counterpoint. Ale podejście to nie zawsze działało, ponieważ objętość i złożoność danych sprawiały, że były trudne do zorganizowania i zrozumienia, mówi Wang.

W ostatnich latach firmy zaczęły przechowywać tylko dane uznawane za szczególnie przydatne i skupiły się również na ich dobrej organizacji. Praktycznie rzecz biorąc, dane z jazdy w słoneczny dzień na pustyni przez godzinę mogą zacząć wyglądać na powtarzalne, więc przydatność ich przechowywania została poddana w wątpliwość.

Ograniczenia nie są całkowicie nowe. Chatham, wybitny inżynier oprogramowania w Waymo, mówi, że uzyskanie dostępu do większej ilości pamięci cyfrowej nie było proste, gdy firma była małym projektem w Google ponad dekadę temu, a on był jednoosobowym zespołem. Dane, które nie miały wyraźnego zastosowania, były usuwane, jak nagrania nieudanych manewrów bezzałogowych. „Gdybyśmy traktowali pamięć jako nieskończoną, koszty byłyby astronomiczne” – mówi Chatham.

Po tym, jak Waymo stało się niezależną firmą z znaczącymi inwestycjami zewnętrznymi, projekt swobodniej korzystał z pamięci danych. Na przykład, gdy Waymo zaczęło testować Jaguara I-Pace pod koniec 2019 roku, crossover SUV był wyposażony w bardziej zaawansowane czujniki, które generowały większy strumień informacji – do tego stopnia, że pełne logi z godziny jazdy równały się ponad 1100 gigabajtów, co wystarczyłoby na zapełnienie 240 płyt DVD. Waymo znacznie zwiększyło swoją pojemność pamięci w tym czasie, a zespoły stały się mniej wybredne w kwestii tego, co zachowują, mówi Chatham.

Ostatnio zespół Chathama zaczął ustalać ścisłe limity i prosić ludzi w całej firmie o bardziej rozważne podejście. Waymo teraz przechowuje tylko część nowo wygenerowanych danych i niedawno zaczęło usuwać zapisane dane, gdy stają się przestarzałe w porównaniu z obecną technologią, warunkami i priorytetami. Chatham mówi, że ta strategia działa dobrze. „Musimy zacząć szybko odrzucać dane, gdy nasza usługa rośnie” – mówi.

Waymo przewiozło płacących pasażerów na dystansie ponad 23 000 mil w Kalifornii między wrześniem a listopadem ubiegłego roku, w porównaniu z około 13 000 mil w podobnym okresie zaledwie sześć miesięcy wcześniej, według ujawnień dla stanowych regulatorów.

Limity danych w niektórych przypadkach uwzględniają priorytety firm zajmujących się pojazdami autonomicznymi. Z pewnym marginesem negocjacji, zespół Chathama przydziela kwartalne limity pamięci grupom inżynierów pracujących nad różnymi zadaniami, takimi jak rozwijanie AI do identyfikacji tego, co znajduje się wokół pojazdu (percepcja) lub testowanie planowanych aktualizacji oprogramowania w porównaniu z przeszłymi przejazdami (ocena). Te zespoły decydują, co warto zachować – na przykład dane dotyczące działań pojazdów ratunkowych – a zautomatyzowany system filtruje resztę. „To staje się decyzją biznesową” – mówi Chatham. „Czy dane o śniegu czy deszczu są ważniejsze dla biznesu?”

Śnieg wygrał na razie, ponieważ Waymo ma jak dotąd tylko ograniczone dane z jazdy w nim. „Zachowujemy każdy kawałek” – mówi Chatham. Deszcz stał się mniej interesujący. „Staliśmy się lepsi w deszczu, więc nie musimy iść do nieskończoności”. Oszczędność danych czasami może pobudzać kreatywność lub cenne odkrycia, mówi. Waymo dowiedziało się w pewnym momencie, że jego dane o deszczu niepotrzebnie zawierały wszystkie odczyty czujników, które jego samochody zebrały podczas postoju.

W projektach autonomicznych dane z bardziej ruchliwych, szalonych czasów mają największe szanse na przetrwanie. „Rzadkie obiekty i nietypowe scenariusze, takie jak przeszkody na drodze lub rowerzyści z deskami surfingowymi” – mówi Balajee Kannan, wiceprezes ds. autonomii w producenta technologii bezzałogowej Motional, wspólnego przedsięwzięcia Hyundai i dostawcy motoryzacyjnego Aptiv.

Szybko rosnący Cruise powiedział, że mniej niż 1 procent danych, które generuje z jazdy w San Francisco, zawiera to, co jego zespoły uważają za przydatne informacje, więc teraz również nie przechowuje ich wszystkich. Jego autonomiczne samochody Chevy Bolt przewiozły płacących pasażerów na dystansie ponad 13 000 mil w mieście jesienią ubiegłego roku, w porównaniu z 3 400 mil, gdy rozpoczęły usługę latem. W miarę jak jego wdrożenie rośnie, Cruise pracuje nad ulepszeniami swoich systemów przechowywania danych, które ułatwiają i obniżają koszty rozszerzenia usługi, chociaż rzeczniczka Rachel Holm odmawia podania szczegółów.

Usuwanie nie jest jedynym rozwiązaniem. Przenoszenie danych do „zimnego” przechowywania, które w AWS kosztuje zaledwie jedną dziesiątą centa za gigabajt miesięcznie, może również obniżyć koszty, ale można je uzyskać tylko powoli, co ogranicza ich przydatność.

Aurora, która testuje ciężarówki bezzałogowe na autostradach w Teksasie, używa zautomatyzowanego systemu do sortowania terabajtów danych generowanych przez jazdę około 50 ładunków tygodniowo dla klientów pilotażowych w całym stanie. Inżynierowie oznaczają kluczowe dane, takie jak niedawne incydenty z udziałem niebezpiecznych odpadów drogowych lub agresywnych kierowców, aby upewnić się, że są one zapisane w regularnym przechowywaniu. Wszystko, co nie jest chronione lub nieużywane, jest automatycznie umieszczane na liście do usunięcia, przenosząc się do coraz zimniejszego przechowywania co miesiąc, aż po trzech miesiącach znaczna ilość zaczyna być usuwana. Pomiar obliczony z surowych danych to jedyne bity, które są zachowywane.

„To jak obcinanie paznokci” – mówi Tim Kelton, który zarządza infrastrukturą Aurory. „Musisz to robić co tydzień. To nie jest coś, co możesz zignorować”. Firma również porzuca dane z sesji, gdy jej technologia działa naprawdę dobrze lub działa na przestarzałych czujnikach, ponieważ jest mniej do nauczenia się. Ogólnie rzecz biorąc, tylko około 15 procent danych Aurory znajduje się w jej najbardziej dostępnej warstwie przechowywania.

Nie wszyscy jeszcze osiągnęli swoje limity. TuSimple, kolejna firma zajmująca się ciężarówkami bezzałogowymi, zebrała, skompresowała, skatalogowała i przechowywała wszystkie dane z każdej z dziesiątek tysięcy przejazdów od momentu założenia w 2015 roku. Ale firma, która przeprowadziła swoją pierwszą trasę bezzałogową w grudniu 2021 roku, monitoruje swoją pojemność 50 petabajtów i przenosi większość danych do zimnego przechowywania po czterech latach, mówi Robert Rossi, jej wiceprezes ds. operacji.

Oprogramowanie AI, które może wyodrębnić wartościowe dane z skompresowanych plików, może ostatecznie pomóc firmom w zachowaniu większej ilości logów bez przekraczania limitów danych, mówi Weisong Shi, informatyk z Uniwersytetu Delaware, który współpracował z producentami samochodów w celu ograniczenia przechowywania i przesyłania danych.

Ale zauważa, że jeśli Waymo i jego konkurenci w końcu zdołają osiągnąć szerokie wdrożenie, z dużymi flotami pojazdów, będą musieli wyrzucić znacznie więcej danych. „Gdy przejdziesz do masowej produkcji, koszty będą miały duże znaczenie” — mówi Shi. „Nie osiągnęliśmy jeszcze punktu, w którym desperacko potrzebujemy więcej pamięci, ale ten dzień nadchodzi”.