Wystarczy, że powiesz „włącz jasne oświetlenie w salonie”, a inteligentny dom dostosuje się do Twoich preferencji. Jednym zdaniem możesz też uruchomić muzykę lub ustawić budzik. Wszystko to dzięki inteligentnemu asystentowi, który naprawdę rozumie kontekst Twoich poleceń i obiecuje kolejną rewolucję w sposobie, w jaki komunikujemy się z urządzeniami i aplikacjami. To właśnie zapowiada nowy model językowy ReALM opracowany przez Apple. Ten zaawansowany system sztucznej inteligencji potrafi rozpoznawać znaczenie odniesień konwersacyjnych, odczytywać kontekst wyświetlanych treści oraz zrozumieć tło aktualnych procesów zachodzących w urządzeniu. Czy to tylko obietnice, czy nadchodzi naprawdę nowy poziom interakcji z asystentami głosowymi?
ReALM to skrót od „Reference Resolution As Language Modeling” – przełomowe rozwiązanie opracowane przez naukowców z Apple. Jest to zatem nowy model językowy (Large Language Model, LLM), który traktuje problem rozpoznawania odniesień jako zadanie z dziedziny modelowania języka.
ReALM efektywnie konwertuje różne rodzaje kontekstu na reprezentację tekstową, którą następnie przetwarza w ramach zadania językowego. Mogą to być:
Czym ReALM różni się od innych modeli rozpoznawania odniesień? Przede wszystkim podejściem – zamiast polegać na przetwarzaniu obrazów, ReALM działa w domenie tekstowej. To sprawia, że jest znacznie lżejszy i wydajniejszy, co ma umożliwiać uruchamianie go bezpośrednio w urządzeniach mobilnych przy zachowaniu prywatności użytkownika.
Zespół badawczy Apple porównał ReALM z najpotężniejszymi modelami językowymi dostępnymi obecnie na rynku – GPT-3.5 i GPT-4 od OpenAI. Wyniki są naprawdę imponujące. W zadaniach rozpoznawania odniesień najmniejszy wariant ReALM osiągał dokładność porównywalną z GPT-4! Większe modele ReALM przewyższały GPT-4 już w rozpoznawaniu odniesień do elementów wyświetlanych na ekranie.
Czym tłumaczyć tę przewagę? Po pierwsze, ReALM radzi sobie znakomicie z zapytaniami specyficznymi dla danej dziedziny, na przykład dotyczącymi urządzeń domowych typu smart. To zasługa fine-tuningu modelu na danych z konkretnej dziedziny, który sprawia, że ReALM wykazuje głębsze zrozumienie kontekstu.
Co więcej, w przeciwieństwie do GPT-4 trenowanego głównie na zdjęciach przedstawiających obiekty rzeczywiste, ReALM doskonale radzi sobie z rozpoznawaniem elementów tekstowych i składowych interfejsów użytkownika aplikacji. A to właśnie rozumienie interfejsów jest kluczowe dla płynnej interakcji asystentów głosowych z aplikacjami, z których właśnie korzystamy.
Źródło: DALL·E 3, prompt: Marta M. Kania (https://www.linkedin.com/in/martamatyldakania/)
Integracja ReALM z Siri może rzeczywiście otworzyć zupełnie nowy rozdział w interakcjach człowiek–komputer. Dzięki ReALM Siri będzie w stanie zrozumieć polecenia zawierające odniesienia do elementów wyświetlanych na ekranie smartfona oraz procesy i aplikacje działające w tle. Kiedy jednak ta opcja będzie dostępna dla użytkowników? Tego jeszcze nie wiadomo.
Pozostają nam spekulacje bazujące na technicznych możliwościach modelu. Jak zatem może działać Siri wyposażona w ReALM? Na przykład: kiedy przeglądasz stronę internetową z ofertami biznesowymi i widzisz interesującą Cię firmę, wystarczy, że powiesz do Siri „Zadzwoń do tej firmy”, a asystent – wykorzystując ReALM do przeanalizowania kontekstu – odnajdzie numer telefonu wskazanej firmy i zainicjuje połączenie. Nie będzie to nawet wymagało od Ciebie wyjaśniania, o którą firmę dokładnie Ci chodzi.
A to dopiero początek możliwości ReALM. Polecenia takie jak „Odtwórz ostatnią playlistę” pozwoliłyby na intuicyjną kontrolę aplikacji multimedialnych i urządzeń inteligentnego domu. ReALM mógłby też umożliwić Siri rozumienie kontekstu rozmów i historii poleceń, aby asystent reagował adekwatnie do wcześniejszych żądań użytkownika. To krok w stronę inteligentnych agentów przybliżający nas nie tyle do sztucznej inteligencji rozumiejącej nasze zapytania, ile do takiej, która będzie umiała realizować polecenia.
Niestety użytkownicy urządzeń z systemem Android muszą jeszcze poczekać. Na razie nie ma informacji na temat planów Google względem wyposażenia Google Assistant w możliwości modeli językowych z rodziny Gemini. Powstała aplikacja Google Gemini na urządzenia z Androidem, jednak nie jest jeszcze dostępna poza Stanami Zjednoczonymi.
Źródło: Google Play (https://play.google.com/store/apps/details?id=com.google.android.apps.bard&hl=en_US)
ReALM to innowacyjne podejście Apple do rozwiązania problemu rozpoznawania kontekstu przez asystentów głosowych. Zamiast polegać na przetwarzaniu obrazów, ten model językowy konwertuje różne rodzaje kontekstu na reprezentację tekstową, którą następnie przetwarza w ramach zadania językowego. Takie podejście zapewnia nie tylko wysoką dokładność rozpoznawania, ale też możliwość działania na urządzeniu mobilnym przy zachowaniu prywatności użytkownika.
Umożliwienie Siri dostępu do ReALM może zapewnić bardziej naturalne i kontekstowe interakcje głosowe, stanowiąc ważny krok w kierunku naprawdę inteligentnych asystentów. Dzięki ReALM Siri będzie w stanie błyskawicznie reagować na polecenia zawierające odniesienia do elementów na ekranie, aplikacji i procesów działających w tle. Jedno jest pewne – doskonalenie kontekstowej świadomości asystentów to klucz do stworzenia naprawdę inteligentnej i naturalnej interakcji głosowej, a ReALM jest niewątpliwie ważnym krokiem w tym kierunku.
Zachęcamy do komentowania naszych artykułów. Wyraź swoje zdanie i włącz się w dyskusje z innymi czytelnikami. Na indywidualne pytania (z zakresu podatków i księgowości) użytkowników ifirma.pl odpowiadamy przez e-mail, czat lub telefon – skontaktuj się z nami.
Administratorem Twoich danych osobowych jest IFIRMA S.A. z siedzibą we Wrocławiu. Dodając komentarz na blogu, przekazujesz nam swoje dane: imię i nazwisko, adres e-mail oraz treść komentarza. W systemie odnotowywany jest także adres IP, z wykorzystaniem którego dodałeś komentarz. Dane zostają zapisane w bazie systemu WordPress. Twoje dane są przetwarzane na podstawie Twojej zgody, wynikającej z dodania komentarza. Dane są przetwarzane w celu opublikowania komentarza na blogu, jak również w celu obrony lub dochodzenia roszczeń. Dane w bazie systemu WordPress są w niej przechowywane przez okres funkcjonowania bloga. O szczegółach przetwarzania danych przez IFIRMA S.A dowiesz się ze strony polityki prywatności serwisu ifirma.pl.
Z Biurem Rachunkowym i aplikacją IFIRMA masz wszystko pod kontrolą i w jednym narzędziu!