Możesz wybrać dowolną historyczną postać czy słynny portret i sprawić, by mówiły i śpiewały. Na przykład: Mona Lisa ożywa i zaczyna śpiewać najnowszy hit Miley Cyrus. Niesamowite, prawda? To właśnie umożliwiają dwie nowe rewolucyjne technologie — EMO (Emote Portrait Alive) stworzona przez chińskiego kolosa, firmę Alibaba, oraz VASA-1 opublikowana przez Microsoft. Pionierskie modele sztucznej inteligencji potrafią ożywiać postacie, korzystając z pojedynczego zdjęcia i tworzyć realistyczne filmy, na których postacie mówią, śpiewają i wykonują naturalne gesty. Jak jednak wykorzystać potencjał awatarów AI w biznesie?
EMO (Emote Portrait Alive) od Alibaby to model sztucznej inteligencji, który potrafi ożywić dowolny pojedynczy portret i stworzyć realistyczny film wideo, na którym postać mówi i porusza głową w naturalny sposób.
W przeciwieństwie do tradycyjnych metod tworzenia „mówiących głów” EMO nie wykorzystuje skomplikowanych modeli 3D ani mapowania punktów charakterystycznych twarzy. Zamiast tego bezpośrednio syntetyzuje filmy z samego audio i pojedynczego zdjęcia wejściowego. Innymi słowy, kluczową innowacją jest wykorzystanie zaawansowanych modeli dyfuzyjnych do bezpośredniego przetwarzania audio na wideo. To kluczowa innowacja, która sprawia, że generowane animacje są znacznie bardziej ekspresyjne i zadziwiająco realistyczne w odzwierciedlaniu pełnego zakresu emocji i niuansów dźwięku.
Proces generowania filmu przez EMO składa się z dwóch głównych etapów. Najpierw sieć ReferenceNet analizuje zdjęcie wejściowe, wydobywając z niego kluczowe cechy twarzy. Następnie zaawansowany mechanizm dyfuzji przetwarza ścieżkę dźwiękową, łącząc ją z cechami twarzy w celu wytworzenia filmowego klipu wideo.
W samym sercu tego etapu działają dwa kluczowe komponenty: enkoder audio i mechanizmy uwagi (attention). Wstępnie wytrenowany enkoder pełni rolę dyrygenta przetwarzającego wejściowe audio i zapewniającego synchronizację ruchów ust z dźwiękiem.
Mechanizmy uwagi dbają z kolei o to, by generowana postać zachowywała stałą tożsamość przez cały film, a jej ruchy były modulowane zgodnie z dźwiękiem. Skutkuje to niezwykle płynnymi przejściami między klatkami i utrzymaniem spójnej osobowości animowanego awatara.
Aby to wszystko było możliwe, potrzebne są jeszcze moduły kontrolne:
Te innowacyjne rozwiązania sprawiają, że EMO może renderować zarówno swobodne rozmowy, jak i dynamiczne występy wokalne przy zachowaniu najwyższej jakości. Jest to coś, czego nie można osiągnąć przy użyciu żadnej z dotychczasowych technik.
Ponadto naukowcy z Alibaby wykorzystali ogromne zasoby danych treningowych, obejmujących ponad 250 godzin filmów i 150 milionów obrazów twarzy, projektując różnorodne scenariusze:
Tak obszerna i zróżnicowana baza danych pozwoliła EMO na naukę rozpoznawania i odwzorowywania szerokiej gamy ludzkich emocji i niuansów wokalnych. Rezultat? Animacje, które niemal nie różnią się od rzeczywistości.
Pierwsza publikacja dotycząca VASA-1 rozpoczyna się od takiego skrótu:
„TL; DR: pojedyncze zdjęcie portretowe + nagranie mowy = hiperrealistyczny film mówiącej twarzy z precyzyjną synchronizacją ruchu warg, realistyczną mimiką i naturalnymi ruchami głowy, generowanymi w czasie rzeczywistym” („TL; DR: single portrait photo + speech audio = hiper-realistic talking face video with precise lip-audio sync, lifelike facial behaviour, and naturalistic head movements, generated in real time”, https://www.microsoft.com/en-us/research/project/vasa-1/)
Świetnie oddaje on możliwości VASA-1. Microsoft poszedł bowiem o krok dalej niż Alibaba — większy zakres mimiki podczas wypowiedzi, a przede wszystkim ruchy głowy sprawiają, że mówiąca postać jest naprawdę przekonująca. To naprawdę niesamowite, że Microsoft osiągnął taki poziom realizmu na podstawie jednej fotografii.
VASA-1 wykorzystuje zaawansowany model dyfuzyjny, który tworzy dynamikę twarzy i ruchy głowy w przestrzeni ukrytej (latent space), biorąc od razu pod uwagę:
Kluczem do sukcesu tej metody jest efektywne uczenie się modelu na bazie dużej ilości nagrań wideo, umożliwiającej modelowanie złożonych ruchów twarzy i głowy.
Po wygenerowaniu kodów ruchu w przestrzeni ukrytej model dekoduje je na realistyczne klatki wideo. VASA-1 osiąga imponującą wydajność, generując wideo o rozdzielczości 512 × 512 pikseli z prędkością do 40 klatek na sekundę! To kamień milowy w kierunku angażujących interakcji z awatarami AI w czasie rzeczywistym.
Na porównanie EMO vs VASA-1 musimy jeszcze trochę poczekać — modele do tworzenia wideo z jednego zdjęcia nie są jeszcze publicznie dostępne. Choć EMO i VASA-1 to na razie jedynie projekty badawcze, otwierają całkowicie nowe możliwości tworzenia angażujących treści cyfrowych generowanych w czasie rzeczywistym. Oto kluczowe korzyści, jakie ta nowa technologia może przynieść firmom:
A to dopiero początek — zastosowania biznesowe EMO i VASA-1 zależą od specyfiki branży, jednak z pewnością wiele firm mogłoby wykorzystać technologię tworzenia wideo na podstawie jednego zdjęcia, aby wyróżnić się na tle konkurencji i nawiązać głębszą więź z klientami.
Źródło: Github EMO (https://github.com/HumanAIGC/EMO)
EMO AI od Alibaby i VASA-1 od Microsoft to prawdziwie pionierskie technologie, które potrafią ożywić pojedyncze zdjęcie i stworzyć ekspresyjne filmy wideo, które dzięki użyciu zaawansowanych modeli dyfuzyjnych i mechanizmów uwagi są zsynchronizowane z dźwiękiem.
W przeciwieństwie do tradycyjnych metod EMO i VASA-1 nie wymagają skomplikowanych modeli 3D czy mapowania twarzy. Bezpośrednio przetwarzają audio na animacje, co znacznie zwiększa realizm i różnorodność wyrażanych emocji. Dzięki temu EMO i VASA-1 mogą znaleźć szerokie zastosowanie w biznesie — od tworzenia wirtualnych asystentów i prezenterów, przez spersonalizowane komunikaty, aż po bardziej immersyjne gry i materiały instruktażowe.
Wraz z kolejnymi postępami w dziedzinie uczenia maszynowego możliwości ożywiania statycznych obrazów będą tylko rosły. EMO i VASA-1 zapowiadają erę w pełni interaktywnych treści audiowizualnych, w której granice między rzeczywistością a cyfrowym światem zacierają się jeszcze bardziej.
Zachęcamy do komentowania naszych artykułów. Wyraź swoje zdanie i włącz się w dyskusje z innymi czytelnikami. Na indywidualne pytania (z zakresu podatków i księgowości) użytkowników ifirma.pl odpowiadamy przez e-mail, czat lub telefon – skontaktuj się z nami.
Administratorem Twoich danych osobowych jest IFIRMA S.A. z siedzibą we Wrocławiu. Dodając komentarz na blogu, przekazujesz nam swoje dane: imię i nazwisko, adres e-mail oraz treść komentarza. W systemie odnotowywany jest także adres IP, z wykorzystaniem którego dodałeś komentarz. Dane zostają zapisane w bazie systemu WordPress. Twoje dane są przetwarzane na podstawie Twojej zgody, wynikającej z dodania komentarza. Dane są przetwarzane w celu opublikowania komentarza na blogu, jak również w celu obrony lub dochodzenia roszczeń. Dane w bazie systemu WordPress są w niej przechowywane przez okres funkcjonowania bloga. O szczegółach przetwarzania danych przez IFIRMA S.A dowiesz się ze strony polityki prywatności serwisu ifirma.pl.
Z Biurem Rachunkowym i aplikacją IFIRMA masz wszystko pod kontrolą i w jednym narzędziu!