Nie spodziewajcie się niespodzianek. Na podium nie znajdziecie Barda od Google, ani tworzonych przez niezliczone startupy nakładek ułatwiających korzystanie z topowych wielkich modeli językowych (LLM).
Rok 2023, czyli rok wielkich przełomów w rozwoju generatywnej sztucznej inteligencji niezaprzeczalnie należy do ChataGPT. Jakie jednak narzędzia AI wypadają najlepiej w tworzeniu obrazów, generowaniu filmów, muzyki i w tłumaczeniach? Które najlepiej projektują, rysują i piszą teksty, które trudno odróżnić od ludzkich? Zapraszam do subiektywnego przeglądu.
Dlaczego narzędzie AI, które niedawno obchodziło pierwsze urodziny, ma już 180,5 miliona użytkowników? Nic dziwnego, że płatna wersja ChatGPT bije rekordy popularności. Potrafi prowadzić płynne, przekonujące rozmowy w 100 językach, udzielać odpowiedzi na skomplikowane pytania, rozwiązywać problemy programistyczne, doradzać w kwestiach życiowych i zawodowych bazując na wiedzy obejmującej wydarzenia do kwietnia 2023 roku. Ma także możliwość korzystania z internetu.
Słowem, ChatGPT Plus udziela odpowiedzi tekstowych z nieporównywalnie większą precyzją niż model GPT 3.5, na którym bazuje bezpłatna wersja czatbota.
Jego dodatkową zaletą jest możliwość prowadzenia naturalnych, głosowych konwersacji na urządzeniach mobilnych. Rewolucyjna technologia Whisper API na tyle wiernie imituje ludzki głos, że rozmówca może nie zorientować się, iż ma do czynienia z AI.
Użytkownicy ChatGPT Plus mogą także korzystać z możliwości tworzenia własnych GPTs, czyli czatbotów zaopatrzonych w dostarczone przez nich dodatkowe wskazówki (prompty), instrukcje i materiały. Choć bezpieczeństwo danych użytych do ich budowy stoi jeszcze pod dużym znakiem zapytania, korzystanie z nich jest bardzo przyjemne i obiecujące. Spersonalizowane chatboty generujące teksty do obsługi klienta, wsparcia sprzedaży czy doradzające w sprawach biznesowych? Już teraz niewielkim wysiłkiem można stworzyć takiego GPTs i udostępnić go wybranym osobom lub szerokiej publiczności.
Runway Gen-2 zachwyca możliwością tworzenia realistycznych filmów od zera – wystarczy:
Jego największym atutem jest precyzyjna kontrola nad powstającym dziełem. Określamy dokładny czas trwania materiału, a algorytmy AI dbają o wypełnienie go spójną fabułą. Runway Gen-2 doskonale radzi sobie także z modyfikacją istniejących nagrań wideo. W prosty sposób można zmienić ogólny styl wizualny produkcji lub wyizolować konkretny obiekt i nadać mu nowe cechy.
Kolejnym ważnym atutem jest szybkość działania. To prawdziwy przełom dla twórców filmowych i wideo, którzy mogą wielokrotnie przyspieszyć prace nad projektami. Choć po generowanych filmach nie możemy jeszcze spodziewać się produkcyjnej jakości, Runway Gen-2 rysuje bardzo wyraźny kierunek rozwoju generatywnej sztucznej inteligencji do tworzenia wideo. Po prostu jest to obecnie najciekawsze narzędzie AI do tego celu.
Runway Gen-2 sprawdzi się też idealnie w marketingu. Za pomocą kilku zdań opisu i logotypu firmy wygenerujemy realistyczne video promocyjne lub reklamę produktu dopasowaną do naszych potrzeb.
Źródło: Runway (https://research.runwayml.com/gen2)
Największym osiągnięciem w dziedzinie tłumaczeń jest opracowany przez firmę Meta system do tłumaczeń Seamless M4T. Obsługuje on translator mowy w obie strony dla niemal 100 języków. Dodatkowo rozpoznaje mowę w prawie 100 językach, dzięki czemu może służyć jako zaawansowany wielojęzyczny asystent głosowy.
Ogromną zaletą Meta Seamless M4T jest to, że został opublikowany na licencji Open Source, co czyni go jednym z najciekawszych narzędzi AI ze względu na dostępność i możliwość wykorzystania we własnych produktach. Niezwykle istotny jest również wysoki poziom bezpieczeństwa. Specjalne filtry wykrywają i eliminują toksyczne oraz obraźliwe treści, nie dopuszczając do sytuacji, w której AI urazi rozmówcę lub wygeneruje niestosowną odpowiedź.
W biznesie narzędzie to przyda się wszędzie tam, gdzie liczy się sprawna komunikacja między pracownikami, klientami, kontrahentami itp. Pozwoli niwelować bariery językowe i kulturowe, a tym samym zacieśniać relacje oraz ułatwi pozyskiwanie partnerów zagranicznych.
Aplikacja Stable Audio, kolejny punkt na liście najciekawszych narzędzi AI. Komponuje niepowtarzalną muzykę, instrumentalne podkłady i realistyczne efekty dźwiękowe na podstawie krótkich opisów.
Stable Audio znacznie przyspiesza obróbkę dźwięku, renderując wielokrotnie szybciej niż standardowe oprogramowanie. Oszczędza to masę czasu twórcom filmowym, producentom muzycznym i specom od reklamy. Wystarczą 3 proste zdania, by w mgnieniu oka powstał oryginalny utwór lub jingle. W darmowej wersji można wygenerować dźwięk o długości do 45 sekund.
Źródło: Stable Audio (https://www.stableaudio.com/)
Następnym innowacyjnym narzędziem jest ElevenLabs, czyli generator realistycznych, ludzkich głosów w ponad 20 językach. Umożliwia tworzenie unikalnych głosów AI od podstaw, klonowanie istniejących na podstawie nagrań lub korzystanie z gotowej biblioteki, co czyni go jednym z najciekawszych narzędzi AI 2023 roku.
ElevenLabs przyda się wszędzie tam, gdzie projekt wymaga lektora, wirtualnego asystenta głosowego czy też udźwiękowienia treści w obcych językach. Najwyższej jakości klonowanie głosu bazuje na co najmniej 30 minutach materiału audio. Im więcej nagrań dostarczymy, tym wierniejsza będzie cyfrowa kopia.
W marketingu można wykorzystać tę technologię do tworzenia wirtualnych pracowników obsługi klienta, głosowych systemów IVR (Interactive Voice Response), czy indywidualnych, rozpoznawalnych głosów influencerów promujących produkty.
Kolejne miejsce na liście najciekawszych narzędzi AI znów należy się Open AI. Tym razem będzie to DALL-E 3, udoskonalona wersja popularnego narzędzia DALL-E 2 służącego do generowania obrazów na podstawie opisów. Jego ogromną zaletą jest integracja z ChatemGPT Plus, co sprawia, że wpisany przez użytkownika prompt jest w pierwszej kolejności „tłumaczony” na opis bardziej zrozumiały dla generatora obrazów. Znacznie zwiększa to zgodność efektów pracy z treścią zapytań użytkowników.
Co ciekawe, możemy załączyć do wątku obraz, który posłuży za inspirację dla DALL-E 3. Oraz zlecić czatbotowi podanie opisu tej grafiki, który posłuży za punkt wyjścia dla kolejnych generacji. Jednak pierwszy wygenerowany obraz to jeszcze nie koniec. W kolejnych wypowiedziach możemy wprowadzić korekty i poprawki, modyfikując obrazek z pomocą samych poleceń tekstowych.
DALL-E 3 ma swoje ograniczenia. Zaawansowane filtry wykrywają i eliminują niebezpieczne lub niestosowne treści. Narzędzie odmówi więc wygenerowania np. wizerunku żyjącej osoby publicznej. Systematycznie dodawane są kolejne zabezpieczenia podnoszące poziom bezpieczeństwa i etyczności.
W biznesie DALL-E 3 z powodzeniem wykorzystamy do:
Wystarczy kilka trafnych słów, by stworzyć oryginalną wizualizację koncepcji. DALL-E 3 zasłużył na miejsce wśród najciekawszych narzędzi AI z jeszcze jednego powodu. Promuje różnorodność. Zobaczycie to najwyraźniej wpisując prompt: „Pokaż mi ilustrację przedstawiającą kreatywny zespół pracujący wspólnie nad projektem w wygodnym biurze.”
Źródło: DALL·E 3, prompt: Marta M. Kania (https://www.linkedin.com/in/martamatyldakania/)
Wkrótce na rynku powinny pojawić się kolejne, niezwykle obiecujące narzędzia AI o rewolucyjnym potencjale. Firma 3DFY.ai finalizuje prace nad programem, który generuje realistyczne modele 3D na podstawie opisów tekstowych. Pozwoli on designerom i artystom wcielać w życie nawet najśmielsze wizje bez ograniczeń.
Również nowy model Claude 2.1 od firmy Anthropic zapowiada się niezwykle interesująco. Jest już dostępny dla użytkowników w krajach wymienionych na liście dostępnej pod tym adresem – https://www.anthropic.com/claude-ai-locations.
Pamięć Claude 2.1 czyni go jednym z najciekawszych narzędzi AI, sięga bowiem 200 000 tokenów. Pozwala to na znacznie sprawniejszą analizę i przetwarzanie dłuższych fragmentów tekstu oraz kodu. Anthropic dba również bardzo o kwestie bezpieczeństwa i zgodności z prawem w kwestii pozyskiwania i wykorzystywania danych.
Źródło: Claude (https://claude.ai)
Sztuczna inteligencja bez wątpienia odmieni naszą rzeczywistość w nadchodzących latach. Już teraz mamy do czynienia z prawdziwą eksplozją zaawansowanych narzędzi AI, które wywracają do góry nogami utarte standardy pracy, nie tylko kreatywnej. Jednak rewolucja dopiero się zaczyna.
Zachęcamy do komentowania naszych artykułów. Wyraź swoje zdanie i włącz się w dyskusje z innymi czytelnikami. Na indywidualne pytania (z zakresu podatków i księgowości) użytkowników ifirma.pl odpowiadamy przez e-mail, czat lub telefon – skontaktuj się z nami.
Administratorem Twoich danych osobowych jest IFIRMA S.A. z siedzibą we Wrocławiu. Dodając komentarz na blogu, przekazujesz nam swoje dane: imię i nazwisko, adres e-mail oraz treść komentarza. W systemie odnotowywany jest także adres IP, z wykorzystaniem którego dodałeś komentarz. Dane zostają zapisane w bazie systemu WordPress. Twoje dane są przetwarzane na podstawie Twojej zgody, wynikającej z dodania komentarza. Dane są przetwarzane w celu opublikowania komentarza na blogu, jak również w celu obrony lub dochodzenia roszczeń. Dane w bazie systemu WordPress są w niej przechowywane przez okres funkcjonowania bloga. O szczegółach przetwarzania danych przez IFIRMA S.A dowiesz się ze strony polityki prywatności serwisu ifirma.pl.
Z Biurem Rachunkowym i aplikacją IFIRMA masz wszystko pod kontrolą i w jednym narzędziu!