Google wykonało właśnie kolejny krok naprzód w dziedzinie natychmiastowego tłumaczenia mowy. Firma oficjalnie zaprezentowała Gemini 3.5 Live Translate, czyli zaawansowany model audio stworzony do płynnego tłumaczenia w czasie rzeczywistym. Teoria zakłada, że narzędzie całkowicie wyeliminuje dotychczasowe, wymuszone pauzy podczas konwersacji.
Koniec z czekaniem na swoją kolej?
Tradycyjne programy przyzwyczaiły nas do sztywnego formatu. Maszyna czekała, aż wypowiemy całe zdanie i dopiero wtedy generowała odpowiedź. Gemini 3.5 Live Translate ma całkowicie porzucić ten schemat. Model przetwarza dźwięk w sposób ciągły, traktując go jak stały strumień danych. Dzięki temu niezręczne momenty ciszy poświęcane na tłumaczenie powinny zniknąć z rozmowy.
Zdaniem Google, nowy model nie tylko działa szybko. On przede wszystkim ma dobrze brzmieć. Inżynierowie skupili się na tym, aby sztuczna inteligencja potrafiła naśladować ludzką ekspresję. System automatycznie rozpoznaje ponad 70 języków. Generowana mowa ma zachowywać oryginalną intonację, tempo emocjonalne oraz naturalną wysokość głosu rozmówcy. Wszystko to zamiast sztywnego, syntetycznego głosu robota.
Nowość trafia globalnie do standardowej aplikacji Google Translator na systemy Android oraz iOS. Użytkownicy platformy z zielonym robotem mają otrzymać dodatkowy „tryb słuchania”. Wystarczy przyłożyć telefon do ucha. Dokładnie tak, jak podczas zwykłej rozmowy telefonicznej, by usłyszeć prywatne tłumaczenie bez konieczności zakładania słuchawek.
Nowy wymiar wideokonferencji
Skok jakościowy odczują też użytkownicy biznesowi. Do tej pory narzędzia translacji w Google Meet obsługiwały zaledwie pięć języków i mocno polegały na angielskim jako pośredniku. Gemini 3.5 Live Translate ma całkowicie rozbić to ograniczenie, oferując ponad 2000 kombinacji językowych. Funkcja zyskała dedykowany przycisk w interfejsie i debiutuje właśnie w wersji prywatnej dla wybranych kont Google Workspace.
Na tym jednak nie koniec. Google udostępni publiczne wersja zapoznawcze w Google AI Studio oraz Gemini Live API dla zewnętrznych programistów. Korzyści z tego rozwiązania testują już podobno pierwsi partnerzy.
Cyfrowy ślad dla bezpieczeństwa
Szybkie wdrażanie zaawansowanych modeli audio niesie ze sobą ryzyko. Google stawia tu jednak na sztywne granice bezpieczeństwa. Każdy materiał dźwiękowy stworzony przez nowy algorytm ma zawierać w sobie trwałe metadane SynthID. Ten niedostrzegalny cyfrowy podpis pozwoli na jednoznaczne zidentyfikowanie głosu jako dzieła sztucznej inteligencji. Rozwiązanie to ma stanowić skuteczną zaporę przed generowaniem dezinformacji przy użyciu syntetycznej mowy. Moim skromnym zdaniem powinno stanowić tę zaporę, ale tylko w jakimś stopniu, bo osób które ostatecznie będą nabierać się na tego typu sztuczki i tak pewnie nie zabraknie.
Tym sposobem przekraczamy kolejny punkt na mapie rozwoju nowych technologii, w którym sztuczna inteligencja może być dla nas jednocześnie dużym udogodnieniem i ogromnym zagrożeniem.
Źródło: Google, Android Headlines / Zdj. otwierające: Google