OpenAI najavljuje pokretanje glasovnih razgovora s chatbotom za iOS i Android sustave ili dijeljenje slika/fotografija na svim platformama kako bi se izrazile misli, umjesto samog oslanjanja isključivo na upisivanje upita. Ove nove opcije bit će dostupne Plus i Enterprise korisnicima u sljedeće dvije sedmice. Ali Open AI planira ubrzo proširenje usluga na besplatne verzije aplikacija.
Glasovni unos upita
Funkcija glasovnog unosa slična je glasovnom asistentu na mobilnom telefonu. Korisnici samo trebaju pritisnuti gumb i izgovoriti svoje pitanje, a ChatGPT će ga pretvoriti u tekst, poslati veliki jezični model, potom generirati odgovor i pretvoriti ga u govor te reproducirati korisniku. Za glasovnu značajku, OpenAI koristi Whisper, svoj sustav za prepoznavanje govora, transkripciju izgovorenih riječi korisnika u tekst i novi model teksta u govor koji može generirati zvuk sličan ljudskom sa samo nekoliko sekundi govora. Ujedno je tvrtka surađivala s profesionalnim glumcima kako bi stvorila pet glasova ChatGPT-a. OpenAI dijeli ovaj model pretvaranja teksta u govor s nekolicinom drugih tvrtki, uključujući Spotify koji ga koristi za prevođenje podcasta slavnih osoba.
Prema OpenAI-ju, ova nova tehnologija govora može proizvesti realističan sintetički govor iz nekoliko sekundi pravog govora, otvarajući vrata mnogim kreativnim i pristupačnim aplikacijama. Međutim, ove mogućnosti također stvaraju nove rizike, kao što je mogućnost da se zlonamjerni akteri lažno predstavljaju kao javne osobe ili počine prijevaru. Zato će biti biti strogo kontroliran i ipak ograničen.
Razgovor o slikama/fotografijama