OpenAI har lanserat en ny språkmodell, GPT-4o som kan interagera med hjälp av text, röst och visuella uppmaningar.
Open AI lanserar nu en ny desktopversion av Chat GPT och en uppgradering av användargränssnittet som kallas GPT-4o som gör det möjligt för användare att interagera med hjälp av text, röst och visuella uppmaningar.
GPT-4o kan känna igen och svara på skärmdumpar, foton, dokument eller diagram som laddas upp till den. Den nya GPT-4o-modellen kan också känna igen ansiktsuttryck och information som skrivits för hand på papper. Open AI säger att den förbättrade modellen och den medföljande chatbotten kan svara på ljudinmatningar på så lite som 232 millisekunder, med ett genomsnitt på 320 millisekunder, ”vilket liknar mänsklig svarstid i en konversation”.
De tidigare versionerna av GPT hade också ett röstläge för konversation, men de hade latenser på i genomsnitt 2,8 sekunder (i GPT-3.5) och 5,4 sekunder (i GPT-4).
GPT 4o matchar nu prestandan hos GPT-4 Turbo (som släpptes i november) för text på engelska och kod, med betydande förbättringar för text på icke-engelska språk.
Under ett evenemang på scenen sa Murati att GPT-4o också kommer att ha nya minnesfunktioner, vilket ger den möjlighet att lära sig av tidigare konversationer med användare och lägga till det i sina svar.