Google lançou um novo produto de inteligência artificial em sua conferência E/S do Google Evento de terça-feira – Gemini Live. Todos nós presumimos que era isso que o Gemini Assistant deveria fazer no Android, mas este é o Google e vale tudo.
Se não, vem depois de apenas um dia OpenAIPrimeiro evento sobre produtos de consumo, vou pensar se Gemini Live foi lançado Para assumir Bate-papo por voz GPT. Ambos são construídos usando o idioma original Modelos de IA multimodais Possui ótimos recursos de áudio e vídeo.
Neste momento, os líderes na corrida global da IA parecem ser a OpenAI e o Google, com o primeiro aparentemente a aproximar-se da Apple e do iPhone, enquanto o último domina o Android. Esqueça dispositivos de inteligência artificial como Coelho p.1 Ou Humane Pin – o vencedor no curto prazo é o smartphone.
ambos Bate-papoGPT Voice e Gemini Live estão integrados em um produto de IA existente e nenhum deles está disponível hoje – mas como esses assistentes de próxima geração se comparam?
Como o Gemini Live e o ChatGPT 4o se comparam?
Neste verão estamos expandindo os recursos multimídia do Gemini, incluindo a capacidade de ter uma conversa bidirecional aprofundada usando sua voz. Essa nova experiência é chamada Live. #GoogleIO pic.twitter.com/eAZbaO5WKz14 de maio de 2024
O Google fica um pouco atrás quando se trata de credibilidade, especialmente quando se trata de mostrar análise de vídeo ao vivo e recursos de áudio. Quando anunciou o Gemini Ultra no ano passado, fez isso com um vídeo que respondia ao vídeo em tempo real, mas não era em tempo real ou vídeo.
Porém, desta vez eles fizeram questão de tornar a tecnologia, pelo menos “básica”Projeto Astra“Aspectos dele, incluindo chat de voz e vídeo, estão disponíveis para teste no I/O.
Ambos oferecem uma interface de voz para conversas em linguagem natural, ambos oferecem a capacidade de analisar vídeo ao vivo através de uma câmera de smartphone e ambos parecem rápidos o suficiente para ter uma conversa verdadeiramente natural onde você pode interromper o fluxo médio de IA.
No entanto, existem algumas diferenças notáveis. O ChatGPT da OpenAI soa mais natural, pode detectar e responder a emoções e tons de voz e até se adapta em tempo real à forma como você pede para falar. Não vi evidências dessa habilidade no Gemini Live.
A outra grande diferença gira em torno da multimodalidade. Gemini ainda depende de outros modelos para saída, incluindo o uso de Imagen 3 para imagens e Veo para vídeo. GPT-4o é originalmente multimodo em ambas as direções – onde o significa omni, ou em todas as direções. Ele cria suas próprias imagens e sons.
Gemini Live vs GPT-4o: O futuro dos assistentes de voz
O mundo parece estar se aproximando da voz e se afastando da entrada de texto. Quando vi pela primeira vez o anúncio da OpenAI, minha reação foi que isso representava uma mudança de paradigma na interface homem-computador, uma mudança tão grande quanto o lançamento do mouse ou da tela sensível ao toque.
Continuo com esta opinião e o facto da Google estar também a lançar uma interface de voz nativa com som natural reforça isso. Até a Meta possui o MetaAI, um robô de voz disponível em fones de ouvido VR e óculos inteligentes Ray-Ban.
Embora o smartphone possa ser o vencedor no momento, está claro que o verdadeiro formato desses modelos de IA de voz são os óculos inteligentes. Disponível com câmeras na altura dos olhos e do braço para enviar ondas sonoras aos seus ouvidos, é o dispositivo de IA perfeito.
A questão é se a OpenAI mudará para o hardware, lançando um par de seus próprios óculos inteligentes ou se isso é novidade Siri Ele irá alimentar os futuros óculos Apple. Além disso, se o Google é realmente corajoso o suficiente para reviver o Google Glass.