O Google lançou um Um novo membro da família Gêmeos De modelos de inteligência artificial. Situado entre o Nano no dispositivo e o Pro baseado em nuvem, o Gemini Flash foi projetado para bate-papo, tarefas complexas que exigem resposta rápida e manipulação de imagens, vídeo e fala.
Revelado no anual Evento Google I/O para desenvolvedoresGemini Flash 1.5 é um arquétipo multimídia semelhante ao OpenAIO GPT-4o foi lançado recentemente e foi projetado para ser rápido, o que o torna útil para conversas em tempo real.
O novo modelo está atualmente disponível globalmente para os desenvolvedores usarem em seus próprios aplicativos, então poderemos ver uma série de aplicativos de chat ao vivo de terceiros criados com Gemini Flash 1.5 em breve.
Também vimos uma atualização para Gêmeos Pro 1.5um modelo que foi lançado no início deste ano e a novidade é que agora ele irá alimentar o chatbot premium Gemini Advanced.
O que torna o Gemini Flash 1.5 diferente?
O Gemini Flash 1.5 fica logo acima do Nano e logo abaixo do Pro na hierarquia de tamanhos e o que o diferencia, não apenas de seus irmãos, mas de outros modelos de IA, é sua combinação de velocidade e agilidade.
Além de ser rápido e impressionante na capacidade de entender texto, imagens, vídeo e fala, o Flash 1.5 é barato – pelo menos comparado ao Pro que é 20 vezes mais caro.
“Sabemos, pelo feedback dos usuários, que alguns aplicativos precisam de menor latência e menor custo de serviço”, disse Demis Hassabis, CEO do Google DeepMind. “Isso nos inspirou a continuar inovando”, acrescentou, revelando o Flash como um “modelo mais leve do 1.5 Pro, projetado para ser rápido e eficiente para operação em larga escala”.
Uma boa comparação, pelo menos em termos de velocidade, é com o modelo GPT-4o recentemente anunciado da OpenAI. É muito rápido, multimídia e projetado para interação em tempo real. No entanto, o Gemini Flash 1.5 parece ser um modelo menos capaz em termos de raciocínio.
E a enorme janela de contexto?
Como outros modelos da família Gemini, o Flash 1.5 vem com uma enorme janela contextual de 1 milhão de tokens e a promessa da capacidade real de usá-los por completo. Em comparação, o GPT-4o possui uma janela de conteúdo de 128 mil caracteres, enquanto o Claude 3 possui 200 mil caracteres.
O que torna a grande janela de contexto tão importante é a capacidade de reter uma enorme quantidade de informações em sua memória durante uma única conversa. Isso é vital na hora de analisar conteúdo não textual, pois uma imagem vale mais que 1.000 palavras e um vídeo vale ainda mais.
Ele também foi treinado por Kabira irmãoGêmeos Pro 1.5. Isto foi feito “através de um processo chamado ‘destilação’, onde conhecimentos e competências básicas são transferidos de um modelo maior para um modelo menor e mais eficiente”, disse Hassabis.
“O 1.5 Flash se destaca em sumarização, aplicativos de bate-papo, anotação de imagens e vídeos, extração de dados de longos documentos e tabelas e muito mais”, disse ele, como resultado desse processo.
À medida que esses modelos, incluindo modelos mais rápidos, porém menores, como o Flash, ganham a capacidade de compreender mais do que apenas texto, a janela de contexto aumentada se torna ainda mais importante.