Home AI Google I/O 2024 – Essas sete demonstrações mostraram o melhor desempenho do...

Google I/O 2024 – Essas sete demonstrações mostraram o melhor desempenho do Gemini AI do Google

May 15, 2024

[ad_1]

MOUNTAIN VIEW, Califórnia – Este ano Palestra do Google I/O 2024 Através do seu foco contínuo na inteligência artificial, demonstrou o poder de estar pessoalmente em algum lugar. Embora eu tenha certeza de que as pessoas que assistiram à transmissão ao vivo – e seguiram o blog ao vivo do Tom’s Guide – aproveitaram muito os diversos anúncios que o Google fez sobre… Modelo Gêmeos de inteligência artificial. Mas estar no Shoreline Amphitheatre deu a você a oportunidade de ver de perto muitas das habilidades do Gemini, para realmente ter uma noção de onde o Google está indo com essas ferramentas.

Eu deveria saber. Imediatamente após encerrar a palestra, passei a tarde de terça-feira passando de demonstração em demonstração, explicando uma parte diferente da história da IA do Google. Em muitos casos, isso foi uma repetição do que o Google mostrou no palco, e eu só me beneficiei ficando a poucos metros de distância, em vez de sentar a dezenas de fileiras de distância do palco. Em alguns casos, o Google ofereceu outros recursos que foram apenas sugeridos em sua palavra-chave.

O resultado final? Tenho uma apreciação pelo que o modelo de Gêmeos pode fazer que talvez eu não tivesse no início do dia. Embora a prova definitiva do valor desses recursos venha quando eles forem usados por pessoas como você e eu, acho que o Google tem alguns recursos muito úteis que estão em vários estágios de implementação.

Aqui estão sete demonstrações do Google I/O que realmente chamaram minha atenção enquanto aprendia mais sobre o que o Gemini pode fazer.

Resuma e-mails no Gmail

@tomsguide
♬ som original – Guia do Tom

Fui designado para cobrir Recursos desenvolvidos pela Gemini estão chegando ao Google Workspace Durante a palestra em si, fiquei ciente das atualizações de IA que o Google planejou Gmail. No entanto, a demonstração específica do recurso de resumo por e-mail feita para mim chegou um pouco perto demais.

A demonstração do Google mostrou um boletim escolar muito detalhado – e muito longo – que pode acabar na caixa de entrada de qualquer pai. Em vez de folhear cada linha em busca de informações relevantes para seus alunos, o Google mostrou como seu novo recurso de resumo por e-mail pode permitir que você peça algo específico – como informações relevantes apenas para alunos da sétima série – e resumir essas informações em marcadores claros e organizados. .

Acontece que sou pai de um aluno da 7ª série que recebe boletins escolares bastante regulares com muitas informações e apenas algumas delas são relevantes para meus interesses. Então, sim, Resumir e-mails não pode chegar aqui em breve. Ele estará disponível para usuários do Workspace Lab este mês, com acesso para clientes Gemini for Workspace e assinantes do Google One AI Premium em junho.

Devo salientar que o agente de IA que escaneia a mensagem na demonstração do Google pode ser um agente muito inteligente. Além dos itens do boletim informativo que mencionavam especificamente os alunos da sétima série, ela também retirou um item sobre uma oportunidade aberta para crianças da quarta à nona série – ela sabe o suficiente para saber que isso também se aplica aos alunos da sétima série.

Perguntas e respostas no Gmail

O recurso de perguntas e respostas do Gmail está chegando ao Google Workspace

(Crédito da imagem: Futuro)

Outra ferramenta que chega ao Gmail é o recurso de perguntas e respostas, onde você pode instruir o Gemini a extrair dados específicos de um lote de e-mails. No exemplo do boletim escolar, o resumo do e-mail indicava que houve uma viagem noturna para a turma da sétima série. Com as novas ferramentas Gemini no painel lateral do Workspace agora disponíveis para usuários do Workspace Labs e Gemini for Workspace Alpha, perguntamos ao Gemini se havia uma lista de embalagem para aquela viagem. Na verdade, havia, e o agente de IA puxou a lista de onde estava enterrada no e-mail.

Embora fosse útil se o recurso de perguntas e respostas procurasse um texto específico, o Google vê essa ferramenta como fazendo mais do que isso. Durante a palestra do Google I/O, Aparna Pappu, vice-presidente e gerente geral do Google Workspace, falou sobre, ainda este ano, quando o Gemini poderá reconhecer recibos e faturas, salvá-los em uma pasta no Google Drive e até mesmo inseri-los em um planilha de acompanhamento em tabelas de dados.

Gêmeos Avançado

Gemini Advanced pode classificar um arquivo PDF de 1.500 páginas

(Crédito da imagem: Futuro)

A demonstração que mostra o modelo Gemini Advanced atualizado com 1.5 Pro provavelmente não foi a demonstração mais convincente que vi no Google I/O, mas possui um recurso visual bastante útil. A imagem acima mostra o tamanho do arquivo PDF de 1.500 páginas se você imprimi-lo. A janela de contexto de 1 milhão de tokens do Gemini Advanced significa que ele é capaz de compreender um documento desse tamanho.

Isso também não se limita a resumir documentos enormes. O Gemini Advanced também pode processar qualquer informação complexa encontrada nessas páginas. Para provar isso, um funcionário do Google pegou dois grandes arquivos PDF cobrindo questões organizacionais semelhantes – um tinha 522 páginas e o outro 144 páginas – e pediu à Gemini Advanced que determinasse quais tópicos eram abordados em um documento, mas não no outro.

Treinamento em inteligência artificial

Demonstração de instrução de futebol baseada em IA no Google I/O 2024

(Crédito da imagem: Futuro)

Minha demonstração favorita no Google I/O me permitiu chutar uma bola de futebol com raiva e usar a análise de IA para determinar onde meus pênaltis erraram. Fiz três tentativas de chutar a bola em direção ao gol enquanto as câmeras mediam meu nível para produzir resultados em termos de potência, precisão e técnica.

A análise veio graças ao Gemini 1.5 Pro, mas não assumiu apenas a forma de números brutos. A IA também gerou reações que foram dubladas por uma pessoa virtual futebol Instrutor, onde os instrutores reais treinaram o modelo sobre o que avaliar. Veredito? Preciso estabilizar meus tornozelos e bater na bola com os ligamentos para gerar força constantemente. Cuidado, Messi.

Projeto Astra

@tomsguide
♬ som original – Guia do Tom

Minha colega Kate Kozuch já falou em detalhes Sua experiência com o projeto Astra No Google I/O, tentarei não repetir o que ela disse sobre a IA baseada em câmera em tempo real que depende do Gemini 1.5 para reconhecer objetos e usar esse conhecimento para fazer tudo, desde jogar até ajudar você a encontrar coisas . Embora algumas das habilidades do Projeto Astra certamente provem que a lógica multimodal por trás do Gemini funciona como anunciado, a capacidade da ferramenta de IA de reconhecer e identificar objetos como maçãs e casquinhas de sorvete usando descrições homogêneas como “lanches deliciosos” não irá… Faça você sonhar. Para um futuro emocionante e cheio de ação da inteligência artificial.

O mais impressionante foi o jogo Pictionary que jogamos com o Project Astra, onde a IA teve que reconhecer o desenho. Esta não foi uma demonstração pronta, pois tive que fazer alguns desenhos, e o Projeto Astra identificou corretamente meu desenho do porco, embora minhas habilidades de desenho sejam melhor descritas como “terapêuticas”. A IA teve menos sucesso em reconhecer o desenho de Totoro feito por outro repórter, pensando que era uma coruja ou um urso, mas foi bom testar o Projeto Astra por conta própria.

Existe um outro lado Projeto Astra O que me chamou a atenção é que ele lembra coisas, sejam os nomes de diferentes bichos de pelúcia mostrados em minha demonstração ou a parte do vídeo do Projeto Astra visto na palestra do Google I/O, onde Gêmeos pode dizer a alguém onde parou seus óculos. Ser capaz de reconhecer coisas diferentes e contextualizá-las é uma coisa; Outra coisa é reter essas informações para uso posterior.

Figura 3

Imagen 3 cria o alfabeto usando picles para cada prompt de texto

(Crédito da imagem: Futuro)

Minha experiência na criação de imagens generativas tem sido amplamente limitada a ferramentas gratuitas com recursos limitados, então fiquei animado por estar no comando para uma função no Imagen 3, a ferramenta generativa de IA do Google que pode usar prompts de texto para criar imagens do nada.

A demonstração do Google envolveu a geração de letras do alfabeto, o que significou 26 resultados diferentes, todos baseados em modelos diferentes. Tive que fornecer o prompt de texto principal – “Pickles empilhados uns sobre os outros” foi minha contribuição – com um Googler fornecendo outros prompts de texto para ajustar a aparência do alfabeto baseado em picles. O resultado de escrever meu nome em picles será algo que apreciarei por muito tempo.

DJ de efeitos musicais

Demonstração do modo MusicFX DJ no Google I/O

(Crédito da imagem: Futuro)

Entrei na demo do MusicFX DJ com algum receio, porque realmente não me importei com a sessão demo/hype pré-keynote dada por um músico improvisador. (Tolerarei muitas coisas, mas barulho alto às 9h30 não é uma delas.) Além disso, embora eu possa ver as vantagens de usar IA para realizar trabalhos repetitivos, sou um pouco ambivalente quanto a usá-la para empreendimentos criativos.

No entanto, uma vez que você tenha o DJ pad à sua frente e controle as batidas, o MusicFX DJ é certamente divertido de usar. meu colega Ryan Morrison detalhou o projeto no início deste ano, mas você pode usar principalmente prompts de texto para criar sons – Vinyl Scratch, Groovy Bass e Horn Section Hits estavam entre os sons disponíveis para mim. Usando os controles deslizantes, posso tornar um som específico mais pronunciado do que outros.

Isso não parece ser algo que substituirá a criação musical real, mas parece ser algo que os músicos podem usar como ferramenta de inspiração ou os professores podem usar para ensinar seus alunos como compor uma música. Isso é muito mais reconfortante do que ter um músico improvisado gritando “Google!” Você tem que fazer isso de novo e de novo, antes que seu café da manhã se torne eficaz.

Mais do guia do Tom

[ad_2]

Source Link

RELATED ARTICLESMORE FROM AUTHOR

Acabei de jogar Pictionary com o Projeto Astra do Google – e agora entendo o entusiasmo em torno do Gemini 1.5

Google Gemini Live vs ChatGPT-4o Voice – Qual assistente de IA pode vencer?

O Google mostra a todos – o novo Gemini Flash 1.5 enfrenta GPT-4o

LEAVE A REPLY Cancel reply

RELATED ARTICLES MORE FROM AUTHOR