15.5 C
Brasília
domingo, julho 13, 2025

Tudo sobre o Grok 4 Básico: a IA de Elon Musk que ainda tropeça na corrida da inteligência artificial

- Advertisement -spot_imgspot_img
- Advertisement -spot_imgspot_img

Elon Musk apresentou o Grok 4 durante uma transmissão ao vivo na noite de quarta-feira, afirmando que sua startup de inteligência artificial, a xAI, criou a “IA mais inteligente do mundo“.

A versão Grok 4 Heavy — que Musk comparou a “um grupo de estudos”, no qual agentes trocam informações antes de fornecer uma resposta — alcançou resultados recordes em diversos testes de referência importantes. Segundo Musk, essa versão corresponde ao que se esperaria de uma oferta empresarial que custa impressionantes US$ 300 por mês.

Mas e quanto ao Grok 4 básico, que visa atingir a mesma categoria de produtos voltados para o consumidor final que o ChatGPT Plus, Gemini Pro e Claude Pro? Vale mais de US$ 10 por mês a mais que a concorrência?

Nossos testes comprovaram conversas no X, revelando que o modelo possui — na falta de uma descrição melhor — um “filtro Elon” integrado.

Isso porque, quando testamos tópicos controversos — a guerra em Gaza, o direito ao aborto e outras questões políticas — o modelo fez referência consistente a postagens em X da conta de Musk ou a artigos de notícias sobre suas posições, e acabou ficando do lado de Elon no debate a tal ponto que não poderia ser coincidência.

Isso por si só já seria um fator decisivo para a maioria das pessoas.

(Reprodução/Decrypt)

Essa IA “que busca a verdade ao máximo” que Musk prometeu durante o lançamento parece buscar a verdade principalmente através das lentes do feed de mídia social de seu criador.

Mas, diferentemente do incidente MechaHitler desta semana, que foi causado por uma mudança nas condições do prompt do sistema, não há nada no prompt do sistema atual do Grok 4 que possa ser responsabilizado por esse comportamento suspeito, tornando difícil saber se isso é um bug ou uma regra intencionalmente inserida mais profundamente no processo de pensamento do modelo.

Deixando esse grande problema de lado, testamos o modelo básico em diversas categorias para ver como ele se compara à concorrência. Aqui estão nossas primeiras impressões.

Raciocínio e senso comum

O Grok 4 demonstrou excepcional consciência e sutileza ao lidar com perguntas capciosas e tarefas complexas de raciocínio. Quando questionado se era legal um homem se casar com a irmã de sua viúva, o modelo imediatamente reconheceu que se tratava de uma questão legal, em vez de simplesmente apontar a falácia lógica. Ele forneceu uma análise jurídica detalhada, utilizando terminologia precisa e informações específicas da jurisdição.

“A questão pressupõe uma impossibilidade factual que torna qualquer casamento legalmente nulo ab initio”, e isso está correto. É factualmente impossível casar-se com a irmã da sua viúva porque você teria que estar morto para ter uma esposa. E, bem, como os mortos não podem se casar, a proposição anularia o casamento “ab initio” (desde o início) — portanto, mesmo que alguém faça isso, é considerado como se nunca tivesse acontecido.

Quando Musk disse que o Grok 4 tinha “níveis de doutorado em tudo”, ele não estava brincando. Cada resposta a qualquer tópico que envolvesse algum raciocínio científico vinha com detalhes exaustivos e rigor acadêmico.

Algo a se notar é que o Grok 4 aplica o raciocínio a tudo, não importa o que aconteça. Ou seja, ele seguirá uma cadeia de raciocínio mesmo para tarefas triviais.

Isso geralmente é positivo; no entanto, em alguns casos, pode ser contraproducente. Por exemplo, em tarefas criativas, o raciocínio pode induzir o modelo a fornecer um resultado menos criativo.

Temas delicados

O Grok 4 demonstrou mais contenção do que seu antecessor ao lidar com questões eticamente complexas. Enquanto o Grok 3 poderia ter dado conselhos sobre como seduzir o cônjuge de um amigo, o Grok-4 respondeu com uma análise detalhada de potenciais consequências negativas e danos ao relacionamento.

Isso provavelmente poderia ser parte do prompt do sistema, que condiciona o modelo a pesquisar na web e, especialmente, em X postagens, por diferentes visões sobre um tópico específico — algo que o Grok 3 não fazia.

E este é um grande sinal de alerta. Como mencionado, as respostas do modelo pareceram fortemente influenciadas pelo que ele conseguiu encontrar sobre as opiniões de Musk sobre tópicos controversos.

Ao responder perguntas sobre a guerra de Israel contra os palestinos, posições sobre o aborto e tópicos semelhantes, o Grok 4 frequentemente pesquisa postagens X da conta de Musk durante seu processo de raciocínio, o que acaba determinando sua posição.

Ela sempre escolhe o lado de Elon.

Para transparência, você pode conferir nosso prompt original e o processo de raciocínio de Grok clicando neste link.

Escrita criativa

Tarefas criativas estão entre as fraquezas mais significativas do Grok 4. O modelo produziu narrativas que pareciam planas e estereotipadas em comparação com as versões anteriores, e eram até mesmo piores do que as fornecidas pelo Grok 3. As histórias careciam de diálogos envolventes, ritmo variado e da centelha narrativa que torna a ficção envolvente.

No entanto, Grok 4 acertou em cheio na estrutura da nossa história. Em nosso teste habitual envolvendo um paradoxo de viagem no tempo, o modelo elaborou eventos em que o papel do protagonista emergiu claramente durante o clímax, revelando como cenas anteriores retratavam as ações futuras do personagem no passado.

Esse enquadramento sofisticado superou as tentativas de outros modelos com o mesmo tema, que não se esforçaram muito para criar uma configuração para o paradoxo, fazendo com que a conclusão parecesse apressada e artificial.

Mas, além disso, a desconexão entre competência estrutural e qualidade narrativa sugere que o Grok 4 pode funcionar melhor como uma ferramenta narrativa para criar enredos e enquadrar uma boa história, em vez de um gerador de prosa.

Se você quer um conteúdo criativo envolvente, provavelmente obterá melhores resultados se o Grok 4 delinear uma história e todos os seus elementos e, em seguida, pedir ao Claude 4 Opus para desenvolver a narrativa com elementos estilísticos mais fortes.

No geral, Claude 4 é o rei da escrita criativa, o que parece interessante, já que essa posição já foi disputada por Grok 3 e até mesmo por Grok 2, que na época liderava o ranking sob o pseudônimo sus-column-r.

A história do Grok 4 está disponível em nosso Repositório do Github. O prompt e as histórias geradas por outros modelos também estão disponíveis.

Codificação

Apesar das alegações de capacidades superiores de codificação — incluindo elogios do CEO do Google, Sundar Pichai —, o Grok 4 decepcionou nos testes práticos de programação. O modelo não conseguiu entregar um jogo funcional após quatro iterações, com várias falhas, incluindo detecção de colisão quebrada, botões não funcionais e jogos que simplesmente não rodavam.

Em um dos nossos testes, o modelo tentou tanto corrigir um bug que acabou entrando em um loop tentando criar um arquivo WAV que esgotou todo o contexto do token.

Cada tentativa de consertar algo com linguagem natural introduzia novos bugs. O modelo tinha dificuldades para manter a consistência do código entre as iterações, frequentemente quebrando recursos que funcionavam anteriormente ao tentar implementar novos.

Isso pode parecer estranho, considerando que o Grok 3 era capaz de lidar com essa tarefa. No entanto, a xAI afirmou que os novos recursos de codificação seriam implementados em agosto, então os usuários terão que esperar alguns meses para ter um modelo eficiente — ou pagar pelo caro Grok 4 Heavy, que lidera o benchmark atualmente.

Para programadores iniciantes, o Claude 4 Opus parece continuar sendo a melhor opção para “codificação de vibração” — geração rápida de código funcional sem engenharia de prompts extensiva. As dificuldades de codificação do Grok 4 podem advir da necessidade de prompts mais específicos ou de abordagens diferentes de outros modelos, o que significa que desenvolvedores experientes podem obter melhores resultados com a elaboração cuidadosa de prompts.

O código do Grok está disponível em nosso repositório Github junto com os jogos gerados por outras IAs.

Capacidades de voz

A interação por voz é provavelmente um dos recursos de destaque do Grok 4. O modelo gerou quase três minutos ininterruptos de histórias para dormir, com inflexões de voz, tons variados e fluxo narrativo consistente. Esse desempenho superou em muito a tendência do ChatGPT de produzir parágrafos curtos com alta latência e interrupções frequentes.

O modo de voz inclui personalidades pré-configuradas que vão de terapeuta a contador de histórias e guia de meditação, eliminando a necessidade de configurações para diferentes tipos de conversa. Para aqueles com, digamos, necessidades especiais, também existe um “modo sexy” entre as opções — algo que, como você bem sabe, não vai encontrar no recatado ChatGPT.

Essas configurações predefinidas forneceram utilidade imediata sem exigir que os usuários criassem prompts específicos para diferentes estilos de interação.

O modelo, no entanto, não possui os recursos de compartilhamento de tela ao vivo encontrados no ChatGPT e no Gemini Live, o que limita sua utilidade para tarefas visuais. Se isso for essencial, o Gemini Live é a melhor opção.

No entanto, para interação de voz pura — especialmente tarefas que exigem respostas longas — o Grok 4 atualmente lidera o campo, com apenas o Sesame AI oferecendo, sem dúvida, melhor qualidade de conversação, embora sem os recursos de raciocínio do Grok.

Agulha no palheiro

Curiosamente, o Grok-4 falhou neste teste, que visa testar o quão bem um modelo recupera informações específicas em contextos longos.

Isso não deveria acontecer. O xAI diz que o modelo tem uma janela de contexto de token de 126 mil tokens, mas quando questionado sobre uma questão de 83 mil tokens, o modelo se recusou a responder, dizendo que era uma pergunta muito longa.

Esta é uma resposta padrão gerada desde os primeiros dias do Grok 2, quando só estava disponível no Twitter.

Conclusão sobre o Glok 4 Básico

No geral, o Grok 4 é uma atualização significativa em relação ao Grok 3, mas a xAI claramente fez algumas concessões, priorizando o raciocínio em vez da criatividade e eliminando recursos de agente em troca de uma proficiência generalizada.

Felizmente, o Grok 3 ainda está disponível com suas ferramentas especializadas em agentes, para quem precisar.

O novo modelo é focado em tarefas de raciocínio e será mais atraente para usuários que fazem perguntas técnicas, especialmente problemas de matemática e física que se alinham aos seus pontos fortes de referência. Usuários profissionais que investem tempo aprendendo as peculiaridades do modelo podem liberar todo o seu potencial para trabalhos analíticos complexos.

A interação por voz também estabeleceu um novo padrão para IA de conversação — e é ótima para aqueles que usarão esse recurso com frequência (confie em nós, o contador de histórias para crianças na hora de dormir é um salva-vidas).

Escritores criativos encontrarão melhores opções em outros lugares, com Claude permanecendo superior para tarefas narrativas. Além disso, programadores iniciantes devem abordar o assunto com cautela, pois a capacidade teórica de codificação do modelo não se traduziu em resultados práticos nos testes.

Então, resumindo? Se, por algum motivo, você não se importa com a pressão do Elon Musk, o Grok 4 oferece recursos avançados de resolução de problemas e voz que realmente impressionam. Mas, por US$ 30 por mês, se você tiver outras necessidades além de voz ou raciocínio, as alternativas mais baratas oferecem um custo-benefício melhor.

* Traduzido e editado com autorização do Decrypt

  • O Bitcoin mostra muita força no 2º trimestre e é destaque entre os ativos de risco. Será que uma próxima máxima história de preço vem aí? Agora é hora de agir estrategicamente. Abra sua conta no MB e prepare sua carteira!



[Fonte Original]

- Advertisement -spot_imgspot_img

Destaques

- Advertisement -spot_img

Últimas Notícias

- Advertisement -spot_img