Quais ferramentas de IA ainda parecem exageradas após testes?
A distância entre uma demo tecnológica viral e uma ferramenta de escritório útil está a aumentar. Estamos atualmente num período em que os departamentos de marketing prometem magia, enquanto os utilizadores recebem um autocompletar glorificado. Muitas pessoas esperam que estes sistemas pensem, mas eles apenas preveem a palavra seguinte numa sequência. Este mal-entendido leva à frustração quando uma ferramenta falha na lógica básica ou inventa factos. Se precisa de uma ferramenta 100 por cento fiável sem supervisão humana, deve ignorar completamente a atual vaga de assistentes generativos. Eles não estão prontos para ambientes de alta responsabilidade onde a precisão é a única métrica que importa. No entanto, se o seu trabalho envolve brainstorming ou rascunhos, existe utilidade escondida sob o ruído. A principal conclusão é que estamos a sobrestimar a inteligência destas ferramentas enquanto subestimamos a quantidade de trabalho necessária para as tornar úteis. A maior parte do que vê nas redes sociais é um desempenho cuidadosamente curado que se desmorona sob a pressão de uma semana de trabalho padrão de quarenta horas.
Motores de previsão em fatos elegantes
Para entender por que tantas ferramentas parecem uma desilusão, tem de entender o que elas realmente são. Estes são large language models. São motores estatísticos treinados em conjuntos de dados massivos de texto humano. Eles não têm um conceito de verdade, ética ou realidade física. Quando faz uma pergunta, o sistema procura padrões nos seus dados de treino para gerar uma resposta que soe plausível. É por isso que são tão bons em poesia, mas tão maus a matemática. Eles estão a imitar o estilo de uma resposta correta em vez de realizar a lógica subjacente necessária para a alcançar. Esta distinção é a fonte do equívoco comum de que a IA é um motor de busca. Um motor de busca encontra informação existente. Um LLM cria uma nova cadeia de texto baseada em probabilidade. É por isso que ocorrem “alucinações”. O sistema está simplesmente a fazer o que foi construído para fazer, que é continuar a falar até atingir um stop token.
O mercado atual está inundado de wrappers. Estas são aplicações simples que usam uma API de uma empresa como a OpenAI ou Anthropic, mas adicionam uma interface personalizada. Muitas destas startups afirmam ter tecnologia única, mas são frequentemente apenas o mesmo modelo com uma aparência diferente. Deve ter cuidado com qualquer ferramenta que não explique a sua arquitetura subjacente. Existem três tipos principais de ferramentas atualmente a ser testadas no terreno:
- Geradores de texto para e-mails e relatórios que soam frequentemente robóticos.
- Criadores de imagem que lutam com detalhes específicos como mãos humanas ou texto.
- Assistentes de código que conseguem escrever boilerplate, mas lutam com lógica complexa.
A realidade é que estas ferramentas são melhor vistas como estagiários que leram todos os livros do mundo, mas nunca viveram nele. Exigem verificação constante e instruções específicas para produzir algo de valor. Se espera que trabalhem autonomamente, ficará desapontado todas as vezes.
A economia global do FOMO
A pressão para adotar estas ferramentas não vem da sua eficiência comprovada. Vem de um medo global de ficar de fora. Grandes corporações estão a gastar milhares de milhões de dólares em licenças porque têm medo que os seus concorrentes encontrem uma vantagem secreta. Isto criou um momento económico estranho onde a procura por IA é alta, mas os ganhos de produtividade reais são difíceis de medir. De acordo com pesquisas de organizações como o Gartner group, muitas destas tecnologias estão atualmente no pico das expectativas inflacionadas. Isto significa que um período de desilusão é inevitável à medida que as empresas percebem que substituir trabalhadores humanos é muito mais difícil do que os argumentos de venda sugeriam. O impacto é sentido mais nas economias em desenvolvimento, onde a externalização era anteriormente o principal motor de crescimento. Agora, essas mesmas tarefas estão a ser automatizadas por IA de baixa qualidade, levando a uma corrida para o fundo em termos de qualidade de conteúdo.
Estamos a ver uma mudança na forma como o trabalho é valorizado. A capacidade de escrever um e-mail básico já não é uma competência comercializável. O valor mudou para a capacidade de verificar e editar. Isto cria um novo tipo de fosso digital. Aqueles que podem pagar pelos modelos mais poderosos e têm as competências para os orientar eficazmente vão ganhar vantagem. Todos os outros ficarão presos a usar os modelos gratuitos de nível inferior que produzem resultados genéricos e frequentemente incorretos. Este não é apenas um problema tecnológico. É uma mudança económica que afeta a forma como treinamos a próxima geração de trabalhadores. Se confiarmos demasiado nestes sistemas para tarefas de nível inicial, podemos perder a experiência humana necessária para supervisionar os sistemas no futuro. Os mais recentes benchmarks de desempenho de IA em [Insert Your AI Magazine Domain Here] mostram que, embora os modelos estejam a ficar maiores, a taxa de melhoria no raciocínio está a abrandar. Isto sugere que podemos estar a atingir um teto com a abordagem atual ao machine learning.
Uma terça-feira a consertar a máquina
Considere a experiência da Sarah, uma gestora de projetos numa empresa de média dimensão. Ela começa o dia a pedir a um assistente de IA para resumir uma longa cadeia de e-mails da noite anterior. A ferramenta fornece uma lista limpa de pontos. Parece perfeita até ela perceber que falhou completamente uma alteração de prazo mencionada no terceiro e-mail. Este é o custo oculto da IA. A Sarah poupou cinco minutos na leitura, mas gastou dez minutos a verificar o resumo porque já não confia na ferramenta. Mais tarde, tenta usar um gerador de imagens de IA para criar um gráfico simples para uma apresentação. A ferramenta dá-lhe um gráfico bonito, mas os números nos eixos são disparates. Ela acaba por gastar uma hora num programa de design tradicional para corrigir o que deveria ser uma tarefa de dez segundos. Esta é a realidade diária de muitos trabalhadores. As ferramentas proporcionam uma vantagem inicial, mas frequentemente levam-no na direção errada.
O problema é que estas ferramentas são desenhadas para serem confiantes, não corretas. Elas dar-lhe-ão uma resposta errada com o mesmo tom de autoridade que uma certa. Isto cria uma taxa mental para o utilizador. Nunca pode relaxar verdadeiramente enquanto as usa. Para um escritor, usar uma IA para gerar um primeiro rascunho parece muitas vezes limpar a confusão de outra pessoa. É frequentemente mais rápido escrever a peça do zero do que remover os clichés e frases repetitivas que estes modelos favorecem.
BotNews.today utiliza ferramentas de IA para pesquisar, escrever, editar e traduzir conteúdo. Nossa equipe revisa e supervisiona o processo para manter as informações úteis, claras e confiáveis.
Questões difíceis para a C-Suite
À medida que integramos estes sistemas mais profundamente nas nossas vidas, temos de perguntar sobre os custos ocultos. O que acontece à nossa privacidade quando cada prompt que escrevemos é usado para treinar a próxima versão do modelo? A maioria das empresas não tem uma política clara sobre a retenção de dados. Se inserir um documento de estratégia proprietário num LLM público, essa informação poderia teoricamente ressurgir na consulta de um concorrente. Existe também o custo ambiental. Treinar e executar estes modelos requer uma quantidade massiva de eletricidade e água para arrefecer os centros de dados. Um estudo na Nature destaca que a pegada de carbono de uma única consulta de um grande modelo é significativamente maior do que a de uma consulta num motor de busca padrão. Será a ligeira conveniência de um e-mail gerado compensada pelo impacto ecológico? Também precisamos de considerar as implicações de direitos de autor. Estes modelos foram treinados no trabalho de milhões de artistas e escritores sem o seu consentimento. Estamos essencialmente a usar uma máquina que foi construída sobre trabalho roubado.
Existe também a questão da intuição humana. Se externalizarmos o nosso pensamento para máquinas, perdemos a capacidade de detetar erros? Já estamos a ver um declínio na qualidade do conteúdo web à medida que artigos gerados por IA inundam a internet. Isto cria um ciclo de feedback onde os modelos são treinados na produção de outros modelos, levando a uma degradação da informação conhecida como model collapse. Se a internet se tornar um mar de texto de IA reciclado, de onde virão as novas ideias? Estes não são apenas obstáculos técnicos. São questões fundamentais sobre o tipo de mundo que queremos construir. Estamos atualmente a priorizar a velocidade e o volume sobre a precisão e a originalidade. Isto pode funcionar por alguns anos, mas os custos a longo prazo para a nossa inteligência coletiva podem ser graves. Temos de decidir se queremos ferramentas que nos ajudem a pensar ou ferramentas que pensem por nós.
Limites técnicos para o power user
Para aqueles que querem ir além da interface de chat básica, as limitações tornam-se ainda mais aparentes. Os power users procuram frequentemente integrações de fluxo de trabalho e acesso a API para construir soluções personalizadas. No entanto, em breve batem na parede das janelas de contexto e limites de tokens. Uma janela de contexto é a quantidade de informação que o modelo consegue “lembrar” durante uma única conversa. Embora alguns modelos afirmem lidar com livros inteiros, a precisão da sua recordação cai significativamente no meio do texto. Isto é conhecido como o fenómeno “lost in the middle”. Se está a construir um sistema automatizado, também tem de lidar com limites de taxa. A maioria dos fornecedores restringe quantos pedidos pode fazer por minuto, o que torna difícil escalar uma ferramenta para uma grande base de utilizadores sem custos significativos. O preço também é volátil, à medida que as empresas tentam descobrir como tornar estes sistemas caros rentáveis.
Tem uma história, ferramenta, tendência ou pergunta sobre IA que acha que deveríamos cobrir? Envie-nos a sua ideia de artigo — gostaríamos muito de a ouvir.O armazenamento local e a inferência local estão a tornar-se o caminho preferido para geeks preocupados com a privacidade. Ferramentas como Ollama ou LM Studio permitem-lhe executar modelos no seu próprio hardware. Isto resolve o problema da privacidade, mas introduz um estrangulamento de hardware. Para executar um modelo de alta qualidade localmente, precisa de uma GPU poderosa com muita VRAM. A maioria dos portáteis de consumo terá dificuldade em executar qualquer coisa maior do que um modelo de 7 mil milhões de parâmetros a uma velocidade utilizável. Existem também desafios de software. Integrar estes modelos num fluxo de trabalho existente requer geralmente conhecimento de Python ou de uma linguagem semelhante. Tem de gerir system prompts, definições de temperatura e amostragem top-p para obter resultados consistentes. Os seguintes fatores são críticos para qualquer pessoa que tente construir um fluxo de trabalho de IA profissional:
- A capacidade de VRAM é o limite principal para executar modelos locais.
- A latência aumenta à medida que o tamanho do modelo ou o comprimento do prompt cresce.
- Os system prompts devem ser cuidadosamente desenhados para evitar que o modelo se desvie da tarefa.
Mesmo com o melhor hardware, ainda está a lidar com um sistema que é inerentemente imprevisível. Pode enviar o mesmo prompt duas vezes e obter dois resultados diferentes. Esta falta de determinismo é um pesadelo para a engenharia de software tradicional. De acordo com um relatório do MIT Technology Review, a indústria ainda está à procura de uma forma de tornar os LLMs consistentemente fiáveis para tarefas de missão crítica. Até que isso aconteça, eles permanecerão uma ferramenta de entusiasta ou um assistente secundário em vez de um cavalo de batalha principal.
O veredito final sobre o ruído
O estado atual da IA é uma mistura de potencial genuíno e exagero extremo. Temos ferramentas que são incrivelmente boas a resumir texto, traduzir línguas e escrever código básico. Também temos uma quantidade massiva de hype que sugere que estas ferramentas estão prestes a tornar-se sencientes ou a substituir todo o trabalho humano. A verdade está algures no meio. Se usar estas ferramentas como um ponto de partida, podem ser úteis. Se as usar como um produto final, está a pedir problemas. A questão viva que permanece é se alguma vez resolveremos o problema da alucinação. Alguns especialistas acreditam que é uma parte inerente da forma como estes modelos funcionam, enquanto outros pensam que mais dados e melhor treino resolverão o problema. Até que isso esteja resolvido, a melhor abordagem é a de um ceticismo cauteloso. Use as ferramentas que resolvem um problema específico para si hoje e ignore as promessas do que poderão fazer amanhã. A ferramenta mais importante no seu fluxo de trabalho continua a ser o seu próprio julgamento.
Nota do editor: Criamos este site como um centro de notícias e guias de IA multilíngue para pessoas que não são geeks de computador, mas que ainda querem entender a inteligência artificial, usá-la com mais confiança e acompanhar o futuro que já está chegando.
Encontrou um erro ou algo que precisa ser corrigido? Informe-nos.