Compartilhe este texto

Spam de IA já polui busca do Google, e usuários aderem ao 'antes de 2023'

Por Folha de São Paulo

07/07/2024 18h30 — em
Economia



SÃO PAULO, SP (FOLHAPRESS) - Autodenominada uma empresa de inteligência artificial, o Google reconhece que o spam feito a partir de IA generativa -com textos, áudios e vídeos- pode deixar a internet "em ruínas".

Esse foi o diagnóstico de um estudo elaborado pelo braço de IA da big tech, a Deepmind, e pelo think tank de cibersegurança do grupo, Jigsaw, que veio a público no último dia 21.

Os primeiros sinais da poluição por IA já aparecem em buscas no próprio Google. Entre os 11 primeiros resultados em uma pesquisa por imagens do escritor Machado de Assis, duas mostram o avatar de IA que a ABL (Academia Brasileira de Letras) criou de Machado de Assis -alvo de críticas por reproduzir uma versão branca do escritor.

Os vestígios do uso de IA para produção de conteúdo começam a ficar visíveis em outras partes da internet. Nos textos, é aparente sobretudo em dúvidas cotidianas, que costumavam ser atendida por sites especializados.

A busca sobre "o que levar a um acampamento", por exemplo, hoje leva a textos bastantes similares entre si, hospedados em portais comerciais. O estilo do ChatGPT está ali em maior ou menor grau e é apontado por sites de reconhecimento de uso de IA -ainda pouco confiáveis.

Ao usar o comando "before:2023", que limita os resultados ao que foi publicado de 2022 para trás, ganha destaque, por exemplo, o blog especializado "Eu me aventuro", mantido pelos jornalistas paranaenses Carolina Leal e Lilo Barros.

Além de apontar os equipamentos básicos, como os demais textos adaptados para SEO (otimização para manter um texto no topo dos resultados do Google), o post de Leal e Barros acrescenta dicas úteis ao leitor de quem está acostumado a acampar. "Antes de gastar comprando equipamentos de camping, procure alugar ou emprestar de algum amigo", recomenda o texto.

É esse tipo de toque pessoal que especialistas consultados pela Folha temem que perca espaço com o avanço da inteligência artificial internet afora.

Em fóruns especializados como Hacker News e em tweets de personalidades do mundo da tecnologia como Elon Musk circula a recomendação de procurar páginas anteriores a 2023, com o comando "before:2023". Trata-se de um filtro, aplicável na busca do Google.

Para o cientista-chefe do Instituto Tecnologia e Sociedade do Rio de Janeiro (ITS-Rio) e também colunista da Folha, Ronaldo Lemos, a tática só não se tornou mais popular no Brasil por falta de divulgação.

A inteligência artificial gera um desafio para a organização da informação na internet, e esse é justamente o trabalho de buscadores como o Google, diz o pesquisador.

A big tech dispõe de uma ferramenta chamada PageRank, cujo propósito é dar uma nota de relevância para cada página da web de acordo com o que o usuário busca. São considerados mais de 14 mil critérios, como presença de imagens, vídeos e reputação do site, de acordo com vazamento de uma versão antiga do algoritmo do buscador.

Uma das formas de confundir esse algoritmo é inundar a internet com conteúdo gerado sinteticamente "em escala descomunal", segundo Lemos.

"Antes da IA generativa essa técnica já havia sido tentada para dominar os buscadores, por meio das chamadas fazendas de conteúdo", recorda o especialista.

Eram empresas empregavam, preferencialmente, trabalho de baixo custo em países do sudeste asiático para produzir, em massa, conteúdos genéricos e ganhar com os cliques que esses conteúdos geravam. Mas essa estratégia esbarrava no custo e na quantidade de trabalhadores disponíveis. "Agora [com a IA generativa] esse limite não existe mais na prática", afirma Lemos.

"Isso começa a influenciar o resultado dos buscadores, que não conseguem mais diferenciar o joio do tribo, o que é real do que é conteúdo produzido de forma coordenada e inautêntica", resume.

Nos conteúdos em inglês, essa enxurrada de spam sintético já é mais perceptível.

A pesquisa do Google chamada "Abuso com IA generativa: uma taxonomia das táticas e percepções a partir de dados do mundo real" encontrou 200 matérias reportando sobre usos nocivos da tecnologia, a partir de buscas pelas palavras-chave "ChatGPT", "gerado por IA", "deepfake", entre outras.

Mais de 20 delas tinham relação com o emprego de IA para dar escala a injeções de spam na internet e outras 20 usavam uma tática chamada de contas-fantoche (sockpuppeting no original) --a criação de contas falsas, facilitada por recursos de inteligência artificial generativa, para divulgar conteúdo na internet.

O The Guardian mostrou, por exemplo, que um "exército de fakes" defendeu no X (ex-Twitter) a candidatura dos Emirados Árabes Unidos à presidência da COP28 (28ª Conferência da ONU sobre Mudanças Climáticas).

A pesquisa do Google indica que há três principais objetivos no uso abusivo de IA: manipulação da opinião pública, lucro e fraudes.

Outros levantamentos, como o da agência especializada no monitoramento de material malicioso e sintético na internet Newsguard, corroboram o diagnóstico do Google. A empresa americana registrou 976 fontes de notícias duvidosas geradas por IA e já encontrou portais jornalísticos falsos no Brasil. Só entram na lista portais sem curadoria humana adequada, segundo avaliação da Newsguard.

De acordo com Lemos, a escolha preferencial pelo inglês tem a ver com o tamanho do mercado: 52% do conteúdo da rede está em inglês. Porém esse pode ser o destino do português, a sétima língua mais usada na internet.

"Os mercados das línguas menores, por serem menos competitivos, podem até ser mais lucrativos", diz o pesquisador.

Após notícias críticas circularem na imprensa, o Google atualizou seu algoritmo em março para penalizar textos e imagens geradas por inteligência artificial. A companhia avisou que começaria a tirar da sua lista de sites monitorados aqueles que mantivessem conteúdo de baixa qualidade. A big tech estima que reduzirá a circulação de conteúdo não original em até 40% com a medida.

Para o escritor e pesquisador de tecnologia canadense Corey Doctorow, todavia, uma deterioração nos resultados dos resultados do Google vem de ainda antes do avanço a IA generativa. Teria ver com "um foco maior em conseguir lucro com anúncios e conteúdos SEO, nesse momento do mercado em que as big techs estão se capitalizando, com cortes de custos, para investir mais em inteligência artificial."

"O Google virou o maior símbolo da bostificação: uma companhia revolucionou a busca na internet, com uma pesquisa que parecia mágica, decaiu tanto que sumiu com seções inteiras da internet para 90% dos usuários que usam a plataforma como o portão para a internet", afirma o escritor.

O comando "before" é apenas uma das opções de filtro disponíveis no Google. É possível usar uma data qualquer como parâmetro. Ainda há o comando "after", que delimita as buscas às datas após a indicada.

Veja outros comandos da busca avançada:

Uso de aspas: colocar palavras ou frases entre aspas delimita a busca a resultados com menções idênticas à indicada Site: Restringe os resultados de buscas a determinado domínio na internet. Exemplo: "site:gov.br" retorna resultados apenas dos sites do governo Região: Limita os resultados a uma localidade geográfica Filetype: Limita os resultados a arquivos no formato indicado SafeSearch: Evita conteúdo explícito Para excluir palavras da busca: Use o sinal "-" seguido da palavra que deseja excluir. Exemplo: "seleção de futebol -brasileira"


Siga-nos no
O Portal do Holanda foi fundado em 14 de novembro de 2005. Primeiramente com uma coluna, que levou o nome de seu fundador, o jornalista Raimundo de Holanda. Depois passou para Blog do Holanda e por último Portal do Holanda. Foi um dos primeiros sítios de internet no Estado do Amazonas. É auditado pelo IVC e ComScore.

ASSUNTOS: Economia

+ Economia