Como Saber se O Que Você Está Lendo Foi Escrito por IA

Como saber se o que você está lendo foi escrito por IA

Este artigo faz parte da série “Expondo a Inteligência Artificial” do Lifehacker. Estamos explorando seis tipos diferentes de mídia gerada por AI e destacando as peculiaridades, subprodutos e características comuns que ajudam a diferenciar o conteúdo criado por inteligência artificial do criado por humanos.

Desde o momento em que o ChatGPT apresentou ao mundo a AI gerativa em meados de 2022, ficou claro que, a partir de então, não se pode mais confiar que algo que se está lendo foi escrito por um humano. Você pode pedir a um programa de AI como o ChatGPT para escrever algo – qualquer coisa, na verdade – e ele o fará em poucos segundos. Então, como pode ter certeza de que o que você está lendo veio da mente de uma pessoa e não do produto de um algoritmo?

Se a desinflação contínua da bolha da IA nos ensinou alguma coisa, é que a maioria das pessoas tem uma certa aversão à IA em geral, o que significa que provavelmente não gostam da ideia de que o que estão lendo foi cuspido por uma máquina sem pensar. Ainda assim, alguns já abraçaram de todo coração a capacidade da IA de gerar texto realista, para melhor ou, com frequência, para pior. No ano passado, a CNET começou a publicar secretamente conteúdo gerado por AI ao lado de artigos escritos por humanos, apenas para enfrentar críticas e reações negativas de seus próprios funcionários. A antiga empresa-mãe do Lifehacker, a G/O Media, também publicou conteúdo gerado por AI em seus sites, embora de forma aberta, e recebeu a mesma reação – tanto pela implementação da tecnologia sem qualquer entrada dos funcionários quanto porque o próprio conteúdo era simplesmente terrível.

Mas nem todo o texto gerado por AI se anuncia tão claramente. Quando usado corretamente, os programas de AI podem gerar texto que seja convincente – mesmo que ainda seja possível perceber sinais que revelam sua fonte não humana.

Como a escrita da AI funciona

A AI gerativa não é uma consciência digital onisciente que pode responder às suas perguntas como um humano. Na verdade, ela não é "inteligente" de forma alguma. Os atuais instrumentos de AI são alimentados por modelos de linguagem grandes (LLMs), que são algoritmos de aprendizado profundo treinados em enormes conjuntos de dados – neste caso, conjuntos de dados de texto. Esse treinamento influencia todas as suas respostas às consultas do usuário. Quando você pede ao ChatGPT para escrever algo, a AI quebra sua pergunta e identifica o que ela "acha" que são os elementos mais importantes na sua consulta. Em seguida, "preve" qual seria a sequência correta de palavras para responder à sua solicitação, com base em sua compreensão da relação entre as palavras.

Os modelos mais poderosos são capazes de processar mais informações de uma só vez e retornar resultados mais longos e naturais. Além disso, é comum que os chatbots sejam programados com instruções personalizadas que se aplicam a todas as consultas, o que, se usadas estrategicamente, pode potencialmente mascarar os sinais habituais de texto gerado por AI.

No entanto, não importa como você faça a AI responder, ela está presa ao seu treinamento e haverá sinais de que um texto foi gerado por um LLM. Aqui estão algumas coisas para ficar de olho.

Observe as palavras e frases comuns

Porque os chatbots foram treinados para procurar as relações entre as palavras, eles tendem a usar certas palavras e frases com mais frequência do que um ser humano usaria. Não há uma lista específica de palavras e frases que servem como bandeiras vermelhas, mas se você usar ferramentas como o ChatGPT o suficiente, você pode começar a perceber quais são elas.

Por exemplo, o ChatGPT costuma usar a palavra "delve", especialmente durante as transições na escrita. (por exemplo: "Vamos delvar em seu significado.") A ferramenta também adora expressar como uma ideia "subentende" o argumento geral (por exemplo: "Essa experiência subentende a importância da perseverança...") e como uma coisa é "um testemunho de" outra. (Gerei três ensaios com o ChatGPT para esta seção – dois com GPT-4o e um com GPT-4o mini – e "testemunho" apareceu em cada um deles.)

Da mesma forma, você pode ver o uso repetido de palavras como "emerge", "relentless", "groundbreaking", entre outros destaques notáveis. Em particular, quando o ChatGPT estiver descrevendo uma coleção de algo, ele costuma chamá-la de "mosaico" ou "tapeçaria". (por exemplo: "O cenário cultural de Madrid é um vibrante mosaico.")

Esta postagem do Reddit no r/chatgpt destaca uma série de palavras geradas com frequência, embora seja importante notar que a postagem tem 10 meses de idade e a OpenAI atualiza seus modelos com frequência, então algumas delas podem não ser tão relevantes hoje em dia. Em meus testes, descobri que algumas das palavras mais citadas na postagem do Reddit não apareceram em meus ensaios de teste, enquanto outras certamente apareceram, com frequência.

Todas essas palavras são perfeitamente adequadas para serem usadas em sua própria escrita. Se um aluno escrever "delve into" em seu ensaio, isso não é uma prova cabal de que ele o gerou com o ChatGPT. Se um funcionário escrever que algo é "um testemunho de" algo em um relatório, isso não significa que eles estão terceirizando seu trabalho para a AI. Esta é apenas uma das coisas a se notar à medida que você analisa o texto a partir de agora.

Considere o estilo da escrita

É impressionante como a AI pode gerar uma resposta a uma consulta em pouco tempo, especialmente quando se trabalha com um modelo de LLM particularmente poderoso. E enquanto algumas dessas escritas podem parecer muito naturais, se você estiver lendo de perto, começará a notar peculiaridades que a maioria dos escritores humanos não usaria.

Seja qual for AI você estiver usando, seja o modelo GPT da OpenAI ou o Gemini do Google, a AI tem um mau hábito de usar linguagem floreada em suas gerações, como se tivesse sido treinada principalmente em cópias de marketing. A AI geralmente tentará vender você com força sobre o que quer que esteja falando: A cidade sobre a qual ela está escrevendo é frequentemente "integral", "vibrante" e um "pilar" do país em que está; a analogia que ela usa "belamente" destaca o argumento geral; uma consequência negativa não é apenas ruim, mas "devastadora". Nenhum desses exemplos é condenatório isoladamente, mas se você ler o suficiente de texto de AI, começará a sentir como se tivesse falado com um sinônimo.

Isso fica ainda mais aparente quando um chatbot tenta usar um tom casual. Se o bot estiver fingindo ser uma pessoa real, por exemplo, ele geralmente apresentará como animado e exagerado, e muito entusiasmado para ouvir qualquer coisa que você tenha a dizer. Justiça seja feita, em meu teste para este artigo, o modelo GPT-4o do ChatGPT não pareceu fazer isso tanto quanto costumava fazer, preferindo respostas mais sucintas a consultas pessoais - mas o chatbot da Meta AI ainda faz isso, assumindo os papéis de melhor amigo e terapeuta sempre que eu compartilho um problema falso que estou tendo.

Se você estiver lendo um ensaio ou artigo que expressa uma argumentação, preste atenção em como o "escritor" estrutura seus pontos. Alguém que pede a uma ferramenta de AI para escrever um ensaio sobre um assunto sem lhe dar muito treinamento provavelmente receberá um ensaio que não mergulha muito na argumentação. A AI provavelmente gerará parágrafos curtos que oferecem pontos de nível superficial que não acrescentam muito para aprofundar a argumentação ou contribuir para a narrativa, mascarando essas limitações com as palavras de $10 e linguagem floreada. Cada parágrafo pode parecer mais umasummary do argumento, em vez de uma tentativa de contribuir para o argumento em si. Lembre-se, uma LLM não sabe nem mesmo do que está argumentando; ela apenas junta palavras que acredita que pertencem juntas.

Se você sentir que saiu da peça tendo aprendido nada, isso pode ser obra da AI.

Verifique os fatos e revise

As LMs são caixas-pretas. Seu treinamento é tão complexo que não podemos olhar para dentro para ver exatamente como elas estabeleceram sua compreensão das relações entre as palavras. O que sabemos é que todas as AI têm a capacidade (e a tendência) de alucinar. Em outras palavras, às vezes a AI apenas inventa coisas. Novamente, as LMs não sabem nada de fato: Elas apenas preveem padrões de palavras com base em seu treinamento. Então, enquanto muito do que elas cuspem provavelmente estará enraizado na verdade, às vezes elas preveem incorretamente, e você pode obter alguns resultados estranhos do outro lado. Se você estiver lendo um texto e vir uma afirmação que sabe que não é verdadeira sendo apresentada como fato, especialmente sem uma fonte, seja cético.**

Por outro lado, considere quanto a peça exigiu revisão. Se não houver erros de digitação e nenhuma falha gramatical, isso também é um sinal de AI: Esses modelos podem inventar coisas, mas não produzem erros como erros de ortografia. Claro, talvez o autor tenha se certificado de pontuar todos os "i" e cruzar todos os "t", mas se você já estiver preocupado que o texto foi gerado com AI, um excesso de perfeccionismo pode ser um indício.

Tente um detector de texto AI (mas você também não pode confiar neles)

Os detectores de AI, como as LMs, são baseados em modelos de AI. No entanto, em vez de serem treinados em grandes volumes de texto geral, esses detectores são treinados especificamente em texto de AI. Em teoria, isso significa que eles deveriam ser capazes de identificar texto de AI quando apresentado com uma amostra. Isso nem sempre é o caso.**

Quando escrevi sobre detectores de AI no ano passado, avisei para não usá-los, porque eles não eram tão confiáveis quanto alegavam. É difícil dizer quanto eles melhoraram desde então: Quando alimentar uma das minhas histórias através de uma ferramenta como o ZeroGPT, ela diz que minha peça foi 100% escrita por humanos. (Claro.) Se eu submeter um ensaio gerado pelo Gemini sobre a importância da perda dos pais de Harry na série Harry Potter, a ferramenta identifica 94,95% da peça como gerada por AI. (A única frase que ela acha que foi escrita por um humano foi: "Essa aposta pessoal no conflito distingue Harry de outros personagens, lhe concedendo um propósito inabalável." Claro.)

E ainda assim o detector falha no mesmo teste que lhe dei em 2023: Ele acredita que 100% do Artigo 1., Seção 2. da Constituição dos Estados Unidos é gerada por AI. Alguém avise o Congresso! Também configurei-o para analisar este artigo curto do The New York Times, publicado em 16 de julho de 2015, muito antes da chegada das LMs modernas. Novamente, fui assegurado de que a peça era 100% AI.

Há muitos detectores de AI no mercado, e talvez alguns sejam melhores que outros. Se você encontrar um que tende a identificar consistentemente o texto que você sabe ser escrito por humanos como tal, e da mesma forma para o texto que você sabe ser AI, vá em frente e teste a escrita que você não tem certeza. Mas ainda acho que o método superior é analisá-lo você mesmo. O texto de AI está ficando cada vez mais realista, mas ainda vem com muitas pistas que o entregam - e muitas vezes você saberá quando vir isso.

Para analisar texto gerado por IA de forma mais eficaz, é fundamental conhecer os tiques linguísticos comuns que os modelos de IA costumam apresentar, como o excesso de uso de palavras ou frases específicas.
No mundo da tecnologia, há uma necessidade crescente de aprender a diferenciar entre conteúdo gerado por IA e criado por humanos, especialmente à medida que os chatbots e outras ferramentas de IA continuam a evoluir e melhorar.