Reddit bloqueou Bing devido à IA, não um acordo com o Google

Reddit bloqueou o Bing por causa da IA, não por um acordo com o Google

Após os resultados do Reddit começarem a desaparecer dos mecanismos de busca que não são o Google na semana passada, a empresa finalmente veio a público explicar o porquê, basicamente minimizando o problema de busca e dizendo que está cansada de empresas de IA treinarem em seus dados de graça.

"Temos tido a Microsoft, a Anthropic e a Perplexity agindo como se todo o conteúdo da internet fosse de graça para eles usarem", disse o CEO do Reddit, Steve Huffman, à The Verge em uma entrevista. "O que nos colocou na posição de bloquear pessoas que não estiveram dispostas a negociar como gostaríamos que nossos dados fossem usados ou não."

Huffman acusou a Microsoft de treinar sua IA nos dados do Reddit raspados através do Bing, bem como de vender esses dados através da API do Bing. Parece que a retirada das buscas do Reddit foi principalmente um subproduto do bloqueio desse processo, embora a empresa também não tenha gostado do mecanismo de busca do Bing usar IA para resumir suas postagens sem que os usuários precisem clicar nelas.

Mas como lutar contra a IA pode atrapalhar a busca? Embora possam parecer tecnologias totalmente separadas, tanto a IA quanto a busca dependem de "crawlers da web", que navegam pela internet coletando dados que podem ser armazenados, exibidos ou usados em outros lugares. Essa tecnologia é necessária para que os mecanismos de busca funcionem da maneira como funcionam, mas também pode ser usada para treinamento de IA. Quando os sites atualizam seus arquivos para bloquear os crawlers da web, isso atrapalha ambos.

Dado que Huffman passou a maior parte do tempo falando sobre IA, parece que o cerne do problema é que o Reddit não quer que empresas treinem em seus dados de usuário sem ter nenhuma palavra a dizer, com Huffman dizendo à The Verge que empresas como a Microsoft, a Anthropic e a Perplexity se recusaram a negociar.

"Sem esses acordos, não temos nenhuma palavra a dizer ou conhecimento de como nossos dados são exibidos ou para que são usados." O CEO disse que tem sido "um verdadeiro incômodo bloquear essas empresas".

Isso não significa que o Reddit esteja sendo completamente altruísta, é claro. No início deste ano, a empresa assinou um acordo de licenciamento de US$ 60 milhões por ano que permite que o Google treine sua IA em postagens de usuário, o que também explicaria por que as postagens do Reddit ainda aparecem sem problemas na busca do Google. Da mesma forma, a OpenAI também pode treinar em postagens do Reddit, e seu próximo SearchGPT poderá linká-las, embora o valor exato por trás do acordo do Reddit com a empresa do ChatGPT não tenha sido divulgado.

Em vez de ser contra a IA, o Reddit quer estar envolvido no processo de tomada de decisão sobre o que acontece com seus dados. Ah, e também quer ser pago.

The Verge disse que Huffman citou um comentário recente do CEO da AI da Microsoft, Mustafa Suleyman, como exemplo do tipo de comportamento que gostaria de combater. Em uma discussão com o Andrew Ross Sorkin do CNBC no Festival de Ideias de Aspen, o executivo disse que o conteúdo "que já está na web aberta... tem sido 'software livre', se quiser".

Isso é certamente uma interpretação criativa da lei de direitos autorais, mas também não é exclusivo da Microsoft. Apesar do acordo do Google com o Reddit, em julho do ano passado, a Gizmodo notou uma mudança na política de privacidade do Google que dizia que ele usa "informações publicamente disponíveis" para treinar seus modelos de IA, sem reconhecer que o Google não possui tudo o que é postado na internet.

Enquanto não fica claro exatamente como o Google define "informações publicamente disponíveis", esse novo acordo do Reddit pode lançar alguma luz sobre o assunto. Por enquanto, o treinamento de IA pode estar passando de uma livre concessão para um ponto em que aqueles que podem pagar para fazer as empresas pagarem terão sua parte justa (supondo que lucrar com a venda de conteúdo que os usuários fizeram antes mesmo que a IA existisse conte como justo aos seus olhos). Além do Reddit, a empresa Vox Media, The Atlantic também fecharam acordos com a OpenAI. Quanto ao resto de nós, teremos que depender da regulamentação, que tem sido lenta em responder à IA fora da UE.

Em resposta a isso, alguns entusiastas da tecnologia começaram a discutir a situação nos fóruns de IA do Reddit, expressando suas preocupações sobre a privacidade dos dados e a monetização do conteúdo gerado pelos usuários.

Além disso, a comunidade técnica do Reddit AI começou a debater se tais ações de empresas como a Microsoft e o Google poderiam definir um precedente perigoso na indústria tecnológica, potencialmente levando a uma internet menos aberta e democrática.