Aller au contenu

Reddit a bloqué Bing à cause de l'IA, pas un accord avec Google

Si vous voulez accéder aux données de Reddit, vous allez devoir payer.

Reddit a bloqué Bing à cause de l'IA, pas un accord avec Google
Reddit a bloqué Bing à cause de l'IA, pas un accord avec Google

Reddit a bloqué Bing à cause de l'IA, pas un accord avec Google

Depuis que les résultats de Reddit ont commencé à disparaître des moteurs de recherche autres que Google la semaine dernière, la société a finalement pris la parole pour expliquer pourquoi, minimisant en substance le problème de recherche et déclarant être fatigué des entreprises de IA qui s'entraînent sur ses données gratuitement.

« Nous avons eu Microsoft, Anthropic et Perplexity qui ont agi comme si tout le contenu d'Internet leur appartenait gratuitement », a déclaré le PDG de Reddit, Steve Huffman, à The Verge lors d'un entretien. « ...ce qui nous a mis dans une situation où nous bloquons désormais les gens qui n'ont pas été disposés à négocier sur la manière dont nous souhaitons que nos données soient utilisées ou non. »

Huffman a accusé Microsoft d'entraîner son IA sur les données de Reddit récupérées via Bing, ainsi que de revendre ces données via l'API Bing. Il semble que le retrait des recherches de Reddit soit principalement un sous-produit du blocage de ce processus, bien que la société ne soit pas non plus ravie que le moteur de recherche Bing utilise l'IA pour résumer ses publications sans exiger que les utilisateurs cliquent dessus.

Mais comment la lutte contre l'IA peut-elle perturber la recherche ? Bien qu'elles puissent sembler être des technologies totally distinctes, à la fois l'IA et la recherche dépendent des « robots d'indexation » qui parcourent Internet pour collecter des données qui peuvent être stockées, affichées ou utilisées ailleurs. Cette technologie est nécessaire pour que les moteurs de recherche fonctionnent comme ils le font, mais elle peut également être utilisée pour l'entraînement de l'IA. Lorsque les sites web mettent à jour leurs fichiers pour bloquer les robots d'indexation, cela perturbe à la fois.

Compte tenu du temps que Huffman a passé à parler de l'IA, il semble que le cœur du problème soit que Reddit ne veut pas que les entreprises s'entraînent sur ses données d'utilisateurs sans avoir aucun contrôle, Huffman ayant déclaré à The Verge que des entreprises comme Microsoft, Anthropic et Perplexity ont refusé de négocier.

« Sans ces accords, nous n'avons aucun contrôle ni connaissance de la manière dont nos données sont affichées ou utilisées. » Le PDG a déclaré que cela avait été « une véritable plaie de bloquer ces entreprises ».

Cela ne signifie pas pour autant que Reddit agit par pure altruisme, loin de là. Plus tôt cette année, la société a conclu un contrat de licence de 60 millions de dollars par an qui permet à Google de s'entraîner sur les publications des utilisateurs, ce qui explique également pourquoi les publications de Reddit continuent d'apparaître sans encombre dans la recherche Google. De même, OpenAI peut également s'entraîner sur les publications de Reddit, et son futur SearchGPT sera en mesure de les lier, bien que le montant exact de l'accord de Reddit avec le créateur de ChatGPT n'ait pas été révélé.

Au lieu d'être contre l'IA, Reddit souhaite être impliqué dans le processus de prise de décision concernant ce qui se passe avec ses données. Et, bien sûr, être payé pour cela.

The Verge a rapporté que Huffman avait fait référence à un récent commentaire du PDG de l'IA de Microsoft, Mustafa Suleyman, comme exemple du type de comportement qu'il souhaite combattre. Lors d'une discussion avec Andrew Ross Sorkin de CNBC lors du festival des idées d'Aspen, l'exécutif a déclaré que le contenu « déjà présent sur le web ouvert... a été du 'logiciel gratuit', si vous voulez ».

C'est certainly une interprétation créative du droit d'auteur, mais ce n'est pas unique à Microsoft. Despite the deal with Reddit, Gizmodo a repéré en juillet dernier un changement dans la politique de confidentialité de Google qui stipulait qu'elle utilise « les informations publiques » pour entraîner ses modèles d'IA, sans reconnaître que Google ne possède pas tout ce qui est publié sur Internet.

Il est incertain de savoir comment Google définit exactement « les informations publiques », mais ce nouveau contrat Reddit pourrait peut-être faire lumière sur le sujet. Pour l'instant, l'entraînement de l'IA pourrait passer d'un libre-service à un point où ceux qui peuvent se permettre de faire payer les entreprises obtiendront leur dû (à condition que profiter de la vente de contenu créé par les utilisateurs avant même l'existence de l'IA compte comme un dû dans vos yeux). En plus de Reddit, The Verge's parent company Vox Media et The Atlantic ont également conclu un accord avec OpenAI. En ce qui concerne le reste d'entre nous, nous devrons compter sur la réglementation, qui a été lente à répondre à l'IA en dehors de l'UE.

En réponse à cela, certains passionnés de technologie ont commencé à discuter de la situation sur les sous-forums de Reddit AI, exprimant leurs préoccupations concernant la vie privée des données et la monétisation du contenu généré par les utilisateurs.

De plus, la communauté technologique de Reddit AI a commencé à débattre pour savoir si de telles actions de la part d'entreprises comme Microsoft et Google pourraient fixer un dangereux précédent dans l'industrie technologique, risquant potentiellement de conduire à un Internet moins ouvert et démocratique.

Lire aussi:

commentaires

Dernier