Poyesis - Perplexity AI pris en flagrant délit de vol de données

Perplexity AI, une licorne qui promet de rendre Google “ringard” (ce sont les mots exacts de son PDG), c’est fait prendre en plein scrapping de données.

Et ce n’est pas la première fois.

Qu’est-ce que Perplexity AI ?

Si vous n’êtes pas un abonné de la planète tech, il y a des chances que vous ne connaissiez pas encore Perplexity AI.

C’est un mélange entre un moteur de recherche et un chatbot surboosté à l’IA générative. Perplexity AI se distingue de ChatGPT parce qu’elle fournit des résultats basés sur des données en temps réel (avec ses sources).

Et il bat Google en proposant des réponses condensées et dénuées d’hallucinations.

La startup a été cofondée en 2022 par un ancien d’Open AI, et en mars 2024 elle a réussi à élever sa capitalisation boursière à 1 milliard de dollars. Ce qui en fait une licorne.

Certains voient ce tout nouveau moteur de recherche comme le remplaçant de Google. Un combat qui rappelle vaguement Google contre Firefox et Internet Explorer…

Comment la supercherie a été découverte ?

Maintenant qu’on a fait entrer l’accusé, voyons ce qui lui est reproché.

Robb Knight, développeur chez Radweb et créateur du blog technologique rKnight, reproche à Perplexity AI d’ignorer les instructions des fichiers robots.txt.

Ce sont ces fichiers qui permettent aux webmasters d’interdire aux robots des moteurs de recherche — les crawlers ou spiders — d’accéder à certaines pages.

Or, Perplexity AI ne le respecte pas du tout, ce qui lui permet de voler des données sans être repéré.

Tout commence en mars 2024.

Robb Knight décide de bloquer Perplexity AI sur son blog.

Pour y parvenir, il ajoute l’agent utilisateur du moteur de Perplexity – Perplexity Bot -dans la liste noire de son fichier robots.txt.

Ensuite, il décide de vérifier si le moteur de recherche/chatbot IA a encore accès à ses contenus.

Il lui passe l’URL d’un de ses articles et lui demande de le résumer.

Et là…

Perplexity le lui résume avec tellement de détails que c’est impossible de croire que l’intelligence artificielle les a devinés.

Robb vérifie donc via Nginx (on explique c e qu’est Nginx ici) et le résultat est sans appel : Perplexity Bot est bien bloqué.

Le 14 juin, il ordonne même à ses serveurs de retourner une erreur 403 lorsque les robots de Perplexity tentent d’accéder à ses contenus.

Toujours rien.

Finalement, il va trouver l’explication en regardant les fichiers logs de ses serveurs.

Perplexity AI ment depuis le début sur l’agent utilisateur de son crawler.

Le moteur de recherche dissimule ses pages via un user agent commun. Celui généralement associé à Google Chrome sur Windows 10.

Robb Knight raconte tout ça dans son billet de blog (en anglais).

Il a fait la même chose sur le site MacStories et le résultat a été le même.

Et il n’est pas le seul à l’avoir remarqué…

Forbes a aussi détecté le scrapping illégal de Perplexity AI et sort la hache de guerre

Randall Lane, directeur du contenu de Forbes Media a lancé l’alerte le 11 juin 2024.

Dans son article “Pourquoi le vol cynique de Perplexity représente tout ce qui pourrait mal tourner avec l’IA” (au moins le titre est clair sur ses sentiments envers Perplexity), il déclare ceci :

« L’IA ne vaut que ce que valent ceux qui la supervisent. Je suis un adepte de l’IA et, entre de bonnes mains, la productivité, les progrès et la prospérité sont au rendez-vous.

Mais entre les mains de personnes comme Aravind Srinivas, PDG de Perplexity AI, qui a la réputation d’être doué pour les techniques de doctorat et moins doué pour les aspects humains fondamentaux, l’amoralité pose un risque existentiel ».

C’est que Forbes aussi, a remarqué le vol de contenu de Perplexity AI.

Et ils n’apprécient pas du tout.

Non seulement, tous les contenus (payants et exclusifs) de Forbes sont accessibles via Perplexity, mais la firme ne les cite même pas.

De son côté, Aravind Srinivas, CEO de Perplexity AI a tenté de défendre les pratiques de son entreprise sur X. Il a déclaré que le problème vient d’une nouvelle fonctionnalité “Perplexity Pages” lancée il y a 2 semaines.

(Tout en taclant au passage ses concurrents – ChatGPT, Gemini et Copilot.)

Ça n’a pas réussi à satisfaire Forbes qui a intenté une action en justice contre Perplexity AI le 18 juin 2024.

Pourquoi les pratiques discutables de Perplexity AI sont problématiques ?

Déjà, il y a une notion qui paraît floue et abstraite pour les ingénieurs de Perplexity AI qui s’appelle “respect de la propriété intellectuelle”.

(On a déjà parlé du casse tête de la propriété intellectuelle pour les sites web et de celui de vos codes sources)

En plus de ne pas respecter ce concept, voler des contenus et se les approprier à des répercussions graves :

ça prive les créateurs de contenus de leurs sources de revenus (c’est ce qui s’est passé quand Forbes a retrouvé ses histoires exclusives sur Perplexity) ;
le trafic vers les sites web sources baissent.

Pour les éditeurs et les entreprises journalistes, c’est une attaque à leur business model.

Par exemple, voici la répartition du chiffre d’affaires du journal “Le Monde” en 2022 :

Abonnements numériques et papiers : 48 %
Vente au numéro : 20 %
Publicité : 23 %
Diversification : 7 %
Subventions publiques et privées : 2 %

En publiant leurs contenus, les IA telles que Perplexity AI coupent la plus grande source de financement des journaux.

Histoire à suivre donc…

Perplexity AI pris en flagrant délit de vol de données

Postes connexes

NumPy 2.0 sort enfin après 18 ans, on fait le point

Google Gemini s’invite en Inde (et s’ouvre enfin à tous)