Par Maxime Pfrimmer, le 27 juin 2024
ActualitéPerplexity AI, une licorne qui promet de rendre Google “ringard” (ce sont les mots exacts de son PDG), c’est fait prendre en plein scrapping de données.
Et ce n’est pas la première fois.
Si vous n’êtes pas un abonné de la planète tech, il y a des chances que vous ne connaissiez pas encore Perplexity AI.
C’est un mélange entre un moteur de recherche et un chatbot surboosté à l’IA générative. Perplexity AI se distingue de ChatGPT parce qu’elle fournit des résultats basés sur des données en temps réel (avec ses sources).
Et il bat Google en proposant des réponses condensées et dénuées d’hallucinations.
La startup a été cofondée en 2022 par un ancien d’Open AI, et en mars 2024 elle a réussi à élever sa capitalisation boursière à 1 milliard de dollars. Ce qui en fait une licorne.
Certains voient ce tout nouveau moteur de recherche comme le remplaçant de Google. Un combat qui rappelle vaguement Google contre Firefox et Internet Explorer…
Maintenant qu’on a fait entrer l’accusé, voyons ce qui lui est reproché.
Robb Knight, développeur chez Radweb et créateur du blog technologique rKnight, reproche à Perplexity AI d’ignorer les instructions des fichiers robots.txt.
Ce sont ces fichiers qui permettent aux webmasters d’interdire aux robots des moteurs de recherche — les crawlers ou spiders — d’accéder à certaines pages.
Or, Perplexity AI ne le respecte pas du tout, ce qui lui permet de voler des données sans être repéré.
Tout commence en mars 2024.
Robb Knight décide de bloquer Perplexity AI sur son blog.
Pour y parvenir, il ajoute l’agent utilisateur du moteur de Perplexity – Perplexity Bot -dans la liste noire de son fichier robots.txt.
Ensuite, il décide de vérifier si le moteur de recherche/chatbot IA a encore accès à ses contenus.
Il lui passe l’URL d’un de ses articles et lui demande de le résumer.
Et là…
Perplexity le lui résume avec tellement de détails que c’est impossible de croire que l’intelligence artificielle les a devinés.
Robb vérifie donc via Nginx (on explique ce qu’est Nginx ici) et le résultat est sans appel : Perplexity Bot est bien bloqué.
Le 14 juin, il ordonne même à ses serveurs de retourner une erreur 403 lorsque les robots de Perplexity tentent d’accéder à ses contenus.
Toujours rien.
Finalement, il va trouver l’explication en regardant les fichiers logs de ses serveurs.
Perplexity AI ment depuis le début sur l’agent utilisateur de son crawler.
Le moteur de recherche dissimule ses pages via un user agent commun. Celui généralement associé à Google Chrome sur Windows 10.
Robb Knight raconte tout ça dans son billet de blog (en anglais).
Il a fait la même chose sur le site MacStories et le résultat a été le même.
Et il n’est pas le seul à l’avoir remarqué…
Randall Lane, directeur du contenu de Forbes Media a lancé l’alerte le 11 juin 2024.
Dans son article “Pourquoi le vol cynique de Perplexity représente tout ce qui pourrait mal tourner avec l’IA” (au moins le titre est clair sur ses sentiments envers Perplexity), il déclare ceci :
« L’IA ne vaut que ce que valent ceux qui la supervisent. Je suis un adepte de l’IA et, entre de bonnes mains, la productivité, les progrès et la prospérité sont au rendez-vous.
Mais entre les mains de personnes comme Aravind Srinivas, PDG de Perplexity AI, qui a la réputation d’être doué pour les techniques de doctorat et moins doué pour les aspects humains fondamentaux, l’amoralité pose un risque existentiel ».
C’est que Forbes aussi, a remarqué le vol de contenu de Perplexity AI.
Et ils n’apprécient pas du tout.
Non seulement, tous les contenus (payants et exclusifs) de Forbes sont accessibles via Perplexity, mais la firme ne les cite même pas.
De son côté, Aravind Srinivas, CEO de Perplexity AI a tenté de défendre les pratiques de son entreprise sur X. Il a déclaré que le problème vient d’une nouvelle fonctionnalité “Perplexity Pages” lancée il y a 2 semaines.
(Tout en taclant au passage ses concurrents – ChatGPT, Gemini et Copilot.)
Ça n’a pas réussi à satisfaire Forbes qui a intenté une action en justice contre Perplexity AI le 18 juin 2024.
Déjà, il y a une notion qui paraît floue et abstraite pour les ingénieurs de Perplexity AI qui s’appelle “respect de la propriété intellectuelle”.
(On a déjà parlé du casse tête de la propriété intellectuelle pour les sites web et de celui de vos codes sources)
En plus de ne pas respecter ce concept, voler des contenus et se les approprier à des répercussions graves :
Pour les éditeurs et les entreprises journalistes, c’est une attaque à leur business model.
Par exemple, voici la répartition du chiffre d’affaires du journal “Le Monde” en 2022 :
En publiant leurs contenus, les IA telles que Perplexity AI coupent la plus grande source de financement des journaux.
Histoire à suivre donc…
Actualité
18 ans. C’est le nombre d’années qui s’est écoulé depuis la release de numpy 1.0. Numpy est un peu le couteau de suisse des mathématiques sous Pythons. Grâce à cette bibliothèque, vous pouvez gérer simplement des matrices, des polynômes et toute une kyrielle de fonctions mathématiques. Tous ceux qui font des maths l’utilisent. Des statisticiens. …
Continue reading « NumPy 2.0 sort enfin après 18 ans, on fait le point »
26 juin 2024
Actualité
Mardi 18 juin 2024. Dans un billet de blog plutôt discret, Google a annoncé le lancement de l’application Gemini (ex Bard) en Inde. Cette version de Gemini est capable de comprendre neuf langues indiennes en plus de l’anglais : l’hindi ; le bengali ; le gujarati ; Le kannada ; Le malayalam ; le marathi …
Continue reading « Google Gemini s’invite en Inde (et s’ouvre enfin à tous) »
25 juin 2024
App
Salut 👋, Vous avez financé le développement d’une application, et vous souhaitez la faire évoluer, mais votre développeur refuse catégoriquement de vous donner le code source. Vous pensez que c’est impossible ? Détrompez-vous. De nombreuses sociétés sont en conflit avec les sociétés éditrices de leurs logiciels à cause de ça. Sans compter celles qui ont …
Continue reading « Votre dév refuse de vous donner le code-source ? 3 solutions »
10 juin 2024