Google poursuivi pour avoir prétendument volé des données d'utilisateurs pour former ses outils d'IA

Google a fait l’objet mardi d’un vaste procès alléguant que le géant de la technologie a récupéré les données de millions d’utilisateurs sans leur consentement et a violé les lois sur le droit d’auteur afin de former et de développer ses produits d’intelligence artificielle.

Le recours collectif proposé contre Google, sa société mère Alphabet et la filiale d’intelligence artificielle de Google DeepMind a été déposé mardi devant un tribunal fédéral de Californie et a été intenté par Clarkson Law Firm. La société avait précédemment déposé une plainte similaire contre OpenAI, le fabricant de ChatGPT, le mois dernier. (OpenAI n’a pas répondu auparavant à une demande de commentaire sur la poursuite.)

La plainte allègue que Google « a secrètement volé tout ce qui a été créé et partagé sur Internet par des centaines de millions d’Américains » et a utilisé ces données pour former ses produits d’IA, comme son chatbot Bard. La plainte affirme également que Google a pris «la quasi-totalité de notre empreinte numérique», y compris «des travaux créatifs et rédigés» pour créer ses produits d’IA.

Les représentants de Google, Alphabet et DeepMind n’ont pas immédiatement répondu à une demande de commentaire.

La plainte fait référence à une récente mise à jour de la politique de confidentialité de Google qui stipule explicitement que l’entreprise peut utiliser des informations accessibles au public pour former ses modèles et outils d’IA tels que Bard.

En réponse à un précédent rapport de Verge sur la mise à jour, la société a déclaré que sa politique « est depuis longtemps transparente que Google utilise des informations accessibles au public sur le Web ouvert pour former des modèles linguistiques pour des services tels que Google Translate ». Cette dernière mise à jour précise simplement que les nouveaux services comme Bard sont également inclus.

Le procès intervient alors qu’une nouvelle génération d’outils d’IA a attiré énormément d’attention ces derniers mois pour leur capacité à générer des travaux écrits et des images en réponse aux invites des utilisateurs. Les grands modèles de langage qui sous-tendent cette nouvelle technologie sont capables de le faire en s’entraînant sur de vastes trésors de données en ligne.

Dans le processus, cependant, les entreprises font également l’objet d’un examen juridique croissant des problèmes de droit d’auteur des œuvres balayées dans ces ensembles de données, ainsi que de leur utilisation apparente de données personnelles et éventuellement sensibles d’utilisateurs quotidiens, y compris des données d’enfants, selon le Google procès.

« Google doit comprendre que » accessible au public « n’a jamais signifié une utilisation gratuite à quelque fin que ce soit », a déclaré Tim Giordano, l’un des avocats de Clarkson qui a engagé la poursuite contre Google, à CNN dans une interview. « Nos informations personnelles et nos données sont notre propriété, et elles ont de la valeur, et personne n’a le droit de les prendre et de les utiliser à quelque fin que ce soit. »

La poursuite demande une injonction sous la forme d’un gel temporaire de l’accès commercial et du développement commercial des outils d’IA générative de Google comme Bard. Il demande également des dommages-intérêts et des paiements non spécifiés à titre de compensation financière aux personnes dont les données auraient été détournées par Google. La firme dit avoir aligné huit plaignants, dont un mineur.

Giordano a mis en contraste les avantages et les inconvénients présumés de la façon dont Google indexe généralement les données en ligne pour prendre en charge son moteur de recherche principal avec les nouvelles allégations selon lesquelles il récupère des données pour former des outils d’IA.

Avec son moteur de recherche, a-t-il dit, Google peut « fournir un lien attribué à votre travail qui peut réellement inciter quelqu’un à l’acheter ou à s’y engager ». Cependant, le grattage de données pour former des outils d’IA crée « une version alternative du travail qui modifie radicalement les incitations pour quiconque à avoir besoin d’acheter le travail », a ajouté Giordano.

Alors que certains internautes se sont peut-être habitués à ce que leurs données numériques soient collectées et utilisées pour les résultats de recherche ou la publicité ciblée, il n’en va peut-être pas de même pour la formation à l’IA. « Les gens n’auraient pas pu imaginer que leurs informations seraient utilisées de cette façon », a déclaré Giordano.

Ryan Clarkson, associé du cabinet d’avocats, a déclaré que Google devait « créer une opportunité pour les gens de refuser » que leurs données soient utilisées pour former l’IA tout en conservant leur capacité à utiliser Internet pour leurs besoins quotidiens.