Selon une étude, les générateurs de textes seraient enclins à plagier des textes d’une manière plus sophistiquée que le copier-coller.
La recherche en question a été menée par une équipe dirigée par Penn State. En fait, Dongwon Lee, professeur de sciences et technologies de l’information à Penn State, a expliqué que le plagiat peut se présenter sous différentes formes. C’est pourquoi le groupe a décidé de vérifier si les modèles linguistiques appliquent des techniques de plagiat plus sophistiquées. Ainsi, il s’est focalisé sur trois formes de plagiat : le copier-coller, la paraphrase et l’idée.
Dans cet article :
Le côté obscur des générateurs de texte
Outre le simple copier-coller d’un contenu, il existe d’autres formes de plagiat. La paraphrase, par exemple, est la reformulation et la restructuration d’un texte sans mention convenable de la source originale. On peut également plagier en usant de l’idée principale d’un contenu sans citer la source ou l’auteur.
Grâce à ces travaux, l’équipe a pu déterminer que les modèles linguistiques usaient de ces trois formes de plagiat. Elle a aussi constaté une tendance à plagier en fonction des données et des paramètres. Plus ces derniers étaient importants, plus cette tendance s’affirmait.
« Les gens recherchent de grands modèles de langage parce que plus le modèle est grand, plus les capacités de génération augmentent. […] Dans le même temps, ils mettent en péril l’originalité et la créativité du contenu du corpus de formation. Il s’agit là d’une constatation importante. »
Jooyoung Lee, l’auteur principal et doctorant au College of Information Sciences and Technology de Penn State
Les scientifiques ont pareillement remarqué que les générateurs de texte spécialisés sur des thèmes précis recouraient moins au copier-coller. En revanche, les deux autres types de plagiat étaient plus fréquents.
VOIR AUSSI : ChatGPT : devrait-on repenser le système éducatif ?
La vigilance est de mise
D’après les auteurs, cette étude met en exergue l’importance des études plus approfondies sur les générateurs de texte. De même, les problèmes éthiques et philosophiques en lien avec ces derniers ne devraient pas être négligés. En attendant, les chercheurs incitent les utilisateurs à rester vigilants lorsqu’ils ont recours à cette technologie.
« L’utilisation de modèles de langage comme moteur de recherche ou comme débordement de pile pour déboguer du code est probablement bien. Pour d’autres fins, étant donné que le modèle de langage peut produire du contenu plagié, cela peut avoir des conséquences négatives pour l’utilisateur. »
Jinghui Chen, professeur adjoint en sciences et technologies de l’information à Penn State
Dans le cadre de cette étude, les scientifiques ont créé une plateforme destinée à identifier automatiquement le plagiat. Ils l’ont ensuite appliqué aux textes qu’a générés GPT-2 d’OpenAI. En fait, ils ont choisi ce modèle linguistique, car ses données d’entraînement étaient disponibles en ligne. Ainsi, le groupe a pu comparer les textes qu’a réalisés GPT-2 avec les 8 millions de documents sources.
Les chercheurs ont aussi analysé la fréquence de plagiat d’autres modèles préentraînés. Ils ont fait de même sur des modèles spécialisés sur des sujets précis. Ensuite, l’équipe a utilisé un moteur de recherche libre de droits et un algorithme d’alignement de texte existant. Le premier a servi à identifier les dix documents d’entraînement avec le plus de similitudes par rapport à chaque texte généré. Quant à l’algorithme, il a aidé à déterminer les différents cas de plagiat.
BuzzWebzine est un média indépendant. Soutiens-nous en nous ajoutant à tes favoris sur Google Actualités :