Stéganographie, palimpsestes, et IA Génératives

Un petit test facile à reproduire

Un certain nombre d’outils d’Intelligences Artificielles Génératives permettent d’importer des documents sur lesquels on peut ensuite interroger l'IAG. Par exemple, Notebook LM est un de ces outils (Google): vous pouvez charger un long texte PDF et ensuite interroger le LLM sur le contenu du fichier.

A titre d'exemple, j'ai chargé dans Notebook LM un petit document PDF (Doc1.pdf) qui ne contient qu'une seule phrase, "les moutons sont blancs".

Doc.jpg

J’interroge ensuite le LLM :

“Selon le document, de quelle couleur sont les moutons ?”

Réponse: “D'après le document, les moutons sont blancs.”

Jusqu’ici, rien de bien surprenant.

J’uploade ensuite un deuxième petit fichier (Doc2.pdf), qui lui ressemble beaucoup.

Doc.jpg

J’interroge à nouveau le LLM :

“Selon le document, de quelle couleur sont les moutons ?”

Réponse: “Selon le document, la couleur des moutons varie considérablement. Alors que les moutons sauvages sont principalement de couleur brune, les moutons domestiques peuvent être de couleurs allant du blanc au chocolat noir et peuvent même être tachetés ou pie. La sélection pour la laine blanche a commencé très tôt lors de la domestication, et la laine blanche est devenue un trait dominant qui s'est rapidement répandu. Cependant, les moutons de couleur apparaissent de nouveau dans de nombreuses races modernes et peuvent même apparaître comme un trait récessif dans les troupeaux de moutons blancs. Contrairement à cette information, le document indique également que les moutons sont blancs”.

Comment expliquer ça ?

Vous pouvez télécharger les 2 fichiers, vous verrez en les ouvrant qu’ils se ressemblent beaucoup. Mais s’ils se ressemblent en apparence, en fait ils sont très différents. Dans le fichier Doc2.pdf, j’ai en effet copié/collé un article Wikipedia sur les moutons, que j’ai ensuite passé en blanc sur fond blanc avant de l’exporter en pdf. Vous pouvez vous en rendre compte en ouvrant le fichier Doc2.pdf et en sélectionnant la page avec la souris, puis en copiant/collant le texte dans un éditeur: vous verrez ainsi "apparaître" l’article de wikipedia.

Ecrire dans un document en blanc sur fond blanc pour le rendre illisible aux yeux d’un humain est vraiment un vieux truc éculé, qui s'apparente à une sorte de palimpseste numérique, ou à une forme très primaire de stéganographie. Mais pour une Intelligence Artificielle, il n'y a pas (encore ?) de disctinction entres les couleurs des différents textes d'un document, et qui l'a analysé dans sa totalité sans s'embarasser des tailles ou couleurs de polices de caractères.

Question: "de quelle couleur est le texte de ce document ?"

Réponse: Le texte du document ne précise pas la couleur du texte lui-même, mais indique que "Les moutons sont blancs"

Et alors, que démontre ce test idiot ?

Ce petit test peut servir d'image ou d’allégorie pour illustrer un phénomène bien connu: il y a dans un document informatique beaucoup d’informations qu’un humain ne voit pas au premier abord, ou en tout cas pas facilement. Ca peut être des meta-données par exemple (c'est à dire des informations liées au fichier informatique mais pas directement affichées). Ca pourrait également être du texte "caché" dans des illustrations, ou tellement petit qu'il est illisible. Ou encore, codé dans des alphabets mal interprétés par un lecteur humain, mais parfaitement par une IA.

De ce point de vue là, on peut considérer que l’IA sait mieux exploiter la totalité du document qui lui est présenté.

Cela rappellera peut-être à certains cet exercice bien connu de l’outil en ligne “Pix”, qui demande où a été prise une photo quelconque, sans aucun indice sur le lieu de prise de vue. Le but de l'exercice est de sensibiliser aux méta données, en montrant que les coordonnées GPS sont “cachées” dans le fichier de la photo elle-même.

Mais dans un moment où les documents fournis en entrée aux IAG sont de plus en plus multimédias (image, son, vidéo), on peut se poser une autre question: si le vieux truc du texte blanc sur fond blanc est facile à détecter, qu’en est-il d’une vidéo que l’oeil humain interprète d’une certain façon, mais qui en fait “cache” d’autres informations qui ne seraient visibles et interprétables que par un logiciel, et pas par le seul oeil humain. On est là dans le domaine bien connu de la stéganographie. Un outil comme Nightshade, développé par l'Université de Chicago, a un usage proche: il permet de modifier subrepitcement des images de manière à ce que les IA rencontrent des difficultés à les analyser ou à s'en inspirer.

A partir de ces quelques exemples, on pourriat très bien imaginer une vidéo qui a une signification pour l'oeil humain, et une interprétation toute différente pour "l'oeil" de l'IA...

Ce petit article n'a pas d'autre prétention qu'illustrer, une fois de plus, qu'il faut se méfier des apparences en matière de documents informatiques, car il est facile de les manipuler/biaiser.

Une dernière remarque à l'attention des enseignants

Avec le débat actuel de l'utilisation des IAG par les lycéens et étudiants pour se faciliter certaines tâches, des professeurs un peu malicieux pourraient s'en amuser ou utiliser cette astuce à des fins pédagogiques, de démonstration. Il suffit par exemple de demander à des étudiants de résumer un document ou de répondre à des exercices mathématiques, à partir d'un PDF "modifié" qui intégrerait des éléments cachés. Il sera assez facile de "démasquer" les étudiants qui ont fait travailler un LLM à leur place ;-)