Google admet que la vidéo virale de son IA a été éditée pour paraître plus attractive
Une vidéo mettant en avant les capacités du modèle d'intelligence artificielle (IA) de Google, qui semblait trop belle pour être vraie, pourrait bien l'être.
La démo de Gemini, qui compte 1,6 million de vues sur YouTube, montre un échange remarquable où une IA répond en temps réel à des commandes vocales et à des vidéos.
Dans la description de la vidéo, Google a admis que tout n'était pas tel qu'il semblait - les réponses avaient été accélérées dans le cadre de la démo.
Mais l'entreprise a également reconnu que l'IA ne répondait pas du tout à la voix ou à la vidéo.
Dans un article de blog publié en même temps que la démo, Google révèle comment la vidéo a en réalité été créée.
Par la suite, comme l'a rapporté en premier Bloomberg Opinion, Google a confirmé à la BBC qu'elle avait en fait été réalisée en incitant l'IA par "l'utilisation de cadres d'images fixes tirés des séquences, et par incitation via du texte".
"Notre vidéo de démonstration pratique avec Gemini montre de vraies incitations et sorties de Gemini", a déclaré un porte-parole de Google.
"Nous l'avons créée pour mettre en valeur la gamme des capacités de Gemini et inspirer les développeurs."
Dans la vidéo, une personne pose une série de questions à l'IA de Google tout en montrant des objets à l'écran.
Par exemple, à un moment donné, le démonstrateur brandit un canard en caoutchouc et demande à Gemini s'il flottera.
Initialement, il ne sait pas de quel matériau il est fait, mais après que la personne l'ait pressé - et remarque que cela produit un son de grincement - l'IA identifie correctement l'objet.
Google développe une plateforme d'intelligence artificielle 5 fois plus puissante que ChatGPT-4
Cependant, ce qui semble se produire dans la vidéo à première vue est très différent de ce qui s'est réellement passé pour générer les incitations.
L'IA a en réalité vu une image fixe du canard et on lui a demandé de quel matériau il était fait. On lui a ensuite donné une incitation textuelle expliquant que le canard émet un son de grincement lorsqu'on le presse, ce qui a abouti à l'identification correcte.
Dans un autre moment impressionnant, la personne réalise un tour de magie avec des gobelets et des balles - un tour où une balle est cachée sous l'un des trois gobelets en mouvement - et l'IA parvient à déterminer où elle s'est déplacée.
Mais là encore, comme l'IA ne répondait pas à une vidéo, cela a été réalisé en lui montrant une série d'images fixes.
Dans son article de blog, Google explique qu'en réalité, elle a indiqué à l'IA l'endroit où se trouvait une balle sous trois gobelets et lui a montré des images représentant des gobelets qui étaient échangés.
Google a précisé que la démo a été créée en capturant des séquences vidéo, afin de "tester les capacités de Gemini sur une large gamme de défis".
Bien que les séquences aient été raccourcies et des images fixes utilisées, le commentaire vocal de la vidéo est tiré directement des incitations écrites fournies à Gemini.
Mais il y a un autre élément de la vidéo qui étire davantage la vérité.
À un moment donné, l'utilisateur place une carte du monde et demande à l'IA : "En fonction de ce que tu vois, propose une idée de jeu... et utilise des émojis."
L'IA répond en inventant apparemment un jeu appelé "devine le pays", dans lequel elle donne des indices (comme un kangourou et un koala) et réagit à une supposition correcte de l'utilisateur pointant un pays (dans ce cas, l'Australie).
Mais en réalité, selon le blog de Google, l'IA n'a pas du tout inventé ce jeu.
Au lieu de cela, l'IA a reçu les instructions suivantes : "Jouons à un jeu. Pense à un pays et donne-moi un indice. L'indice doit être assez spécifique pour qu'il n'y ait qu'un seul pays correct. J'essaierai de pointer le pays sur une carte", indiquait la consigne.
L'utilisateur a ensuite donné à l'IA des exemples de réponses correctes et incorrectes.
À partir de ce moment-là, Gemini a été capable de générer des indices et d'identifier si l'utilisateur pointait le pays correct ou non à partir d'images fixes d'une carte.
C'est impressionnant - mais ce n'est pas la même chose que prétendre que l'IA a inventé le jeu.
Le modèle d'IA de Google est impressionnant, quel que soit son utilisation d'images fixes et d'incitations basées sur du texte - mais ces faits signifient que ses capacités sont très similaires à celles du GPT-4 d'OpenAI.
Il est à noter que la vidéo a été publiée deux semaines seulement après une période de chaos sans précédent dans le domaine de l'IA, suite au renvoi spectaculaire - et à la réembauche - de Sam Altman en tant que PDG d'OpenAI.
Il n'est pas clair lequel des deux est le plus avancé - mais Google pourrait déjà être en train de rattraper son retard, Sam Altman ayant déclaré au Financial Times que l'entreprise travaille sur la prochaine version de son IA.