L’effet waouh de l’IA générative formative… vidéo

par Stéphane DIEBOLD | 27 février 2024 | Technologie

CHRONIQUE DE L’IA FORMATIVE

L’IA générative s’est démocratisée en novembre 2022 avec l’accessibilité de ChatGPT au plus grand nombre. Le cabinet Gartner estime que pour 2023, ChatGPT a déjà touché et transformé 5 % des entreprises et il pronostique 80 % pour 2026, soit dans moins de 2 ans. La course à l’IA générative est lancée. Et ce n’est qu’un début, les applications explosent centrées sur les usages. Aujourd’hui après le texte, l’image, c’est la vidéo qui est disruptée. Et c’est encore OpenAI qui propose une promesse disruptive majeure, Sora. La génération de vidéo se réinvente. Qu’est-ce que cela va changer dans le monde de la formation ? S’agit-il d’une invention éphémère ou d’un changement structurel majeur dans le monde de la formation ? Que faut-il en penser ? Et comment intégrer cette situation dans les stratégies de formation des entreprises ?

1 , L’effet waouh de Sora

Le 15 février 2024, OpenAI présente Sora ou, plus précisément, une promesse produit sur un site https://openai.com/sora qui n’est pas encore disponible à l’usage : « une IA capable de créer des scènes réalistes et imaginatives à partir d’instructions textuelles ». Il propose une série de vidéo ainsi que le prompt qui l’a généré. C’est bluffant, surtout pour une version 1. Le modèle est déclaratif, puisque l’application est en version Alpha, c’est-à-dire que le produit n’est encore finalisé, mais en phase de finalisation pour détecter les derniers problèmes majeurs avant de passer à la version Bêta où l’application sera quasiment finie et ouverte au public, les early adopters, qui permettrons les derniers ajustements à la marge. OpenAI ne donne pas de date pour la version Bêta, mais la communication prend position.

Cela fait longtemps que l’IA générative propose le multimodal sur les différents supports. Après le Text to Text, le Text to Image, c’est le tour du Text to Video. Il existait des solutions, on peut citer Emu de Meta (https://emu-video.metademolab.com/ ) ou Lumiere de Google (https://lumiere-video.github.io/ ). Par exemple, Emu propose de faire à partir de prompt des vidéos de 4 secondes avec une pixellisation approximative, ce qui en fait un produit très bien adapté pour les Gifs (Graphics Interchange Format), une série d’images affichées séquentiellement pour créer une animation. Les Gifs sont particulièrement bien adaptés pour les teasers ou les verbatims d’une formation. Les Gifs ont fait évoluer la formation à la marge pour les rares responsables qui ont eu le courage de les utiliser.

Qu’est-ce qui change avec Sora d’OpenAI ? La promesse de Sora est de passer la durée de création de vidéo de 4 secondes à 60 secondes, 60 secondes deviennent une capacité de snack content ou de micro-learning. Ce qui est déjà bien, mais surtout la qualité de la vidéo frise parfois celle du cinéma avec un rendu impressionnant. Sans trop spéculer sur la promesse qui comme le disait Henri Queuille : « les promesses n’engagent que ceux qui les écoutes », on peut donner crédit à OpenAI lorsqu’il dit que l’on pourra retravailler une vidéo existante, en rajoutant ou supprimant des éléments, voir faire vivre un personnage, beaucoup devient possible par la simple rédaction de prompts. La nouveauté si l’on compare avec les solutions existantes, est comme pour ChatGPT l’ergonomie, tout le monde peut devenir créateur de support vidéo en écrivant un simple prompt.

2, Sora, sera-t-elle utile à la formation ?

Pour paraphraser Napoléon, un bon exemple vaut mieux qu’un long discours. Prenons l’exemple de HeyGen (https://www.heygen.com/) qui permet une expérimentation sur un usage proche de Sora et gratuit pour une expérimentation et 288 $ pour 3 heures de vidéo ou 864 $ pour 6 heures. L’originalité est que chacun peut choisir son avatar sur plus de 300 modèles, ou de personnaliser à votre image, et de personnaliser en enregistrant votre voix et en la déclinant sur le texte, voir une musique de fond. La vidéo pourra être automatiquement déclinée en plus de 40 langues avec le même avatar et la même voix choisie. Le numérique permet non seulement de créer des contenus scalables mais en plus déclinables pour quasiment l’ensemble des pays du monde automatiquement. La création de contenus vidéo se démocratise avec une qualité quasi-professionnelle. Chacun peut devenir créateur de contenus.

Reste le référencement du contenu vidéo qui pose encore problème, et, là encore l’IA peut apporter des solutions. Meta a investi dans Dino Version 2 (https://ai.meta.com/blog/dino-v2-computer-vision-self-supervised-learning/) qui propose une application d’analyse de contenu vidéo, ce qui permet de référencer la vidéo automatiquement en tenant compte du contenu de la vidéo qui est analysée en quelques secondes. Le gros avantage de cette solution est de permettre un référencement par les algorithmes. Et ce référencement ouvre à la monétisation par les plateformes, ce qui permet son développement économique. Le problème de la démocratisation de la création de contenu se traduit par une infobésité des vidéos et l’obligation d’avoir une méthodologie pour répondre à des requêtes. L’écosystème vidéo est du domaine des possibles : produire des vidéos formatives, mais aussi les consommer.

Quelles conséquences pour le monde de la formation ? Si l’on pousse les limites techniques de Sora avec la qualité professionnelles qu’elle propose et la facilité de l’ergonomie, tous les formateurs vont pouvoir étoffer leur proposition de produit par des produits scalables de types Masterclasses, micro-learning ou MOOC, il suffira de demander. Autrement dit, les propositions de formation pourront avoir des leviers de croissance soit pour compléter des formations en présentiels, soit pour proposer des formations tout numérique qui touche un plus grand nombre d’apprenants. La gamme de propositions des formateurs, même indépendants, aura une largeur de ligne de produits plus forte et une profondeur, le nombre de produits, accrue grâce à des vidéos scalables. La démocratisation de la production vidéo ouvre des leviers de croissance pour tous les formateurs.

3, Que faut-il en penser ?

L’IA générative est une technologie qui s’inscrit dans un moment schumpetérien, avec cette émulation qui ouvre à l’irruption de solutions plus ou moins attendues. La formation doit être en veille sur ces accélérations pour pouvoir profiter des opportunités qu’offre le marché. Un directeur de la formation qui n’organisera pas son anticipation, subira des moments de sidération, regarder l’émergence d’une technologie sans savoir quoi en faire. Choisir des directions nécessite de les penser. Sora était prévisible, même si le timing précis restait à définir. Qu’est-ce que cela change ? C’est un peu comme l’invention de l’imprimerie en 1450, la multiplication des ouvrages a permis une nouvelle culture, celle du débat si l’on retient la pensée de Michel Serres. La multiplication des vidéos devrait avoir un effet similaire, la multiplication des points de vue rationnels et émotionnels ce qui devrait se traduire par une nouvelle organisation du savoir.

Le travail de la pédagogie est d’organiser cette organisation. La communauté apprenante est à la fois un bon outil pour trier le nombre de vidéo avec les filtres de bulle, comme par exemples la vision que l’entreprise a des métiers. Le travail s’inscrit sur le triage de l’existant pour lui donner une dimension sociale, mais aussi sur un travail de production interne avec l’horizontalisation des formations. La pédagogique investit sur l’apprenant qui devient un créateur de contenu, avec le Learner Generated Content (LGC), et organise la taxonomie des savoirs, le bottom up. La formation n’est pas l’ensemble des apprentissages possibles mais des apprentissages socialisés, c’est-à-dire des apprentissages que la société valide. Les entreprises qui savent organiser une courbe d’apprentissage collective gagne en agilité des compétences et des talents.

Reste une dimension importante, avec l’explosion de la production de contenus, en faire formation et à socialiser les formes choisis. Sheena Lyengar dans L’art de choisir (2011, Abacus) montre que le travail du responsable de formation est d’érotiser la forme choisie, autrement dit de construire un désir, avec des outils qui sont aujourd’hui standardisés comme le marketing ou le design de la formation, donner de la valeur sociale pour favoriser le passage à l’acte. A trop mettre de contenus sur les plateformes LMS, la consommation de formation s’en trouve réduite. L’IA générative vidéo augmente le nombre de support possible pour qu’il y ait formation, le responsable doit érotiser la personnalisation ainsi que les communions apprenantes, en fonction des stratégies de l’entreprise. « Mettre en société » disait Oliviero Toscani.

L’IA générative vidéo ouvre un champ des possibles dans le monde de la formation, c’est une disruption. Elle nécessite d’avoir des stratégies numériques de la formation de l’offre et de la demande. Les deep techs nécessite de construire une vielle des signaux faibles pour éviter d’être sidéré et de profiter des opportunités disruptives, mais aussi d’avoir construit une politique de transformation. Dire n’est pas suffisant, il faut organiser le faire. Le responsable de formation se doit construire une politique d’acculturation pour sa ligne formative pour anticiper les irruptions techniques et d’organiser en amont les usages, comme une courbe d’apprentissage quelle que soit l’irruption. La formation devient le lieu de la préparation de l’agilité organisationnelle. Au fond, l’IA générative vidéo rappelle à la formation, que le 21^ème siècle sera le siècle des apprenants, et que son travail est d’assurer la transformation sociale de l’évolution structurelle.

Fait à Paris, le 27 février 2024

@StephaneDIEB pour vos commentaires sur X (ex-Twitter)

Découvrez « 100 expériences scientifiques de la formation »

Achetez le nouveau livre indispensable pour profiter de la synthèse des fondements scientifiques des pratiques de la formation.

Commander sur Lulu.com