[Leçon inaugurale] Yann Le Cun - Apprentissage profond et au-delà : les nouveaux défis de l'IA

L'avenir de l'IA : des LLM aux modèles du monde, une révolution en cours

---

timestamp: "00:00:16"

marker: "!"

title: "Introduction et contexte historique de l'IA"

quote: "Ils ont continué de travailler et ont trouvé des nouvelles méthodes d'apprentissage... ce qu'on appelle le deep learning qui ont complètement à partir des années 2010 revivifié le domaine."

details:

La conférence débute par une présentation de Yann LeCun, présenté comme une figure pionnière et persistante de l'intelligence artificielle. Son parcours est retracé, depuis ses études en France jusqu'à ses travaux aux laboratoires Bell Labs aux États-Unis, en passant par sa thèse à Paris. L'accent est mis sur sa persévérance et celle de ses collègues, comme Yoshua Bengio et Geoffrey Hinton, à une époque où les réseaux de neurones et l'IA étaient tombés en désuétude après l'engouement des années 70-80. Leur travail acharné a conduit au développement de nouvelles méthodes d'apprentissage, culminant avec la révolution du *deep learning* au début des années 2010, qui a redonné vie au domaine. Cette persistance a été récompensée par le prix Turing en 2018, souvent considéré comme l'équivalent du Nobel en informatique.

Au-delà de l'aspect technique, l'intervention de LeCun est annoncée comme portant également une réflexion profonde sur le développement de l'IA. Les problématiques de transparence, de collaboration, la compréhension des limites actuelles et, surtout, la conviction que l'IA doit être un outil mis au service du bien commun sont présentées comme des thèmes centraux. Cette dimension sociétale est soulignée par la mention de ses ouvrages, co-écrits avec des spécialistes comme le neurobiologiste Stanislas Dehaene, qui lient l'intelligence biologique et artificielle, montrant que le sujet dépasse largement le cadre de l'ingénierie.

LeCun est présenté comme ayant rejoint Facebook (Meta) en 2013 pour y fonder le FAIR (Facebook AI Research Lab), qu'il a dirigé pendant plusieurs années. Ce détail est important car il situe le conférencier à l'intersection de la recherche académique de pointe et du développement industriel à grande échelle, lui donnant une perspective unique sur les défis pratiques, les ressources nécessaires et l'impact sociétal des technologies d'IA qu'il contribue à créer.

---

timestamp: "00:03:30"

marker: "!"

title: "L'IA comme amplificateur d'intelligence humaine : perspectives et leçons historiques"

quote: "L'histoire de l'informatique, c'est qu'on a fait des systèmes informatiques dont les capacités en fait surpassent les capacités humaines. C'est un peu le principe d'utiliser des outils... Donc l'IA doit être vu comme un moyen d'amplifier l'intelligence humaine."

details:

Yann LeCun pose d'emblée le cadre philosophique de sa vision : l'IA est avant tout un outil d'amplification de l'intelligence humaine, dans la continuité historique de tous les outils développés par l'humanité. Il insiste sur le fait que cet effet ne peut être, dans l'ensemble, que positif, tout en reconnaissant l'existence de risques qu'il ne faut ni ignorer ni exagérer. Cette position cherche à équilibrer l'enthousiasme technologique et une prudence raisonnée, rejetant à la fois le catastrophisme et l'angélisme.

Pour illustrer l'impact transformateur et parfois imprévisible d'une telle amplification, LeCun fait un parallèle historique puissant avec l'invention de l'imprimerie au XVe siècle. Il explique que cette technologie, en démocratisant l'accès au savoir (en commençant par la Bible), a eu des conséquences profondes et ambivalentes : elle a engendré le mouvement protestant, provoqué des siècles de conflits religieux en Europe, mais a aussi été le catalyseur des Lumières et du progrès scientifique en Occident. À l'inverse, son interdiction dans le monde musulman de l'époque aurait, selon lui, contribué à un déclin relatif. La leçon est double : disséminer le savoir est fondamentalement bénéfique, mais cela s'accompagne de dangers et de perturbations sociales qu'il faut anticiper.

Appliquant cette leçon à l'IA, LeCun en déduit que son développement, bien mené, permettra une prise de décision plus rationnelle pour tous et accélérera considérablement le progrès scientifique, notamment dans des domaines comme la science des matériaux. Il anticipe ainsi des décennies de transformations majeures et encourage son auditoire, les futurs ingénieurs, à ne pas en avoir peur mais à en être des acteurs. Il normalise également l'idée de travailler avec des entités plus intelligentes que soi, arguant que c'est la meilleure chose qui puisse arriver, s'appuyant sur sa propre expérience de collaboration.

---

timestamp: "00:09:55"

marker: "!"

title: "Notre future relation avec l'IA : des assistants personnels omniprésents"

quote: "Vous quand vous aurez fini vos études, vous aurez des assistants d'IA avec vous qui seront plus ou moins intelligents... Il faut pas avoir peur de travailler avec des entités qui sont plus intelligentes que vous."

details:

LeCun décrit une vision concrète et personnelle de l'intégration future de l'IA dans la vie quotidienne. Il prédit que chaque individu sera accompagné par des assistants d'IA, d'abord modestes, puis de plus en plus capables, pour finalement dépasser potentiellement l'intelligence humaine dans certains domaines. Ces assistants seront comme une équipe de "gens virtuels" nous accompagnant en permanence. Pour rendre cette idée tangible, il donne l'exemple de ses propres lunettes intelligentes, équipées d'un assistant (sans doute basé sur un modèle de langage comme Meta AI) capable de répondre à des questions, de prendre des photos ou d'interagir sur commande.

Cette perspective est présentée comme une évolution naturelle et positive. LeCun dédramatise la peur d'être dépassé par une intelligence supérieure en la comparant à la dynamique d'une équipe de travail : avoir des collaborateurs plus intelligents est un atout, pas une menace. Il partage son expérience personnelle, affirmant avoir toujours collaboré avec des gens plus intelligents que lui et que cela a été extrêmement bénéfique. L'objectif est de faire passer l'IA d'un concept abstrait et parfois anxiogène à celui d'un outil collaboratif et familier, un prolongement de nos capacités cognitives.

Cette partie sert de transition vers l'explication technique. Après avoir posé le "pourquoi" (amplifier l'intelligence) et le "comment" sera-t-elle intégrée (assistants personnels), il introduit la question fondamentale du "comment ça marche", en soulignant la différence cruciale entre la programmation explicite et l'apprentissage automatique pour résoudre des tâches complexes comme la vision par ordinateur.

---

timestamp: "00:12:54"

marker: "!"

title: "Fondements de l'apprentissage machine : de la régression linéaire au neurone simple"

quote: "Et l'idée pour entraîner ça est vraiment super simple... Donc on appelle ça une fonction de coût et c'est une fonction du vecteur de paramètres W."

details:

Pour rendre son exposé accessible, LeCun entreprend de démystifier les bases de l'apprentissage machine en partant d'un exemple très simple : la reconnaissance d'une lettre (par exemple, "C") dans une image. Il explique qu'une image n'est qu'un tableau de nombres (les pixels) et que l'on peut vouloir calculer une combinaison linéaire de ces valeurs avec un ensemble de coefficients (ou "poids", notés W). Si la somme pondérée dépasse un seuil, on décide que l'image contient la lettre C. Le défi est de trouver les bons poids.

Il introduit alors le concept central de **fonction de coût** (ou *loss function*). Pour entraîner le système, on dispose d'un ensemble d'exemples étiquetés (des images de "C" et de "non-C"). L'idée est de définir une fonction mathématique qui mesure l'erreur entre la sortie souhaitée (par exemple, +1 pour "C", -1 pour "non-C") et la sortie réelle produite par le système avec ses poids actuels. Une fonction classique est l'erreur quadratique moyenne. Le problème d'apprentissage se réduit ainsi à un **problème d'optimisation** : trouver le vecteur de poids W qui minimise cette fonction de coût sur l'ensemble des exemples.

La solution à ce problème d'optimisation est présentée via l'algorithme de **descente de gradient**. LeCun en donne une explication intuitive : pour minimiser l'erreur, on calcule le gradient de la fonction de coût par rapport aux poids (c'est-à-dire la direction de la plus forte augmentation de l'erreur), et on ajuste les poids dans la direction opposée, proportionnellement à un petit pas appelé "taux d'apprentissage". Il montre même la forme simple de la mise à jour pour un exemple individuel, mettant en lumière l'élégance et la simplicité conceptuelle de ce mécanisme fondamental, qui remonte aux années 50-60.

---

timestamp: "00:19:53"

marker: "!"

title: "La révolution du Deep Learning et la rétropropagation du gradient"

quote: "Qu'est-ce que c'est le deep learning ? C'est une petite modification de ça dans lequel on a toujours une entrée X mais au lieu d'avoir une machine qui est relativement simple... on va en fait en empiler plusieurs."

details:

LeCun explique que les modèles linéaires simples sont insuffisants pour des tâches complexes comme la vision ou le langage. Le **deep learning** résout ce problème par une "petite modification" architecturale mais profonde : au lieu d'une seule couche de calcul, on empile plusieurs couches de transformations. Chaque couche applique une multiplication par une matrice de poids suivie d'une fonction non-linéaire (comme ReLU). L'entrée traverse cette pile de couches pour produire une sortie finale, et l'objectif reste le même : minimiser l'erreur entre cette sortie et la valeur désirée.

La clé qui a rendu l'entraînement de ces réseaux "profonds" possible est l'algorithme de **rétropropagation du gradient**. LeCun souligne que le concept mathématique sous-jacent, la règle de dérivation des fonctions composées (ou chaîne), est connu depuis l'époque de Newton et Leibniz. L'innovation a été d'appliquer cette règle de manière systématique pour calculer efficacement le gradient de l'erreur par rapport à *tous* les paramètres de *toutes* les couches du réseau, en partant de la sortie et en remontant vers l'entrée. Il esquisse le calcul, montrant comment le gradient se propage à travers les matrices de poids (leurs transposées, en fait) et les fonctions non-linéaires.

Il contextualise historiquement cette idée, née dans les années 80, tombée en désuétude dans les années 90, puis revenue en force au début des années 2010, déclenchant la révolution actuelle de l'IA. Il note aussi la commodité offerte par les frameworks modernes comme PyTorch, qui utilisent la **différenciation automatique** pour calculer ces gradients sans que le programmeur n'ait à le faire manuellement, rendant le développement de modèles complexes beaucoup plus accessible.