Deep Learning : apprendre aux machines à apprendre

Les machines les plus puissantes que nous concevons aujourd’hui ne sont pas en mesure de réaliser des tâches qu’un enfant de 3 ans maîtrise sans peine : peu importe la capacité de calcul qu’elles ont, elles sont incapables d’interpréter. Ou peut-être l’étaient-elles encore il y a peu ?

Fei-Fei Li, chercheuse américaine, travaille sur ce qu’on appelle le deep learning, ou le fait d’apprendre aux machines à reconnaître et « comprendre » ce qu’on leur montre. Pour un humain, reconnaître un chat, un chien, un autre humain ou un cerf-volant est à priori naturel et ce, peu importe les caractéristiques spécifiques du sujet. En gros si vous croisez un chat à la queue coupée ou ne possédant que trois pates vous saurez malgré tout que c’est un chat, car vous avez depuis longtemps assimilé l’archetype du chat. Cet exercice trivial, les machines en sont incapables et plusieurs laboratoires assez costauds, tel le sulfureux Google X (chargé de plancher sur les projets « secrets » de Google), travaillent d’arrache-pied à leur inculquer cette faculté d’abstraction. Bien loin des gros dollars, des Google Bikes et autres Googleplex de Mountain View, Fei-Fei Li et son équipe du Stanford’s Vision Lab sont parvenus à repousser un peu plus encore les limites cognitives de nos amis (?) robots.

 

Créer la machine à son image

Pour tenter de permettre aux ordinateurs de comprendre les images qu’ils captaient, on a longtemps essayé de leur faire associer une idée à un pattern, un ensemble de caractéristiques et formes géométriques spécifiques. Ces patterns enregistrés, il appliquait systématiquement tous ceux qu’ils connaissait à l’image et tentait, avec généralement peu de succès, de les reconstituer pour identifier des objets, des animaux, etc.

Le problème, et il est de taille, est que pour tout objet il y a des milliers de perspectives et altérations possibles de la forme, ce qui rend donc la méthode inopérante dans une grande majorité de cas (sans compter ceux qui cherchent vraiment la merde).

Pour donner à leurs machines les facultés d’un enfant de 3 ans, Fei-Fei Li et son équipe se sont donc penchés sur la manière dont ces mêmes enfants les ont obtenues. En effet, personne n’apprend à un enfant à comprendre les choses, il le fait spontanément, au fur et à mesure que son expérience des choses s’étoffe. Plus précisément, si on considère qu’un œil humain perçoit une image toutes les 0,2 secondes (temps moyen entre deux mouvements de l’œil), alors à l’âge de trois ans un enfant aura vu et processé plusieurs milliards d’images. L’humain commence donc par assimiler des quantités formidables d’informations avant de créer lui-même ses patterns, et de les affiner en recoupant constamment les images qu’il capte avec ce qu’il a déjà assimilé.

C’est cette même méthode qu’ont employé les chercheurs du Stanford’s Vision Lab. Grâce à Amazon Mechanical Turk (un service de recrutement de main d’oeuvre en crowdsourcing), ils ont pu recruter virtuellement près de 50.000 employés qui ont recensé puis labellé plus de 15.000.000 de photos de plein de choses différentes, telles des animaux, des objets, des véhicules, des lieux, classées dans une base de donnée qu’ils ont appelée Imagenet. Ils ont ensuite exposé leurs machines à toutes ces images, si bien qu’elles sont désormais capables d’identifier et de situer parfois très précisément une assez grande variété d’objets sur des photos qu’on leur présente.

Introduction d’une marge d’appréciation

Pour qu’on puisse réellement parler ici d’intelligence artificielle, il est nécessaire de pousser l’idée encore un peu plus. Maintenant que ces ordinateurs sont capables d’identifier ce qu’ils voient avec une précision accrue, l’étape suivante logique est de les rendre capables de faire des inférences, de décrypter ce qu’elles voient.

Ainsi, les ordinateurs abreuvés par la base de données sont désormais capables d’interpréter les scènes qu’ils voient en images et de les décrire. Pour ce faire, ils recoupent à la manière de neurones toutes les informations qu’ils possèdent concernant les différents éléments préalablement identifiés et font ressortir les connexions jugées les plus pertinentes, sous la forme de phrases qu’on croirait parfois sorties de Google Translate.

Ce n’est certes pas encore bien compliqué, ni tout à fait juste et la syntaxe laisse à désirer, mais on peut sans doute considérer que l’objectif d’atteindre les capacités d’analyse d’un enfant de trois ans estt atteint.

 

Premiers signes d’une relève de grande envergure ?

Les implications de ces nouvelles capacités d’apprentissage et d’analyse pour les machines pourraient être nombreuses et très diverses. Effectivement, là où elles se sont toujours contentées de capter et relayer des images pour analyse par un humain, elles pourraient désormais les interpréter elles-mêmes et prendre des mesures en conséquence.

Le deep learning est par exemple à la base même de la technologie qui rend les voitures sans conducteurs possibles, et ses avancées améliorent directement leur performance. En médecine également, en permettant de prononcer des diagnostics complémentaires en imagerie médicale. Les implications seraient sans doute aussi nombreuses du côté de la recherche, de l’exploration et de la surveillance, permettant à des robots de déblayer des sites de sinistres de type explosion, incendie ou même radioactivité, à la recherche de survivants, mais aussi dans des missions d’exploration montagneuses, aquatiques, souterraines auxquelles nous n’avons pas accès. Ces nouvelles applications de l’observation par machine permettrait d’augmenter très considérablement notre capacité d’embrassement du monde, de décupler artificiellement notre présence, ou plutôt notre attention.

 

Je suis généralement très enthousiaste de lire les avancées d’un projet de recherche scientifique, que ce soit en robotique, médecine, communication ou autre, mais celui-ci me laisse un sentiment mitigé. Jusque-là on se contentait soit d’améliorer les capacités humaines à l’aide d’appareils variés, soit d’apprendre aux machines à effectuer des tâches, parfois très complexes (regardez ces drones jongler avec des balles et des filets) mais qui relevaient de l’exécution pure et simple. En gros on apprenait aux machines à être des machines de plus en plus performantes, et nous restions seuls détenteurs de la pensée, de l’observation, de l’appréciation. Ici, on essaye d’apprendre aux machines à devenir un peu des humaines, et c’est tout de même très différent.

Dans les années à venir, la marge de manœuvre des machines dans notre quotidien va aller croissant et elle touchera à des thématiques de plus en plus délicates. Hier on opérait à 7.000 km de distance par l’intermédiaire d’une machine, demain elle opèrera seule ; aujourd’hui nous conduisons nous-mêmes nos enfants à l’école, demain nos voitures le feront elles-mêmes, suivies sans doute de près par des pompiers et autres secouristes 3.0 en tous genres. Fei-Fei Li dit vouloir préparer un futur meilleur pour son fils Leo et c’est très gentil de sa part. Je ne sais pas s’il sera meilleur, je sais en revanche qu’il sera très, très différent.

 

BONUS : le TED talk

The following two tabs change content below.

Lucas Montenoise

Ex-forgeron repenti, étudiant en M1 marketing / publicité @ISCOM. Fan de magie donc de technologie, j'aime aussi la pub, les jeux vidéos, racler le fond du web, faire du sport et manger.

Commentaires

commentaires

0 réponses

Répondre

Se joindre à la discussion ?
Vous êtes libre de contribuer !

Laisser un commentaire