Vos milliers de photos stockées sur Google ou Amazon. Vos goûts sur Spotify ou Netflix. Les ordres que vous donnez à Siri ou Alexa. Même les damnés « captchas » que vous avez de la difficulté à décoder. Sans nécessairement le savoir, l’utilisateur fait tous les jours des gestes qui représentent une mine d’or pour les géants technos, leur permettant d’accumuler de précieuses données pour entraîner leurs systèmes d’intelligence artificielle (IA).
« Presque tout ce qu’on fait sur l’internet est enregistré », précise d’emblée Laurent Charlin, membre principal de l’Institut québécois d’intelligence artificielle Mila et professeur agrégé à HEC Montréal. « Éventuellement, il y a une chance sans doute de plus en plus grande, de mois en mois ou d’année en année, que cette information-là soit utilisée d’une façon ou d’une autre quelque part pour entraîner un système automatique. »
Efficace parce que populaire
Le moteur de recherche de Google est en soi une belle illustration de ce qui donne de la valeur à cette participation des utilisateurs. Sans elle, Google n’aurait jamais pu se distinguer des moteurs de recherche précédents qui se contentaient essentiellement d’archiver et de répertorier les sites par mots-clés. C’est le concept de PageRank, basé sur la popularité des pages web et présenté par les fondateurs de Google, Sergey Brin et Larry Page, en 1998, qui a marqué l’envol de ce moteur de recherche qui détient aujourd’hui 83,5 % du marché, selon Statista.
Autrement dit, plus les internautes utilisent Google, et plus son moteur de recherche est pertinent.
« Fondamentalement, avoir du temps d’un humain, ç’a beaucoup de valeur, explique M. Charlin. L’intelligence artificielle est entraînée avec des données souvent étiquetées, donc plus j’ai d’étiquettes, plus j’ai de jeux de données qui vont me permettre de l’améliorer. »
La magie des recommandations à l’œuvre dans la plupart des sites populaires, de Facebook à YouTube en passant par Amazon, repose également sur l’analyse du comportement des utilisateurs. « C’est quand même assez long, entraîner une machine, ce sont des millions et des millions d’énoncés de données », explique Jonas Colin, chercheur et doctorant en informatique cognitive à l’Université du Québec à Montréal (UQAM).
Tu vas par exemple sur YouTube, tu sélectionnes différentes vidéos, tout est gardé en arrière-scène dans la mémoire de la machine. Si tu regardes des vidéos d’automobile, la prochaine fois que tu iras sur YouTube, on va te proposer des vidéos d’automobile. […] La machine connaît beaucoup mieux ses utilisateurs et elle est en mesure de beaucoup mieux réagir à leurs préférences.
Jonas Colin, chercheur et doctorant en informatique cognitive à l’Université du Québec à Montréal (UQAM).
Matériau à raffiner
Tout se passe sur le web comme si les plateformes technologiques disposaient en permanence, et gratuitement, de groupes de discussion et de sondages sur leurs utilisateurs. Ce qui est un avantage pour ces entreprises, bien entendu, mais profite également aux internautes, affirme Louis-François Bouchard, vulgarisateur scientifique en intelligence artificielle et cofondateur de Towards IA, une plateforme d’éducation.
« Dès qu’on utilise Google ou Apple, dès qu’on utilise un système, on l’aide à s’améliorer. Ce qui est bon pour nous aussi : ça fait que ce qu’on utilise devient meilleur. »
Il ne faudrait toutefois pas croire que ces données brutes sont suffisantes, précise-t-il. « C’est sûr que c’est cool pour eux d’avoir énormément de données, d’avoir accès à tout ça, sauf que c’est aussi un peu un poison. […] Il y a ensuite beaucoup de travail, de traitement, beaucoup d’ingénierie. C’est clair qu’on les aide, mais il ne faut pas non plus dire qu’on fait tout pour eux. »
L’exemple de ChatGPT l’illustre bien : le contenu sur lequel l’intelligence artificielle générative a été bâtie, les milliards de pages de textes sur le web, était accessible à tous. « Il y a ce premier entraînement qui donne tellement de données, je dirais que c’est la première étape de comprendre un peu le monde, puis d’avoir des connaissances plus affinées, résume M. Bouchard. C’est comme aller d’abord à l’école primaire, puis d’aller dans une technique plus spécifique au cégep ou à l’université. »
Quatre exemples d’entraînement
Captchas
Les « captchas » sont ces tests en ligne où on peut demander d’identifier dans des photos un objet précis – vélo, escalier, feu de circulation – ou de taper des lettres manuscrites. C’est le reCAPTCHA Google, avec une part de marché allant de 93 à 99,9 % selon les sources, qui contrôle cet outil offert aux sites. Son rôle officiel : s’assurer que ce sont bien des humains qui veulent entrer sur un site. Mais Google le précise en ligne, reCAPTCHA sert à entraîner l’IA. « Des images de haute qualité étiquetées par l’homme sont compilées dans des ensembles de données qui peuvent être utilisés pour former des systèmes d’apprentissage automatique », peut-on lire. « Les CAPTCHAs ne sont plus utilisés pour entraîner l’IA depuis 2019 », a cependant précisé une porte-parole de Google.
Recommandations
Que ce soit sur Netflix, Spotify, TikTok ou YouTube, les choix des usagers sont soigneusement compilés et servent à leur suggérer leurs prochaines écoutes ou leurs prochains visionnements. Les algorithmes à l’œuvre sont bien plus complexes qu’une simple analyse des goûts de chacun. « Sur TikTok, on va te recommander des vidéos appréciées de gens qui ont un profil un peu similaire au tien, explique Louis-François Bouchard. Si tu as regardé une série au complet sur Netflix, elle va être proposée à plusieurs abonnés du même profil. Et si beaucoup de gens la regardent, ils vont produire une série similaire. »
Images
Une action collective récemment autorisée au Québec contre Google Photos a levé le voile sur l’utilité des milliards de photos déposées en ligne. Dans le cas de Google, ces photos sont analysées par une technologie de reconnaissance faciale appelée FaceNet qui permet d’étiqueter les personnes. Facebook dispose d’une technologie semblable pour laquelle elle avait dû débourser 650 millions US dans le cadre d’une action collective en Illinois en 2021. « Ces machines-là, si vous les entraînez avec quelques millions de photos, elles sont capables de reconnaître des traits distinctifs que vous et moi, on ne pourrait pas reconnaître », explique Jonas Colin.
Assistants vocaux
Personne n’aime être rabroué ou corrigé, sauf les assistants vocaux comme Siri, Alexa et l’Assistant Google. Il s’agit en effet d’une mine d’or pour les ingénieurs qui ont conçu ces systèmes d’intelligence artificielle, qui peuvent ainsi s’améliorer grâce à la collaboration gratuite de leurs utilisateurs. En 2019, Amazon avait confirmé à La Presse avoir mis à contribution « quelques milliers d’utilisateurs » francophones au Canada pour doter Alexa d’une compréhension du français québécois. L’autocorrecteur offert sur les appareils mobiles, note Louis-François Bouchard, s’améliore par les rétroactions de ses usagers. « S’il note que des mots qu’il ne connaît pas reviennent souvent, il va finir par les accepter. »
Intelligence artificielle | Comment entraîner l'IA sans le savoir - La Presse
Read More
No comments:
Post a Comment