En 2020, infoscope a été approché par des politologues de l’Université Laval pour les épauler dans le volet Décideurs du Projet Quorum, une initiative de diffusion et de sensibilisation scientifique menée par la CLESSN et le Centre d’analyse des politiques publiques. Les clients voulaient rendre accessible facilement, en une seule base de données, les textes de débats parlementaires et de conférences de presse depuis le début de la pandémie. Ceci impliquait la collecte, la structuration et l’exploitation de données parfois textuelles et parfois audiovisuelles, de différentes sources. Ce contrat initial s’est vite développé en une collaboration très enrichissante, autant pour notre client que pour nous.
Afin d’assurer une mise à jour continue du site du projet, les clients voulaient pouvoir analyser les “messes COVID”, conférences de presse diffusées en ligne quasi- quotidiennement, afin de suivre l’évolution du discours des politiciens. Il fallait que les données textuelles soient disponibles sur l’infrastructure de données le plus rapidement possible suite à la tenue de la conférence de presse pour une mise à jour le soir même. On mobiliserait à la fois des compétences de web-scraping, de la transcription audio-vidéo automatique (avec des modèles de transcription d’intelligence artificielle généralement peu entraînés à l’accent québécois), et la structuration de ces données suivant une logique similaire à celle des transcriptions de l’Assemblée Nationale.
À ce moment là, les technologies d’analyses de texte par LLMs (Modèle de Langage Large; i.e. GPT de OpenAI), n’étaient pas encore disponibles. Nous avons donc construit nos modèles d’analyse de texte à partir de rien. Par moments, on ne savait plus si on y arriverait, vu l’ampleur de la tâche, la fréquence changeante des mises à jour et la diversité des données, sans parler des technologies en constante évolution qui rendaient nécessaires des mises à niveau fréquentes des algorithmes. On avait du pain sur la planche, c’est pas peu dire! C'est donc à force de collaboration, de détermination, de longues heures, et d’échanges avec l’équipe de recherche, qu'on est parvenus à mettre sur pied un système efficace pour répondre à leur besoin de données “en continu”.
À mesure que le projet avançait, les chercheurs faisaient face à de nouveaux besoins, comme lorsqu’on a voulu ajouter les tweets des élus au jeu de données, mais aussi à de nouveaux défis. En effet, nous avons constaté que les chercheurs étaient tellement submergés de tâches manuelles pour alimenter le site web en continu qu’ils ne parvenaient plus à trouver le temps pour leurs analyses. Nous avons ainsi développé pour eux un pipeline de données automatisé, c’est-à-dire, une suite de robots informatiques qui extraient, transforment et chargent les données dans un entrepôt de données structuré, conçu sur mesure pour leurs besoins académiques particuliers, et ce complètement automatiquement. Le temps que cette initiative leur a fait gagner a permis à l’équipe de se concentrer sur la portion recherche de leur travail et, éventuellement, de produire des articles et des rapports scientifiques.
Pour compléter l’automatisation, nous avons développé avec les chercheurs un algorithme d’analyse textuelle automatique qui répond à la contrainte scientifique d’explicabilité et de reproductivité, afin d’identifier 1- ce dont parle un texte ou un corpus de texte (les sujets); 2- s’il en parle beaucoup; et 3- comment il en parle (positivement ou négativement). Ceci a contribué à la précision des analyses ainsi qu’à rendre possible la visualisation des données. Ce partenariat s'est continué sur quelques années, on a élargi encore la base de données pour inclure d'autres instances gouvernementales. Aujourd'hui, si on avait à illustrer le projet, il ressemblerait à quelque chose comme ceci:
Cette collaboration nous a fait découvrir la valeur inestimable d’une relation serrée avec nos clients, autant dans les projets de longue haleine que dans les projets ponctuels. Non seulement cette relation nous permet de bien comprendre l’utilisation que notre client compte faire des données mais aussi les enjeux qui se posent à leur contexte particulier, afin de maximiser l’aide qu’on peut lui apporter.
On est sortis de notre zone de confort et on a persévéré, même quand on pensait que le défi serait peut-être trop grand pour notre toute petite boîte. Apprendre à exploiter le pouvoir des mots nous a permis de grandir encore plus qu'on ne l'aurait imaginé, et de développer des compétences complémentaires à notre champ d’expertise, en plus de faciliter un peu la vie de nos clients. Ça, pour nous, c’est d’une valeur inestimable.
Vous avez, vous aussi, des données textuelles à votre disposition, mais ne savez pas par où commencer? On serait heureux de collaborer à des projets semblables à nouveau dans le futur!
Comments