Skip to main content

Un système d'apprentissage artificiel multicritère guidé par les besoins utilisateur

Résumé en français

L’usage de systèmes de recommandation pour identifier un sous-ensemble pertinent d’éléments parmi un vaste choix de possibilités est aujourd’hui fréquent. Les algorithmes de bandits-manchots, permettant l’identification en ligne de solutions optimales ont ainsi été largement étendus afin de couvrir les besoins de telles applications. Cette thèse s’ancre dans cette dynamique de recherche autour des sujets suivants : 1) les systèmes de recommandation ; 2) les algorithmes de bandits-manchots ; 3) l’optimisation multicritère. Nos premières contributions ont porté sur l’impact de la fonction de récompense sur les performances d’algorithmes de bandits-manchots. Nous formalisons un modèle générique décrivant ces fonctions et proposons de nouvelles méthodes de sélection des retours utilisateur et de calcul de récompense permettant des améliorations significatives de l’état de l’art. La seconde partie de nos travaux porte sur le problème de la sélection d’algorithme en ligne pour répondre à des problèmes multicritères. Nous proposons l’adaptation d’un algorithme récent de la littérature, Gorthaur au cas de la recommandation à k éléments. Suite à l’évaluation empirique de plusieurs variantes de l’approche, nous proposons Budgeted-Gorthaur-EXP3, visant à satisfaire plusieurs compromis de performances entre les critères à chaque itération.

Résumé en anglais

Nowadays, recommender systems are frequenty used to identify a relevant subset of elements among a vast choice of possibilities. Multi-armed bandits (MAB) algorithms, allowing the online identification of optimal solutions, have thus been widely extended in order to cover the needs of such applications. This thesis revolves around this research dynamic which involves the following topics: 1) recommender systems ; 2) multiarmed bandits algorithms ; 3) multi-criteria optimization. Our first contributions focus on MAB algorithm's reward functions and their impact on the agent's performance. We formalize a generic model describing these functions and propose new methods for user feedback selection and reward computation, allowing significant improvements of the state of the art. The second part of our work deals with the problem of online algorithms selection to solve multi-criteria problems. We extend a recent algorithm from the literature, Gorthaur, to the case of top-k recommendations. Following the empirical evaluation of several variants of this approach, we propose BudgetedGorthaur-EXP3, aiming to satisfy several performance trade-offs between the criteria at each iteration.

Année
2023
Année de soutenance
2023-05-23
Type de dépôt
Thèse de doctorat
Langue de publication
Français
Éditeur
Université d'Angers
Lieu d'édition
Angers
Citation Key
dune17611
URL
https://dune.univ-angers.fr/fichiers/20134373/202317611/fichier/17611F.pdf
Thèse
Publication du contenu
Libellé de l'UFR
Collège doctoral
Libellé du diplôme
Thèse de doctorat
Diffusion du fichier :