Mitigation of Data Bias through Fair Features Selection Methods - Systèmes d’Informations Généralisées Accéder directement au contenu
Thèse Année : 2023

Mitigation of Data Bias through Fair Features Selection Methods

Atténuation des Biais de Données par des Méthodes de Sélection de Caractéristiques Équitables

Ginel Dorleon

Résumé

The availability and collection of increasingly numerous and heterogeneous data, combined with the development of AI work on machine learning in big data, leads to questions about the impacts of using AI systems to support human decisions. In the context of machine learning, data is the main resource to guide decision-making. However, when bias exists in the data, this can significantly affect the decision-making process and could have far-reaching consequences. By bias we mean any systematic distortion of an evaluation or of a statistical sample chosen in a defective way. Thus, through this thesis, our research focuses on the qualification of data and bias as well as their applications decision-making systems. The main goal is to explore the means of informing about input data impacts on decision-making systems results by proposing a qualification of the input data importance and biases induced by the data used. The work carried out during this thesis addresses the entire decision-making process in AI with the aim of understanding the different sources of bias, detecting them and mitigating their effects on the results produced for specific applications. During this thesis, we have developed, through several contributions, approaches and methods that make it possible to identify, correct biases and improve fairness in decision-making systems. First, we established a taxonomy of biases and the area where they are likely to occur in the data science process. This first work allowed us to reveal in a second step how feature selection can contribute to induce biases in the decision-making process when features considered to be sensitive (protected) or their redundant are selected. Based on that, we have proposed a first method which consists in evaluating redundancy between features to avoid, in search of fairness, deleting too many features, which would lead to a significant performance loss. Then, we proposed a second approach where we avoid using protected features in the decision-making model but instead their redundant by establishing a trade-off strategy between the model’s performance and its fairness. And finally, to compensate the limits of this previous approach on the fact that it did not use any protected features, we opted for an approach of group-balancing and non-deletion of data. Through this last approach, we have proposed a method which aims to divide the input data into subgroups which later will be balanced with regard to the protected features. Then fair local decision-making models are built on these balanced subgroups. Finally, using a learning ensemble strategy, we obtain a final model that is fair without removing any protected features. We have evaluated and experimentally validated the effectiveness of each of these contributions, which have proven to be very relevant in view of our issue of bias.
La disponibilité et le recueil de données qui sont de plus en plus nombreuses mais hétérogènes, alliés au développement de travaux en intelligence artificielle (IA) basée sur l’apprentissage machine, conduit à se questionner sur les impacts de l’utilisation de ces systèmes d’IA pour accompagner des décisions humaines. Dans le contexte de l’apprentissage machine, les données constituent la principale ressource pour guider les prises de décisions. Cependant, lorsque des biais existent dans les données, cela peut affecter de façon significative l’interprétation des décisions et pourrait avoir des conséquences considérables. Par biais, nous entendons toute déformation systématique d’une évaluation ou d’un échantillon statistique choisi de manière défectueuse. Ainsi, à travers cette thèse, notre recherche se base sur la qualification des données et des biais ainsi que leurs applications dans les systèmes décisionnels. L’objectif est d’étudier les moyens d’informer sur les impacts des données d’entrées sur les résultats des systèmes décisionnels en proposant une qualification de l’importance des données et de leur biais. Le travail réalisé au cours de cette thèse aborde l’ensemble du processus décisionnel en IA dans le but de comprendre les différentes sources de biais, de les détecter et d’atténuer leurs effets sur les résultats produits pour des applications spécifiques. Au cours de la thèse, nous avons élaboré des approches et des méthodes qui permettent d’identifier, corriger les biais et d’améliorer l’équité dans les systèmes décisionnels. Nous avons établi en premier lieu une taxonomie de biais ainsi que les étapes où ils sont susceptibles d’arriver lors du développement d’un système d’IA dirigé par les données. Ce premier travail nous a permis par la suite de montrer comment la sélection des caractéristiques d’entrées peut induire des biais lorsque des attributs jugés protégés (ou leurs redondants) sont sélectionnés. Nous avons proposé une première méthode qui consiste à évaluer la redondance entre les caractéristiques pour éviter, à trop vouloir être équitable, de supprimer trop d’attributs, ce qui conduirait à une perte considérable en terme de performance. Dans un second travail, nous avons proposé une approche qui vise la non-prise en compte des attributs protégés dans la construction du modèle décisionnel mais plutôt leurs redondants par un compromis entre la performance et l’équité. Et finalement, pour compenser les limites de cette approche sur la non-prise en compte des attributs protégés dans la construction du modèle, nous avons opté pour une approche d’équilibrage et de non-suppression de données. A travers cette dernière approche, nous avons proposé une méthode qui vise à découper les données d’entrées en sous-groupes ("clusters") qui sont équilibrés au regard des attributs protégés. Ensuite des modèles décisionnels locaux équitables sont construits sur ces sous-groupes. Puis à l’aide d’une stratégie ensembliste, un modèle global équitable est obtenu en conservant les attributs protégés. Nous avons évalué et validé expérimentalement l’efficacité de chacune de ces contributions qui se sont avérées très pertinentes au vu de notre problématique sur les biais
Fichier principal
Vignette du fichier
Thèse_GinelDorleon.pdf (1.97 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
licence : Copyright (Tous droits réservés)

Dates et versions

tel-03995412 , version 1 (18-02-2023)

Licence

Copyright (Tous droits réservés)

Identifiants

  • HAL Id : tel-03995412 , version 1

Citer

Ginel Dorleon. Mitigation of Data Bias through Fair Features Selection Methods. Artificial Intelligence [cs.AI]. Paul Sabatier. Université Toulouse III - Paul Sabatier (UPS), Toulouse, FRA., 2023. English. ⟨NNT : ⟩. ⟨tel-03995412⟩
170 Consultations
281 Téléchargements

Partager

Gmail Facebook X LinkedIn More