基于区块链的毕业设计Evaluation des Risques des Impacts Sociétaux des Algorithmes d’IA: ressources pédagogiques – 社会算法影响评估:资源pédagogiques

本文提供基于区块链的毕业设计国外最新区块链项目源码下载,包括solidity,eth,fabric等blockchain区块链,基于区块链的毕业设计Evaluation des Risques des Impacts Sociétaux des Algorithmes d’IA: ressources pédagogiques – 社会算法影响评估:资源pédagogiques 是一篇很好的国外资料

Evaluation des Risques des Impacts Sociétaux des Algorithmes d'IA: ressources pédagogiques - 社会算法影响评估:资源pédagogiques Evaluation des Risques des Impacts Sociétaux des Algorithmes d'IA: ressources pédagogiques - 社会算法影响评估:资源pédagogiques Evaluation des Risques des Impacts Sociétaux des Algorithmes d'IA: ressources pédagogiques - 社会算法影响评估:资源pédagogiques

Evaluation des Risques des Impacts Sociétaux des Algorithmes d’IA: ressources pédagogiques

Philippe Besse (1), Céline Castets Renard (2), Jean-Michel Loubes(3) & Laurent Risser (4)

(1) Université de Toulouse — INSA & ObvIA

(2) Université d’Ottawa, ANITI, & ObvIA

(3) Université de Toulouse — Paul Sabatier & ANITI

(4) IMT – CNRS & ANITI

Résumé

Faisant suite au déploiement du RGPD, la Commission Européenne a publié en février 2020 un livre blanc pour une approche de l’IA basée sur l’excellence et la confiance et dont les recommandations sont largement issues du guide pour une IA digne de confiance rédigé en 2018-2020 par un groupe d’experts européens. Au delà des questions prioritaires de protection des données au cœur des missions de la CNIL, ce livre blanc soulève avec insistance d’autres questions relatives aux risques des impacts des algorithmes d’apprentissage automatique sur notre société: qualité, précision et robustesse des décisions algorithmiques, opacité et explicabilité, biais et discriminations. Il annonce la publication d’une nouvelle règlementation européenne afin de favoriser le développement d’une IA digne de confiance basée sur la production, par les responsables d’un système d’intelligece artificielle (SIA), d’une liste d’évaluation documentant précisément son fonctionnement, l’évaluation des risques encourus et les mesures prises pour y remédier. L’objectif de ce dépôt est de présenter quelques ressources pédagogiques afin d’anticiper la production d’une telle documentation. Les questions de qualité et précision des algorithmes, leur explicabilité, sont évoquées avant de se focaliser sur les risques de biais et discrimination. Les principaux indicateurs de biais algorithmiques, dont l’effet disproportionné (disparate impact), sont définis et les procédures de calcul détaillées dans un tutoriel en R. Leur usage est illustré sur un exemple concret analogue au calcul d’un score de crédit en intégrant une procédure rudimentaire d’atténuation de biais donc de discrimination.

1 Introduction

1.1 IA post RGPD éthique et/ou légale

La publication du RGPD (2018) et son intégration dans les lois nationales a considérablement impacté la gestion des données dont celles impliquant es personnes physiques. La CNIL a pour mission de s’assurer que ce réglement est correctement appliqué et fournit les outils permettant l’évaluation de l’impact sur la vie privée: privacy impact assessment (PIA). Par ailleurs, l’Autorité de la Concurrrence traque les risques d’entrave à la concurrence: moteurs de recherche, sites de comparateurs de prix, pricing automatique.

Le considérant (71) du RGPD (2018) recommande:

  • […] Afin d’assurer un traitement équitable et transparent à l’égard de la personne concernée, […] le responsable du traitement devrait utiliser des procédures mathématiques ou statistiques adéquates aux fins du profilage, appliquer les mesures techniques et organisationnelles appropriées pour faire en sorte, en particulier, que les facteurs qui entraînent des erreurs dans les données à caractère personnel soient corrigés et que le risque d’erreur soit réduit au minimum, sécuriser les données à caractère personnel d’une manière qui tienne compte des risques susceptibles de peser sur les intérêts et les droits de la personne concernée, et prévenir, entre autres, les effets discriminatoires […]

Néanmoins, les risques provoqués par les impacts dus à l’opacité, aux biais, aux erreurs des décisions algorithmiques n’ont pas été suffisamment pris en compte dans la législation spécifique à l’IA. Ils ont été en revanche largement commentés dans de très nombreuses déclarations et chartes pour une IA éthique au service de l’humanité (sic). Citons par exemple:

  • Enjeux Éthiques de l’Algorithme et de l’Intelligence artificielle (CNIL 2017) également très présents dans le
  • rapport Villani (2018, partie 5), la
  • Déclaration de Montréal pour un développement responsable de l’IA (2018) qui cite par ailleurs pas moins de 28 rapports nationaux ou professionnels et
  • Ethics Guidelines for Trustworthy AI Independant high-level expert group on Artificial Intelligence set up by the European Commission (2019).

A la suite de ce dernier guide rédigé par un groupe d’experts, la Commission Européenne a édité un livre blanc :

  • Intelligence Artificielle: une approche basée sur l’excellence et la confiance (2020)

qui annonce la publication d’un nouveau réglement pour une IA digne de confiance.

En effet, des intentions et déclarations éthiques de non discrimination, transparence, précision de l’IA, ne suffisent pas à assurer les comportements vertueux (cf. l’affaire Cambridge Analytica) des entreprises, des lois applicables sont nécessaires pour les imposer. C’est incontournable pour gagner la confiance des usagers, contribuables, patients, consommateurs, citoyens, justiciables… L’acceptabilité des systèmes d’Intelligence Artificielle est en jeu. L’équation est assez simple, en l’absence de confiance, pas d’utilisateurs donc pas de données et finalement pas d’IA et pas de profits.

1.2 Apprentissage statistique: l’IA du quotidien

La classe des algorithmes d’IA dits d’apprentissage statistique (statistical learning) ou supervisés car entraînés sur des données, fournissent des aides automatiques à la décision ; ils envahissent nos quotidiens (Besse et al. 2018b). Tous les domaines sont touchés aux USA: police, justice, santé, banque, assurance, services sociaux, éducation, emploi, logement… En France comme en Europe, les contraintes juridiques, techniques et usages culturels, limitent ces applications. Certains domaines sont concernés de longue date, principalement le tertiaire: marketing, banque, assurance, d’autres le sont de plus en plus: industrie (détection de défaillance et maintenance prédictive), ressources humaines (pré-recrutement prédictif), santé et imagerie médicale (Besse et al. 2019)…

Des compléments d’informations sur les outils et algorithmes d’apprentissage statistique sont à rechercher dans les autres tutoriels du dépôt github/wikistat.

1.3 Objectif

Le principal objectif du présent dépôt est de mettre à disposition des ressources pédagogiques sous forme de tutoriels exécutant des outils, indicateurs et fonctionnalités, nécessaires à l’évaluation de la confirmité des algorithmes aux réglementations à venir. Elles sont préfigurées dans le guide des experts de la CE dont certains points sont rappelés en annexe. Les tutoriels sont développés sous la forme de calepins ou jupyter notebooks sur des cas d’usage bien identifiés afin de pouvoir exécuter concrètement des exemples d’évaluation ex ante de conformité.

Le choix a été fait de développer les calepins avec les langages R ou Python; R plus simple et intuitif propose de nombreuses librairies facilitant les aides à l’interprétation, notamment graphiques et statistiques. En revanche Pyhton s’avère souvent plus efficace et reste un outil de référence dans la communauté numérique du fair learning. Il permet aussi des développements plus directement opérationnels.

2 Risques des impacts sociétaux de l’apprentissage statistique

Trois aspects majeurs sont à considérer et détaillés par Besse et al. (2018b) pour prendre en compte voire évaluer les risques des impacts sociétaux des algorithmes d’apprentissage statistique.

2.2 Qualité, robustesse, résilience des décisions algorithmiques

(Cf. point 2 de la liste d’évaluation en annexe)

Les algorithmes d’apprentissage ne sont pas prouvables, certifiables de façon déterministe comme des algorithmes procéduraux. Néanmoins, l’évaluation de la qualité d’une décision algorithmique est une question essentielle lorsqu’il s’agit, par exemple, de discuter de l’opportunité d’une opération chirurgicale ou encore de la libération conditionnelle d’un détenu. La loi est encore muette sur ce sujet et n’oblige en rien à la communication des estimations des qualités des prévisions conduisant aux décisions, comme c’est le cas pour un sondage d’opinion.

Les différentes étapes de l’apprentissage supervisé sont détaillées et illustrées par ailleurs sur de nombreux cas d’usage. Les méthodes de prévisions sont entraînées sur des données dont la qualité et la représentativité sont déterminantes. Les phases d’extraction, vérification, nettoyage, préparation des données sont critiques et doivent être conduites avec un soin particulier: garbage in, garbage out. Le volume des données peut être un facteur utile de qualité mais secondaire, seulement si celles-ci sont bien représentatives de l’objectif et pas biaisées. Dans le cas contraire des téraoctets de données (big data) n’améliorent en rien la qualité.

Les stratégies d’apprentissage statistique intervenant ensuite sont rôdées et bien connues. L’objectif est d’optimiser le choix d’un algorithme afin, obligation de moyens, d’aboutir à la prévision minimisant un risque et ainsi à la meilleure décision. L’estimation de l’erreur est donc intégrée à la démarche (cf. tutoriel), il suffit de la documenter explicitement par souci de transparence.

L’évaluation de la conformité d’un algorihtme doit donc nécessairement documenter l’estimation statistique de la qualité de prévision (accuracy) ou capacité de généralisation ou encore robustesse. Celle-ci doit nécessairement être estimée sur un échantillon test indépendant de l’échantillon d’apprentissage et représentatif des modes d’acquisition auxquels l’algorithme va être confronté. L’exploitation d’un SIA doit être robuste aux anomalies ou situations atypiques (outliers) auxquelles il est susceptible d’être confronté et qui doivent donc être détectées tout le temps de sa durée de vie. Le process qualité associé doit donc inclure une boucle de rétroaction en cas d’erreur de décision afin d’en identifier la cause, généralement une insuffisance ou faille de la base d’apprentissage. Ce n’est pas une mise à jour logiciel qui s’impose alors, mais des ré-apprentissages périodiques sur la base corrigée. Enfin le SIA doit pouvoir faire preuve de résilience en adoptant par exemple un mode de fonctionnement dégradé mais assurant la sécurité des usagers en cas de panne d’un ou de capteurs.

2.2 Opacité et Explicabilité

(Cf. point 4 de la liste d’avalutation en annexe)

Une des principaux problèmes soulevés par l’IA réside dans l’opacité des algorithmes récents d’apprentissage statistique dont la complexité les rend impropres à une interprétation élémentaire comme c’est le cas d’un algorithme basé sur un modèle statistique linéaire ou un arbre de décision binaire. Attention, ce ne sont pas tant les algorithmes qui sont complexes mais la réalité sous-jacente qu’ils cherchent à modéliser. L’observation du réel est en effet soumise à de très nombreuses sources de complexité: interactions, non linéarités, variables inobservables, boucles de contre réaction…

La conséquence directe de cette complexité est le déploiement d’algorithmees opaques lorsqu’ils sont efficaces. L’explicabilté de leur fonctionnement et plus précisément des décisions auxquelles ils conduisent est devenu un enjeu majeur et un thème de recherche très actif. Une revue non exhaustive (Barredo Arrieta et al. 2020) cite déjà 426 références tandis que le site IBM research propose quelques démonstrations des principales approches.

Un très bref aperçu schématique de ces travaux amène à poser trois questions: Quel domaine d’utilisation? Quel niveau d’explication ? Pour qui (concepteur, utilisateur, usager)? Qui conduisent à des possibilités ou systèmes d’explication différents.

  1. Fonctionnement général de l’algorithme, domaines de défaillances

    • Modèles interprétables (linéaires, arbres) oposés aux algorithmes non linéaires (réseau de neurones, ensemble d’arbres, SVM…),
    • Approximation du modèle opaque par un modèle interprétable: linéaire, arbre, règles déterministes ou IA symbolique (système expert),…
    • Limiter l”explication” à la quantification de l’importance des variables obtenue en stressant l’algorithme par permutations aléatoires (e;g. random forest, xtrem gradient boosting) ou par projection entropique (Bachoc et al. 2020).
  2. Décision spécifique découlant d’une prévision

    • Concepteur: Expliquer une erreur, y remédier, ré-apprentissage
    • Personne impactée: client, patient, justiciable…
      • Cas d’un modèle interprétable : modèle linéaire, arbre de décision
      • Approximation locale d’un algorithme non-linéaire: LIME, arbre , contre-exemple,,…
      • a minima, notamment en santé, expliquer le risque d’erreur de la décision dans le cadre d’une procédure de recueuil d’un consentement libre et éclairé.

2.3 Risques de biais discriminatoires

(Cf. point 5 de la liste d’évaluation en annexe)

La loi française comme le règlement européen interdit toute forme de discrimination envers une personne ou un groupe identifié par une variable dite sensible (genre, origine ethnique, âge…). Par principe, un algorithme d’apprentissage reproduit les biais systémiques ou sociétaux des données donc les discriminations déjà présentes et il peut en plus les renforcer. Mais, arriver à caractériser qu’une décision algorithmique est biaisée donc discriminatoire reste compliqué. Il est apparemment facile d’opérer individuellement le testing (Riach et Rich 2002) d’une décision en modifiant la modalité de la variable sensible (femme en homme, noir en blanc, vieux en jeune…) d’une personne pour provoquer une éventuelle bascule de la décision, preuve d’une discrimination individuelle. Mais le testing, bien que périodiquement utilisé dans des enquêtes en France par la DARES pour mesurer la discrimination à l’embauche, n’est pas adapté à l’évaluation fiable d’une discrimination indirecte au détriment d’un groupe et complètement inefficace face à une décision algorithmique (cf. tutoriel).

Comme le souhaite le rapport Villani (2018), il est important de pouvoir définir une mesure quantitative de discrimination envers un groupe: discrimination impact assessment ou DIA. Il existe de très nombreux types de discrimination et indicateurs statistiques dans la littérature (Zliobaité 2017, IBM research) pour les mesurer mais, comme le montre Friedler et al. (2019), il n’est pas utile de les multiplier car beaucoup sont redondants ou très corrélés entre eux. En priorité, nous pouvons considérer trois niveaux de biais mesurés par des indicateurs de plus en plus consensuels dans la communauté scientifique:

  1. discrimination de groupe et effet disproportionné ou biais systémique: disparate impact (DI) ou demographic equality,
  2. comparaison des précisions ou taux d’erreur conditionnellement à la variable sensible: overall error equality,
  3. comparaison des taux de faux positifs et vrais négatifs conditionnellement à la variable sensible: equalized odds

Aux USA, la notion d’adverse ou disparate impact (effet disproporttionné) est utilisée depuis 1971 (Barocas et Selbst, 2017) pour mesurer des discriminations indirectes dans l’accès à l’emploi, le logement, le crédit. Il s’agit d’estimer le rapport de deux probabilités: probabilité d’une décision favorable pour une personne du groupe sensible au sens de la loi sur la même probabilité pour une personne de l’autre groupe. Des éléments de cette approche statistique sont présents dans un guide publié par le Défenseur des Droits et la CNIL (2012). Il décrit une approche méthodologique à l’intention des acteurs de l’emploi pour mesurer et progresser dans l’égalité des chances.

Tous ces niveaux de biais sont caractérisés par des indicateurs dont l’estimation est proposée par des intervalles de confiance (Besse et al. 2018) afin d’en contrôler la précision. Ils sont illustrés dans le tutoriel.

Après avoir identifié des biais dans les données d’apprentissage et évalué le comportement d’une algorihtme pour les reproduire, voire les renforcer, il s’agit ensuite de modérer ou corriger ces biais. Sur ce point aussi la littérature est très prolixe: cf. par exemple Friedler et al. (2019) ou le site aif360.mybluemix.net. Trois stratégies sont généralement proposées:

  • pre-processing en corrigeant les biais des données (e.g. del Barrio et al. 2019) d’apprentissage,
  • en intégrant une pénalisation de la fonction objectif dans le processus,
  • post-processing en corrigeant la décision après la prévision (cf. tutoriel).

La question initiale essentielle dépend de la volonté politique d’introduire ou non une forme de discriminaiton positive afin progresser vers une société plus “équitable”:

(52) Si les biais injustes peuvent être évités, les systèmes d’IA pourraient même améliorer le caractère équitable de la sociéte.

3 Principaux résultats des tutoriels de détection des biais

3.1 Les données

Le problème s’énonce simplement : un algorithme entraîné à prendre des décisions à partir de données sociales biaisées reproduit fidèlement ces biais et peut même les amplifier et donc induire de fortes discriminations en lien avec le sexe, l’âge, l’origine des personnes… Ceci est illustré en considérant des données publiques qui imitent le contexte de calcul d’un score de crédit. Elles sont extraites d’un recensement de 1994 aux USA et décrivent l’âge, le type d’emploi, le niveau d’éducation, le statut marital, l’origine ethnique, le nombre d’heures travaillées par semaine, la présence ou non d’un enfant, les revenus ou pertes financières, le genre et le niveau de revenu bas ou élevé. Elles servent de référence ou bac à sable pour tous les développements d’algorithmes d’apprentissage automatique équitable. Il s’agit de prévoir si le revenu annuel d’une personne est supérieur ou inférieur à 50k$ et donc de prévoir, d’une certaine façon, sa solvabilité connaissant ses origines, âge, sexe, diplôme, type d’emploi… L’étude complète et les codes sont disponibles mais l’illustration est limitée à un résumé succinct de l’analyse de la discrimination selon le sexe.

3.2 Résultats

Les données incluent un biais de société important estimé sur un échantillon de 45 000 personnes : seulement 11,6 % des femmes ont un revenu élevé contre 31,5% des hommes. Le rapport: DI=0,38 est donc très disproportionné. Différents modèles ou algorithmes sont entraînés sur une partie (apprentissage) des données puis exécutés sur la partie test restante. Les résultats sont regroupés dans la figure 1.

Evaluation des Risques des Impacts Sociétaux des Algorithmes d'IA: ressources pédagogiques - 社会算法影响评估:资源pédagogiques

Figure 1. Précision de la prévision (accuracy) et effet disproportionné estimé par un intervalle de confiance sur un échantillon test (taille 9000) pour différents modèles ou algorithmes d’apprentissage.

Le biais initial des données (DI=0,38) est comparé avec celui de la prévision de niveau de revenu par un modèle classique linéaire de régression logistique linLogit : DI=0,25. Significativement moins élevé (intervalle de confiance disjoint), il montre que ce modèle renforce le biais et donc discrimine nettement les femmes dans sa prévision. La procédure naïve (linLogit-w-s) qui consiste à éliminer la variable dite sensible (genre) du modèle ne supprime en rien (DI=0,27) le biais discriminatoire car le genre est de toute façon présent à travers les valeurs prises par les autres variables. Une autre conséquence de cette dépendance est que le testing (changement de genre toutes choses égales par ailleurs) ne détecte plus (DI=0.90) aucune discrimination!

Un algorithme non linéaire plus sophistiqué est très fidèle au biais des données avec un indicateur (DI=0,36) pas significativement différent du biais de société et fournit une meilleure précision (0,86 au lieu de 0,84 pour la régression logistique). Cet algorithme ne discrimine pas mais c’est au prix de l’interprétabilité du modèle. Opaque comme un réseau de neurones, il ne permet pas d’expliquer une décision à partir de ses paramètres comme cela est facile avec le modèle de régression. Enfin, la dernière ligne propose une façon simple, parmi une littérature très volumineuse (FRiedler et al. 2019, site IBM research), de corriger le biais pour plus de « justice sociale ». Deux algorithmes sont entraînés, un par genre et le seuil de décision (revenu élevé ou pas, accord ou non de crédit…) est abaissé pour les femmes : 0,3 au lieu de celui par défaut de 0,5 pour les hommes. C’est une façon, parmi beaucoup d’autres, d’introduire une part de discrimination positive.

Les autres types de biais sont également à considérer. Par principe, la précision de la prévision pour un groupe dépend de sa représentativité. Si ce dernier est sous représenté, l’erreur est plus importante; c’est typiquement le cas en reconnaissance faciale mais pas dans l’exemple traité. Alors qu’elles sont deux fois moins nombreuses dans l’échantillon, le taux d’erreur de prévision est de l’ordre de 7,9% pour les femmes et de 17% pour les hommes. Il faut donc considérer le troisième type de biais pour se rendre compte que c’est finalement à leur désavantage. Le taux de faux positifs est plus important pour les hommes (0,08), ce qui les favorise, que pour les femmes (0,02), alors que le taux de faux négatifs est plus important pour les femmes (0,41) que pour les hommes (0,38).

3.3 Discussion

Nous pouvons tirer quelques enseignements de cet exemple rudimentaire, enseignements qui s’appliquent aux algorithmes de pré-recrutement basées sur l’apprentissage automatique de CV ou vidéos. Sans précaution, si un biais est présent dans les données, il est reproduit voire renforcé avec un algorithme linéaire. Un algorithme plus sophistiqué, non linéaire ne fait que reproduire le biais mais ne permet plus de justification économique des choix si l’effet disproportionné est important (DI<0.8). C’est vraisemblablement ce qui a conduit Amazon à stopper précipitamment sa procédure automatique de recrutement sur des postes techniques qui ne sélectionnait plus de femmes. La procédure de testing, déjà peut convaincante pour évaluer une discrimination indirecte ex post, est complètement inadaptée face à une procédure algorithmique.

Actuellement en Europe, un ou une data scientist est libre de produire ce qu’il peut ou veut, en fonction de ses compétences et de sa déontologie personnelle: de l’algorithme élémentaire interprétable mais discriminatoire à une procédure incluant de la discrimination positive. Aucune procédure de contrôle ex ante ou post, ne vient le remettre en cause. En revanche, aux USA, l’usage officiel de prise en compte de l’effet disproportionné incite très fortement les entreprises développant des logiciels ou plateformes de pré-recrutement à le prendre en compte (Raghavan er al. 2019). Elles proposent des solutions en ce sens, non pour des raisons éthiques, mais d’argumentation commerciale : économiser des procédures coûteuses de justification en cas d’effet disproportionné trop marqué.

Conclusion

Pour apporter des élémenets de conclusion de ce rapide tour d’horizon, rappelons qu’après avoir montré l’utilité effective d’un sytème d’IA au regard des risques encourus et de ses coûts (financiers, environnementaux), tout est affaire de compromis entre les principaux risques des impacts sociétaux car ils sont tous interconnectés:

  • Confidentialité, protection ds données vs. connaissance de la variable sensible
  • Qualité, robustesse de la décision algorithmique
  • Explicabilité de la décision algorithmique
  • Types de bais (systémique, des erreurs, de leur asymétrie) donc risques de discrimination.

La prise en compte “optimale” de l’un d’entre eux influence nécessairement les autres.

Le contrôle des risques des impacts sociétaux d’un SIA est toujours un problème largement ouvert sur différents chantiers:

  • auditabilité d’un SIA et liste d’évaluation (Commission Européenne, Haute Autorité de Santé avec pour conséquence un renversement de la charge de preuve,
  • Nécessité de définir des normes pour les indicateurs à utiliser (AFNOR, ANSI, IEEE) afin d’aborder les
  • enjeux très contraignants de certification en santé (FDA, HAS) et dans l’industrie (e.g. véhicules autonomes, avion à 1 pilote).

Références

  • Bachoc F., Gamboa F., Loubes J.-M., and Risser L. (2020). Entropic Variable Projection for Explainability and Intepretability, arXiv preprint.
  • Barocas S. , Selbst A. (2016). Big Data’s Disparate Impact, 104 California Law Review, 104 671. http://dx.doi.org/10.2139/ssrn.2477899
  • Besse P. ,del Barrio E., Gordaliza P., Loubes J.-M. (2018-a). Confidence Intervals for testing Disparate Impact in Fair Learning, arXiv preprint.
  • Besse P., Besse Patin A., Castets Renard C. (2019). Implications juridiques et éthiques des algorithmes d’intelligence artificielle dans le domaine de la santé, soumis, hal-02424285.
  • Besse P., Castets-Renard C., Garivier A., Loubes J.-M. (2018-b). L’IA du Quotidien peut elle être Éthique? Loyauté des Algorithmes d’Apprentissage Automatique, Statistique et Société, Vol. 6 N°3.
  • del Barrio E., Gamboa F., Gordaliza P., Loubes J.-M. (2018). Obtaining fairness using optimal transport theory, ICML 2019, arXiv preprint.
  • Friedler S., Scheidegger C., Venkatasubramanian S., Choudhary S., Hamilton E., Roth D. (). Comparative study of fairness-enhancing interventions in machine learning. Proceedings of the Conference on Fairness, Accountability, and Transparency, p. 329‐38. http://dl.acm.org/citation.cfm?doid=3287560.3287589
  • Raghavan M., Barocas S., Kleinberg J., Levy K. (2019) Mitigating bias in Algorithmic Hiring : Evaluating Claims and Practices, arXiv:1906.09208.
  • Riach P.A., Rich J. (2002). Field Experiments of Discrimination in the Market Place, The Economic Journal, Vol. 112 (483), pp F480-F518.
  • Zliobaité I. (2017). Measuring discrimination in algorithmic decision making. Data Min Knowl Disc 31, 1060–1089. doi.org/10.1007/s10618-017-0506-1.

Annexe: Extraits du Guide des Experts de la CE pour une IA Digne de Confiance

Relevons certains points mis en exergue dans le le guide:

  • (52) Si les biais injustes peuvent être évités, les systèmes d’IA pourraient même améliorer le caractère équitable de la sociéte.
  • (69) Il est important que le système puisse indiquer le niveau de probabilité de ces erreurs.
  • (80) Absence de biais injustes: La persistance de ces biais pourrait être source de discrimination et de préjudice (in)directs. Dans la mesure du possible, les biais détectables et discriminatoires devraient être supprimés lors de la phase de collecte.
  • (106) (107) besoin de normalisation.

AInsi que des questions de la liste d’évaluation

2. Robustesse technique et sécurité

  • Précision
    • Avez-vous évalué le niveau de précision et la définition de la précision nécessaires dans le contexte du système d’IA et du cas d’utilisation concerné?
    • Avez-vous réfléchi à la manière dont la précision est mesurée et assurée?
    • Avez-vous mis en place des mesures pour veiller à ce que les données utilisées soient exhaustives et à jour?
    • Avez-vous mis en place des mesures pour évaluer si des données supplémentaires sont nécessaires, par exemple pour améliorer la précision et éliminer les biais?

4. Transparence

  • Explicabilité
    • Avez-vous évalué la mesure dans laquelle les décisions prises, et donc les résultats obtenus, par le système d’IA peuvent être compris?
    • Avez-vous veillé à ce qu’une explication de la raison pour laquelle un système a procédé à un certain choix entraînant un certain résultat puisse être rendue compréhensible pour l’ensemble des utilisateurs qui pourraient souhaiter obtenir une explication?

5. Diversité, non-discrimination et équité

  • Avez-vous prévu une stratégie ou un ensemble de procédures pour éviter de créer ou de renforcer des biais injustes dans le système d’IA, en ce qui concerne tant l’utilisation des données d’entrée que la conception de l’algorithme ?
  • Avez-vous réfléchi à la diversité et à la représentativité des utilisateurs dans les données ?
  • Avez-vous procédé à des essais portant sur des populations spécifiques ou des cas d’utilisation problématiques?
  • Avez-vous recherché et utilisé les outils techniques disponibles pour améliorer votre compréhension des données, du modèle et de la performance ?
  • Avez-vous mis en place des processus pour tester et contrôler les biais éventuels au cours de la phase de mise au point, de déploiement et d’utilisation du système ?
  • Avez-vous prévu une analyse quantitative ou des indicateurs pour mesurer et tester la définition appliquée de l’équité ?

We use optional third-party analytics cookies to understand how you use GitHub.com so we can build better products. Learn more.


<Evaluation des Risques des Impacts Sociétaux des Algorithmes d'IA: ressources pédagogiques>><Evaluation des Risques des Impacts Sociétaux des Algorithmes d'IA: ressources pédagogiques><Evaluation des Risques des Impacts Sociétaux des Algorithmes d'IA: ressources pédagogiques>Evaluation des Risques des Impacts Sociétaux des Algorithmes d'IA: ressources pédagogiques - 社会算法影响评估:资源pédagogiques

(1)图卢兹世界大学-INSA&ObvIA

(2)渥太华大学、ANITI和ObvIA

(3)渥太华大学、ANITI和ObvIA

(3)图卢兹大学-保罗萨巴蒂尔和安尼提

(4)IMT-CNRS&Anitii

p>RéSumer

公寓套房RGPD,la Commission Europoéenne a publiéen février 2020 un livre per l’IA basée sur l’excellence et la confiance et don not les recommendations sont all large issues du guide pour une a digne de confiance rédingéen 2018-2020年欧洲专家组的建议。保护任务的优先问题:质量、决策和决策算法、模糊性和可解释性,偏见和歧视。《新生活》出版物《欧洲最受欢迎的产品开发指南》,智能人工智能系统(SIA)责任书,评估文件,产品和服务普里斯倒是很快。生产文件的来源。关于算法的质量和决策问题,可解释性,关于偏见和歧视的优先焦点问题。原则原则指出了biais算法,而不是l’effet不成比例(不同的影响),最后一步和最后一步计算过程是一个简单的例子,它是一个简单的例子。

La publication du RGPD(2018)和《国家福利法案》对员工体格的综合影响。私人影响评估:隐私影响评估(PIA)。同行:汽车制造商、价格比较机构、自动定价。《规范》第71章(pédépédépédépédépédépédépépépépépépépépépépépépépépépépépépépépépépépépépépépépépépépépépépépépépépépép。这是一个巨大的评论,它的名字命名为声明和图表,为人类服务(原文如此)。例如:

欧洲委员会专家、欧洲委员会专家指南:一份关于信任的新研究报告。

有效,意图和声明不歧视,透明,决策,不足以作为保证人的行为准则(参见剑桥分析法)的企业,适用于冒名顶替者的事务处理。这是一个不可阻挡的指控,包括使用人、出资人、病人、联合国会员、城市居民、法官。。。智能人工智能系统验收。在不确定的情况下,这个等式是简单的,它可以用来做données和Finalment pas d’IA和pas d’a利润。

La classe des algorithmes d’IA dits d’apprentisage statistique(统计学习)负责监督汽车管理,自动决策辅助系统;ils环境配额(Besse et al。2018年b)。美国:警察,司法,桑特,银行,保险,服务社会,教育,就业,日志。。。在法国和欧洲,法律、技术和使用文化,有限的ces应用。特定领域:市场营销、银行、保险、保险公司和其他行业:行业(故障检测和维护预测)、人力资源(prérecurement prérecrution prérecruptif)、santéet imagerie médicale(Besse et al。2019年)。。。

统计信息和算法的完整性统计数据集/维基统计工具教程。

主要目的是提供资源处置、指示和操作指南,以及随时进行算法确认的评估。专家指南不能确定附录中的要点。使用前评估示例的使用指南。

Le choix aétéfait de developer les calepins avec les langages R ou Python;R加上简单和直观的建议,图书馆的便利性,说明文字和统计。在学习公平的基础上,提供有效的学习资源。这是一个发展加上指导操作的过程。

Trois方面,sontáConsider et détaillés par Besse等人。(2018b)评估师les risques des impacts sociétaux des algorithmes d’Apprentisage statistique。

(参见附录中的第2点评估)

可提供的评估评估算法,最终确定算法程序的认证。Néanmoins,《质量评估-决策算法》是一个问题的基本问题,例如,关于自由化条件的讨论。这是一个新的机会和义务,沟通的质量评估的条件下的决定,共同提出意见。

不同的录音带的使用情况监督和说明。这是一个非常重要的问题,它不是一个质量和代表权的终结。提取、验证、网络化、网络化、分析和评论等阶段,尤其是垃圾进入、垃圾流出。第二次质量标准的第二次生产量,目标和偏差的代表。大数据的大数据是一种质量保证。

Les stratés d’apprentissage statistique干预措施包括sont rôes et bien connues。目标是乐观主义者选择的算法,义务的莫耶斯,关于普惠的最小风险和最小的决策。我的估计值是在国际市场上进行的(参考教程),这足以让文档编制者明确说明透明性。

Léevaluation de la conformitéun algorihtme doit don néaccess mentation documenter L’estimation statistique de la qualitéde prévision(准确度)和能力评估与激励。在尚蒂隆的测试中,有一种测试方法可以用来测试数据采集算法。不存在异常情况(异常值)的开发不存在异常情况,不易发生冲突和不必要的情况。过程质量协会包括在确定原因时的错误决策,以及不合格的基础评估。这是一个逻辑问题,它是一个基于corrigée.Enfin le SIA doit pouvoir faire preuve de réSIA doit pouvoir faire preuve de réSIA a doit pouvoir faire preuve de réSIA improve alors,mais des réestassessages s sur la base corrigée e.Enfin le SIA doit pouve faire preuve de réSIA form gradémais mais s s s sécurit des usages en cas panne d’un。

(参见附录中的第4点)

主要问题来源于法国统计局算法研究的复杂性趋势不当决定权的决定权。注意,我们的算法复杂度很高。我们的观察结果来源于复杂的事物:相互作用,非线性,不可观测的变量,控制作用。。。

复杂算法的顺序是指蛋白石或其他有效的算法。本手册旨在为您提供一份详细的报告,以帮助您更好地开展工作。不详尽的评论(Barredo Arrieta等人。2020年)引用déjéféra426 références tandis que le site IBM research Proposed quelques démonstrations des Principles方法。

Un très bref aperçu schématique de ces travaux amèneèpos

Evaluation des Risques des Impacts Sociétaux des Algorithmes d’IA: ressources pédagogiques

Philippe Besse (1), Céline Castets Renard (2), Jean-Michel Loubes(3) & Laurent Risser (4)

(1) Université de Toulouse — INSA & ObvIA

(1)图卢兹世界大学-INSA&ObvIA

(2)渥太华大学、ANITI和ObvIA

(3)渥太华大学、ANITI和ObvIA

(4)IMT-CNRS&Anitii

p>RéSumer

1 Introduction

1.1 IA post RGPD éthique et/ou légale

La publication du RGPD (2018) et son intégration dans les lois nationales a considérablement impacté la gestion des données dont celles impliquant es personnes physiques. La CNIL a pour mission de s’assurer que ce réglement est correctement appliqué et fournit les outils permettant l’évaluation de l’impact sur la vie privée: privacy impact assessment (PIA). Par ailleurs, l’Autorité de la Concurrrence traque les risques d’entrave à la concurrence: moteurs de recherche, sites de comparateurs de prix, pricing automatique.

Le considérant (71) du RGPD (2018) recommande:

  • […] Afin d’assurer un traitement équitable et transparent à l’égard de la personne concernée, […] le responsable du traitement devrait utiliser des procédures mathématiques ou statistiques adéquates aux fins du profilage, appliquer les mesures techniques et organisationnelles appropriées pour faire en sorte, en particulier, que les facteurs qui entraînent des erreurs dans les données à caractère personnel soient corrigés et que le risque d’erreur soit réduit au minimum, sécuriser les données à caractère personnel d’une manière qui tienne compte des risques susceptibles de peser sur les intérêts et les droits de la personne concernée, et prévenir, entre autres, les effets discriminatoires […]

公寓套房RGPD,la Commission Europoéenne a publiéen février 2020 un livre per l’IA basée sur l’excellence et la confiance et don not les recommendations sont all large issues du guide pour une a digne de confiance rédingéen 2018-2020年欧洲专家组的建议。保护任务的优先问题:质量、决策和决策算法、模糊性和可解释性,偏见和歧视。《新生活》出版物《欧洲最受欢迎的产品开发指南》,智能人工智能系统(SIA)责任书,评估文件,产品和服务普里斯倒是很快。生产文件的来源。关于算法的质量和决策问题,可解释性,关于偏见和歧视的优先焦点问题。原则原则指出了biais算法,而不是l’effet不成比例(不同的影响),最后一步和最后一步计算过程是一个简单的例子,它是一个简单的例子。

  • Enjeux Éthiques de l’Algorithme et de l’Intelligence artificielle (CNIL 2017) également très présents dans le
  • rapport Villani (2018, partie 5), la
  • Déclaration de Montréal pour un développement responsable de l’IA (2018) qui cite par ailleurs pas moins de 28 rapports nationaux ou professionnels et
  • Ethics Guidelines for Trustworthy AI Independant high-level expert group on Artificial Intelligence set up by the European Commission (2019).

La publication du RGPD(2018)和《国家福利法案》对员工体格的综合影响。私人影响评估:隐私影响评估(PIA)。同行:汽车制造商、价格比较机构、自动定价。《规范》第71章(pédépédépédépédépédépédépépépépépépépépépépépépépépépépépépépépépépépépépépépépépépépépépépépépépépépép。这是一个巨大的评论,它的名字命名为声明和图表,为人类服务(原文如此)。例如:

  • Intelligence Artificielle: une approche basée sur l’excellence et la confiance (2020)

欧洲委员会专家、欧洲委员会专家指南:一份关于信任的新研究报告。

有效,意图和声明不歧视,透明,决策,不足以作为保证人的行为准则(参见剑桥分析法)的企业,适用于冒名顶替者的事务处理。这是一个不可阻挡的指控,包括使用人、出资人、病人、联合国会员、城市居民、法官。。。智能人工智能系统验收。在不确定的情况下,这个等式是简单的,它可以用来做données和Finalment pas d’IA和pas d’a利润。

1.2 Apprentissage statistique: l’IA du quotidien

La classe des algorithmes d’IA dits d’apprentisage statistique(统计学习)负责监督汽车管理,自动决策辅助系统;ils环境配额(Besse et al。2018年b)。美国:警察,司法,桑特,银行,保险,服务社会,教育,就业,日志。。。在法国和欧洲,法律、技术和使用文化,有限的ces应用。特定领域:市场营销、银行、保险、保险公司和其他行业:行业(故障检测和维护预测)、人力资源(prérecurement prérecrution prérecruptif)、santéet imagerie médicale(Besse et al。2019年)。。。

统计信息和算法的完整性统计数据集/维基统计工具教程。

1.3 Objectif

主要目的是提供资源处置、指示和操作指南,以及随时进行算法确认的评估。专家指南不能确定附录中的要点。使用前评估示例的使用指南。

Le choix aétéfait de developer les calepins avec les langages R ou Python;R加上简单和直观的建议,图书馆的便利性,说明文字和统计。在学习公平的基础上,提供有效的学习资源。这是一个发展加上指导操作的过程。

2 Risques des impacts sociétaux de l’apprentissage statistique

Trois方面,sontáConsider et détaillés par Besse等人。(2018b)评估师les risques des impacts sociétaux des algorithmes d’Apprentisage statistique。

2.2 Qualité, robustesse, résilience des décisions algorithmiques

(参见附录中的第2点评估)

可提供的评估评估算法,最终确定算法程序的认证。Néanmoins,《质量评估-决策算法》是一个问题的基本问题,例如,关于自由化条件的讨论。这是一个新的机会和义务,沟通的质量评估的条件下的决定,共同提出意见。

不同的录音带的使用情况监督和说明。这是一个非常重要的问题,它不是一个质量和代表权的终结。提取、验证、网络化、网络化、分析和评论等阶段,尤其是垃圾进入、垃圾流出。第二次质量标准的第二次生产量,目标和偏差的代表。大数据的大数据是一种质量保证。

Les stratés d’apprentissage statistique干预措施包括sont rôes et bien connues。目标是乐观主义者选择的算法,义务的莫耶斯,关于普惠的最小风险和最小的决策。我的估计值是在国际市场上进行的(参考教程),这足以让文档编制者明确说明透明性。

Léevaluation de la conformitéun algorihtme doit don néaccess mentation documenter L’estimation statistique de la qualitéde prévision(准确度)和能力评估与激励。在尚蒂隆的测试中,有一种测试方法可以用来测试数据采集算法。不存在异常情况(异常值)的开发不存在异常情况,不易发生冲突和不必要的情况。过程质量协会包括在确定原因时的错误决策,以及不合格的基础评估。这是一个逻辑问题,它是一个基于corrigée.Enfin le SIA doit pouvoir faire preuve de réSIA doit pouvoir faire preuve de réSIA a doit pouvoir faire preuve de réSIA improve alors,mais des réestassessages s sur la base corrigée e.Enfin le SIA doit pouve faire preuve de réSIA form gradémais mais s s s sécurit des usages en cas panne d’un。

2.2 Opacité et Explicabilité

(参见附录中的第4点)

主要问题来源于法国统计局算法研究的复杂性趋势不当决定权的决定权。注意,我们的算法复杂度很高。我们的观察结果来源于复杂的事物:相互作用,非线性,不可观测的变量,控制作用。。。

复杂算法的顺序是指蛋白石或其他有效的算法。本手册旨在为您提供一份详细的报告,以帮助您更好地开展工作。不详尽的评论(Barredo Arrieta等人。2020年)引用déjéféra426 références tandis que le site IBM research Proposed quelques démonstrations des Principles方法。

Un très bref aperçu schématique de ces travaux amèneèpos

  1. Fonctionnement général de l’algorithme, domaines de défaillances

    • Modèles interprétables (linéaires, arbres) oposés aux algorithmes non linéaires (réseau de neurones, ensemble d’arbres, SVM…),
    • Approximation du modèle opaque par un modèle interprétable: linéaire, arbre, règles déterministes ou IA symbolique (système expert),…
    • Limiter l”explication” à la quantification de l’importance des variables obtenue en stressant l’algorithme par permutations aléatoires (e;g. random forest, xtrem gradient boosting) ou par projection entropique (Bachoc et al. 2020).
  2. Décision spécifique découlant d’une prévision

    • Concepteur: Expliquer une erreur, y remédier, ré-apprentissage
    • Personne impactée: client, patient, justiciable…
      • Cas d’un modèle interprétable : modèle linéaire, arbre de décision
      • Approximation locale d’un algorithme non-linéaire: LIME, arbre , contre-exemple,,…
      • a minima, notamment en santé, expliquer le risque d’erreur de la décision dans le cadre d’une procédure de recueuil d’un consentement libre et éclairé.

2.3 Risques de biais discriminatoires

(Cf. point 5 de la liste d’évaluation en annexe)

La loi française comme le règlement européen interdit toute forme de discrimination envers une personne ou un groupe identifié par une variable dite sensible (genre, origine ethnique, âge…). Par principe, un algorithme d’apprentissage reproduit les biais systémiques ou sociétaux des données donc les discriminations déjà présentes et il peut en plus les renforcer. Mais, arriver à caractériser qu’une décision algorithmique est biaisée donc discriminatoire reste compliqué. Il est apparemment facile d’opérer individuellement le testing (Riach et Rich 2002) d’une décision en modifiant la modalité de la variable sensible (femme en homme, noir en blanc, vieux en jeune…) d’une personne pour provoquer une éventuelle bascule de la décision, preuve d’une discrimination individuelle. Mais le testing, bien que périodiquement utilisé dans des enquêtes en France par la DARES pour mesurer la discrimination à l’embauche, n’est pas adapté à l’évaluation fiable d’une discrimination indirecte au détriment d’un groupe et complètement inefficace face à une décision algorithmique (cf. tutoriel).

Comme le souhaite le rapport Villani (2018), il est important de pouvoir définir une mesure quantitative de discrimination envers un groupe: discrimination impact assessment ou DIA. Il existe de très nombreux types de discrimination et indicateurs statistiques dans la littérature (Zliobaité 2017, IBM research) pour les mesurer mais, comme le montre Friedler et al. (2019), il n’est pas utile de les multiplier car beaucoup sont redondants ou très corrélés entre eux. En priorité, nous pouvons considérer trois niveaux de biais mesurés par des indicateurs de plus en plus consensuels dans la communauté scientifique:

  1. discrimination de groupe et effet disproportionné ou biais systémique: disparate impact (DI) ou demographic equality,
  2. comparaison des précisions ou taux d’erreur conditionnellement à la variable sensible: overall error equality,
  3. comparaison des taux de faux positifs et vrais négatifs conditionnellement à la variable sensible: equalized odds

Aux USA, la notion d’adverse ou disparate impact (effet disproporttionné) est utilisée depuis 1971 (Barocas et Selbst, 2017) pour mesurer des discriminations indirectes dans l’accès à l’emploi, le logement, le crédit. Il s’agit d’estimer le rapport de deux probabilités: probabilité d’une décision favorable pour une personne du groupe sensible au sens de la loi sur la même probabilité pour une personne de l’autre groupe. Des éléments de cette approche statistique sont présents dans un guide publié par le Défenseur des Droits et la CNIL (2012). Il décrit une approche méthodologique à l’intention des acteurs de l’emploi pour mesurer et progresser dans l’égalité des chances.

Tous ces niveaux de biais sont caractérisés par des indicateurs dont l’estimation est proposée par des intervalles de confiance (Besse et al. 2018) afin d’en contrôler la précision. Ils sont illustrés dans le tutoriel.

Après avoir identifié des biais dans les données d’apprentissage et évalué le comportement d’une algorihtme pour les reproduire, voire les renforcer, il s’agit ensuite de modérer ou corriger ces biais. Sur ce point aussi la littérature est très prolixe: cf. par exemple Friedler et al. (2019) ou le site aif360.mybluemix.net. Trois stratégies sont généralement proposées:

  • pre-processing en corrigeant les biais des données (e.g. del Barrio et al. 2019) d’apprentissage,
  • en intégrant une pénalisation de la fonction objectif dans le processus,
  • post-processing en corrigeant la décision après la prévision (cf. tutoriel).

La question initiale essentielle dépend de la volonté politique d’introduire ou non une forme de discriminaiton positive afin progresser vers une société plus “équitable”:

(52) Si les biais injustes peuvent être évités, les systèmes d’IA pourraient même améliorer le caractère équitable de la sociéte.

3 Principaux résultats des tutoriels de détection des biais

3.1 Les données

Le problème s’énonce simplement : un algorithme entraîné à prendre des décisions à partir de données sociales biaisées reproduit fidèlement ces biais et peut même les amplifier et donc induire de fortes discriminations en lien avec le sexe, l’âge, l’origine des personnes… Ceci est illustré en considérant des données publiques qui imitent le contexte de calcul d’un score de crédit. Elles sont extraites d’un recensement de 1994 aux USA et décrivent l’âge, le type d’emploi, le niveau d’éducation, le statut marital, l’origine ethnique, le nombre d’heures travaillées par semaine, la présence ou non d’un enfant, les revenus ou pertes financières, le genre et le niveau de revenu bas ou élevé. Elles servent de référence ou bac à sable pour tous les développements d’algorithmes d’apprentissage automatique équitable. Il s’agit de prévoir si le revenu annuel d’une personne est supérieur ou inférieur à 50k$ et donc de prévoir, d’une certaine façon, sa solvabilité connaissant ses origines, âge, sexe, diplôme, type d’emploi… L’étude complète et les codes sont disponibles mais l’illustration est limitée à un résumé succinct de l’analyse de la discrimination selon le sexe.

3.2 Résultats

Les données incluent un biais de société important estimé sur un échantillon de 45 000 personnes : seulement 11,6 % des femmes ont un revenu élevé contre 31,5% des hommes. Le rapport: DI=0,38 est donc très disproportionné. Différents modèles ou algorithmes sont entraînés sur une partie (apprentissage) des données puis exécutés sur la partie test restante. Les résultats sont regroupés dans la figure 1.

Evaluation des Risques des Impacts Sociétaux des Algorithmes d'IA: ressources pédagogiques - 社会算法影响评估:资源pédagogiques

Figure 1. Précision de la prévision (accuracy) et effet disproportionné estimé par un intervalle de confiance sur un échantillon test (taille 9000) pour différents modèles ou algorithmes d’apprentissage.

Le biais initial des données (DI=0,38) est comparé avec celui de la prévision de niveau de revenu par un modèle classique linéaire de régression logistique linLogit : DI=0,25. Significativement moins élevé (intervalle de confiance disjoint), il montre que ce modèle renforce le biais et donc discrimine nettement les femmes dans sa prévision. La procédure naïve (linLogit-w-s) qui consiste à éliminer la variable dite sensible (genre) du modèle ne supprime en rien (DI=0,27) le biais discriminatoire car le genre est de toute façon présent à travers les valeurs prises par les autres variables. Une autre conséquence de cette dépendance est que le testing (changement de genre toutes choses égales par ailleurs) ne détecte plus (DI=0.90) aucune discrimination!

Un algorithme non linéaire plus sophistiqué est très fidèle au biais des données avec un indicateur (DI=0,36) pas significativement différent du biais de société et fournit une meilleure précision (0,86 au lieu de 0,84 pour la régression logistique). Cet algorithme ne discrimine pas mais c’est au prix de l’interprétabilité du modèle. Opaque comme un réseau de neurones, il ne permet pas d’expliquer une décision à partir de ses paramètres comme cela est facile avec le modèle de régression. Enfin, la dernière ligne propose une façon simple, parmi une littérature très volumineuse (FRiedler et al. 2019, site IBM research), de corriger le biais pour plus de « justice sociale ». Deux algorithmes sont entraînés, un par genre et le seuil de décision (revenu élevé ou pas, accord ou non de crédit…) est abaissé pour les femmes : 0,3 au lieu de celui par défaut de 0,5 pour les hommes. C’est une façon, parmi beaucoup d’autres, d’introduire une part de discrimination positive.

Les autres types de biais sont également à considérer. Par principe, la précision de la prévision pour un groupe dépend de sa représentativité. Si ce dernier est sous représenté, l’erreur est plus importante; c’est typiquement le cas en reconnaissance faciale mais pas dans l’exemple traité. Alors qu’elles sont deux fois moins nombreuses dans l’échantillon, le taux d’erreur de prévision est de l’ordre de 7,9% pour les femmes et de 17% pour les hommes. Il faut donc considérer le troisième type de biais pour se rendre compte que c’est finalement à leur désavantage. Le taux de faux positifs est plus important pour les hommes (0,08), ce qui les favorise, que pour les femmes (0,02), alors que le taux de faux négatifs est plus important pour les femmes (0,41) que pour les hommes (0,38).

3.3 Discussion

Nous pouvons tirer quelques enseignements de cet exemple rudimentaire, enseignements qui s’appliquent aux algorithmes de pré-recrutement basées sur l’apprentissage automatique de CV ou vidéos. Sans précaution, si un biais est présent dans les données, il est reproduit voire renforcé avec un algorithme linéaire. Un algorithme plus sophistiqué, non linéaire ne fait que reproduire le biais mais ne permet plus de justification économique des choix si l’effet disproportionné est important (DI<0.8). C’est vraisemblablement ce qui a conduit Amazon à stopper précipitamment sa procédure automatique de recrutement sur des postes techniques qui ne sélectionnait plus de femmes. La procédure de testing, déjà peut convaincante pour évaluer une discrimination indirecte ex post, est complètement inadaptée face à une procédure algorithmique.

Actuellement en Europe, un ou une data scientist est libre de produire ce qu’il peut ou veut, en fonction de ses compétences et de sa déontologie personnelle: de l’algorithme élémentaire interprétable mais discriminatoire à une procédure incluant de la discrimination positive. Aucune procédure de contrôle ex ante ou post, ne vient le remettre en cause. En revanche, aux USA, l’usage officiel de prise en compte de l’effet disproportionné incite très fortement les entreprises développant des logiciels ou plateformes de pré-recrutement à le prendre en compte (Raghavan er al. 2019). Elles proposent des solutions en ce sens, non pour des raisons éthiques, mais d’argumentation commerciale : économiser des procédures coûteuses de justification en cas d’effet disproportionné trop marqué.

Conclusion

Pour apporter des élémenets de conclusion de ce rapide tour d’horizon, rappelons qu’après avoir montré l’utilité effective d’un sytème d’IA au regard des risques encourus et de ses coûts (financiers, environnementaux), tout est affaire de compromis entre les principaux risques des impacts sociétaux car ils sont tous interconnectés:

  • Confidentialité, protection ds données vs. connaissance de la variable sensible
  • Qualité, robustesse de la décision algorithmique
  • Explicabilité de la décision algorithmique
  • Types de bais (systémique, des erreurs, de leur asymétrie) donc risques de discrimination.

La prise en compte “optimale” de l’un d’entre eux influence nécessairement les autres.

Le contrôle des risques des impacts sociétaux d’un SIA est toujours un problème largement ouvert sur différents chantiers:

  • auditabilité d’un SIA et liste d’évaluation (Commission Européenne, Haute Autorité de Santé avec pour conséquence un renversement de la charge de preuve,
  • Nécessité de définir des normes pour les indicateurs à utiliser (AFNOR, ANSI, IEEE) afin d’aborder les
  • enjeux très contraignants de certification en santé (FDA, HAS) et dans l’industrie (e.g. véhicules autonomes, avion à 1 pilote).

Références

  • Bachoc F., Gamboa F., Loubes J.-M., and Risser L. (2020). Entropic Variable Projection for Explainability and Intepretability, arXiv preprint.
  • Barocas S. , Selbst A. (2016). Big Data’s Disparate Impact, 104 California Law Review, 104 671. http://dx.doi.org/10.2139/ssrn.2477899
  • Besse P. ,del Barrio E., Gordaliza P., Loubes J.-M. (2018-a). Confidence Intervals for testing Disparate Impact in Fair Learning, arXiv preprint.
  • Besse P., Besse Patin A., Castets Renard C. (2019). Implications juridiques et éthiques des algorithmes d’intelligence artificielle dans le domaine de la santé, soumis, hal-02424285.
  • Besse P., Castets-Renard C., Garivier A., Loubes J.-M. (2018-b). L’IA du Quotidien peut elle être Éthique? Loyauté des Algorithmes d’Apprentissage Automatique, Statistique et Société, Vol. 6 N°3.
  • del Barrio E., Gamboa F., Gordaliza P., Loubes J.-M. (2018). Obtaining fairness using optimal transport theory, ICML 2019, arXiv preprint.
  • Friedler S., Scheidegger C., Venkatasubramanian S., Choudhary S., Hamilton E., Roth D. (). Comparative study of fairness-enhancing interventions in machine learning. Proceedings of the Conference on Fairness, Accountability, and Transparency, p. 329‐38. http://dl.acm.org/citation.cfm?doid=3287560.3287589
  • Raghavan M., Barocas S., Kleinberg J., Levy K. (2019) Mitigating bias in Algorithmic Hiring : Evaluating Claims and Practices, arXiv:1906.09208.
  • Riach P.A., Rich J. (2002). Field Experiments of Discrimination in the Market Place, The Economic Journal, Vol. 112 (483), pp F480-F518.
  • Zliobaité I. (2017). Measuring discrimination in algorithmic decision making. Data Min Knowl Disc 31, 1060–1089. doi.org/10.1007/s10618-017-0506-1.

Annexe: Extraits du Guide des Experts de la CE pour une IA Digne de Confiance

Relevons certains points mis en exergue dans le le guide:

  • (52) Si les biais injustes peuvent être évités, les systèmes d’IA pourraient même améliorer le caractère équitable de la sociéte.
  • (69) Il est important que le système puisse indiquer le niveau de probabilité de ces erreurs.
  • (80) Absence de biais injustes: La persistance de ces biais pourrait être source de discrimination et de préjudice (in)directs. Dans la mesure du possible, les biais détectables et discriminatoires devraient être supprimés lors de la phase de collecte.
  • (106) (107) besoin de normalisation.

AInsi que des questions de la liste d’évaluation

2. Robustesse technique et sécurité

  • Précision
    • Avez-vous évalué le niveau de précision et la définition de la précision nécessaires dans le contexte du système d’IA et du cas d’utilisation concerné?
    • Avez-vous réfléchi à la manière dont la précision est mesurée et assurée?
    • Avez-vous mis en place des mesures pour veiller à ce que les données utilisées soient exhaustives et à jour?
    • Avez-vous mis en place des mesures pour évaluer si des données supplémentaires sont nécessaires, par exemple pour améliorer la précision et éliminer les biais?

4. Transparence

  • Explicabilité
    • Avez-vous évalué la mesure dans laquelle les décisions prises, et donc les résultats obtenus, par le système d’IA peuvent être compris?
    • Avez-vous veillé à ce qu’une explication de la raison pour laquelle un système a procédé à un certain choix entraînant un certain résultat puisse être rendue compréhensible pour l’ensemble des utilisateurs qui pourraient souhaiter obtenir une explication?

5. Diversité, non-discrimination et équité

  • Avez-vous prévu une stratégie ou un ensemble de procédures pour éviter de créer ou de renforcer des biais injustes dans le système d’IA, en ce qui concerne tant l’utilisation des données d’entrée que la conception de l’algorithme ?
  • Avez-vous réfléchi à la diversité et à la représentativité des utilisateurs dans les données ?
  • Avez-vous procédé à des essais portant sur des populations spécifiques ou des cas d’utilisation problématiques?
  • Avez-vous recherché et utilisé les outils techniques disponibles pour améliorer votre compréhension des données, du modèle et de la performance ?
  • Avez-vous mis en place des processus pour tester et contrôler les biais éventuels au cours de la phase de mise au point, de déploiement et d’utilisation du système ?
  • Avez-vous prévu une analyse quantitative ou des indicateurs pour mesurer et tester la définition appliquée de l’équité ?

We use optional third-party analytics cookies to understand how you use GitHub.com so we can build better products. Learn more.

部分转自网络,侵权联系删除区块链源码网

www.interchains.cc

https://www.interchains.cc/18357.html

区块链毕设网(www.interchains.cc)全网最靠谱的原创区块链毕设代做网站 部分资料来自网络,侵权联系删除! 最全最大的区块链源码站 !
区块链知识分享网, 以太坊dapp资源网, 区块链教程, fabric教程下载, 区块链书籍下载, 区块链资料下载, 区块链视频教程下载, 区块链基础教程, 区块链入门教程, 区块链资源 » 基于区块链的毕业设计Evaluation des Risques des Impacts Sociétaux des Algorithmes d’IA: ressources pédagogiques – 社会算法影响评估:资源pédagogiques

提供最优质的资源集合

立即查看 了解详情