Beaucoup de nos évaluations, qu’elles soient morales ou non morales, reposent sur des classements. L’appréciation des performances relatives de plusieurs individus passe en général par ce genre d’arrangements. La méthode est d’autant plus « naturelle » que ceux-ci reposent sur des données objectives. Par exemple, les coureurs du Tour de France sont classés au temps, une valeur qu’il est facile de mesurer et qui, en outre, a pour particularité d’être constitutive de la compétition. Cependant, la relation classement – évaluation n’est pas si « naturelle » que cela. Le but de cet article est de poser les termes du débat.
1.
Un classement consiste à répartir des objets suivant un certain ordre ou à les ranger dans des catégories (1). Par exemple, le Tour de France cycliste, dont la centième édition vient de commencer, est une compétition qui dépend de différents classements. Ainsi le journal L’Équipe présente chaque jour sur une page un « classement général individuel au temps » et des « classements généraux annexes » : par points, jeunes, de la montagne et par équipes (2). Il va de soi que la première fonction de ces classements est de « représente[r] le plus fidèlement possible le niveau réel de compétiteurs sportifs », comme le rappelle Rémi Coulom, spécialiste des méthodes de classements scientifiques appliquées aux jeux, dans un article paru dans Pour la science en 2010 (3). Cependant il rappelle qu’établir un classement juste « n’est pas un problème simple ». Nous y reviendrons plus loin.
Mais un classement a d’autre fonctions. Il présente une information qui permet de susciter et de justifier une reconnaissance sociale. Pour reprendre l’exemple précédent, cette fonction est explicitement résumée à travers l’expression « cérémonie protocolaire » qui figure dans le règlement du Tour de France. Son article 21, intitulé « Protocole », affirme en effet qu’« après chaque arrivée d’étape, la cérémonie protocolaire est présidée par le maire de la ville ou son représentant. Se déroulent successivement, dans les minutes suivant l’arrivée, les opérations concernant : le vainqueur de l’étape ; le leader du classement général au temps qui reçoit le Maillot Jaune ; le leader du classement général par points qui reçoit le maillot vert ; le leader du classement général du meilleur grimpeur qui reçoit le maillot blanc à pois rouges ; le leader du classement général du meilleur jeune qui reçoit le maillot blanc ; le vainqueur du prix de la combativité de l’étape. »
La troisième fonction d’un classement est d’ordre prédictif : il permet de prévoir l’avenir, par exemple les résultats futurs, avec un certain degré de vraisemblance ou de confiance. En général, le classement en question, pour avoir une valeur prédictive, ne doit pas se résumer à une hiérarchie singulière telle que le palmarès d’une compétition, par exemple celui du Tour de France 2012, car le résultat d’une compétition isolée est moins pertinent qu’un arrangement hiérarchique tenant compte de l’ensemble des résultats passés. Dans le cyclisme, l’Union Cycliste Internationale (UCI) a élaboré un système intitulé « Barème des points – Classement UCI WorldTour », qui sert de référence à l’attribution des points aux coureurs et aux équipes de coureurs en fonction des places qu’ils ont obtenues au cours de la saison et du niveau des courses. Par exemple, le vainqueur du Tour de France (course de catégorie 1) se voit attribuer 200 points, celui du Tour d’Italie ou du Tour d’Espagne (courses de catégorie 2) 170 points et celui de Paris-Roubaix (l’une des courses de catégorie 3) 100 points. Après une année de compétition, l’agrégation des points par coureur est censée rendre compte de l’ensemble de ses performances passées, ce qui lui confère une valeur prédictive : elle permet de prédire les performances futures à partir des performances passées. Les passionnés, mais aussi les parieurs en ligne, seront enclins à s’y référer (4).
2.
En règle générale, ces considérations ne semblent guère soulever de problème ou de contestation. Même si les systèmes de classement sportif – celui du cyclisme ou celui des joueurs de tennis professionnels, le « classement ATP » – reposent sur des critères arbitraires et définis a priori, ces critères sont connus par les parties prenantes, à commencer par les compétiteurs eux-mêmes (5). Ce qui, soit dit en passant, n’est pas toujours le cas. Par exemple, le barème de l’UCI n’a, semble-t-il, pas toujours été rendu public pour des raisons d’équité, comme l’affirmait le site CyclingNews en avril 2011 : « L’UCI a toujours refusé de révéler les tableaux complexes et le barème des points utilisés pour attribuer les licences [aux équipes professionnelles], affirmant que les coureurs cyclistes les utiliseraient pour négocier leurs contrats ». Il existe d’autres domaines où a été notée l’absence d’information sur les classements. Dans un article sur l’évaluation des revues de sciences humaines par l’AERES, Anne Saada, chercheur au CNRS, affirmait à propos des « modalités du classement des revues » que, « jusqu’à ce jour, l’AERES refuse de donner plus de précisions quant aux critères de classement et aux procédures qu’elle met en œuvre ». Et elle ajoutait : « Comme l’a remarqué François Gossiaux, directeur scientifique adjoint pour la Section 38 (anthropologie et sciences sociales des religions) du Comité National (CN) du CNRS, il est probable que la disparition de toute justification témoigne tout simplement de la difficulté à trouver un critère pertinent pour classer des revues scientifiques très diverses » (6).
Même lorsque les principes d’un système de classement sont connus, ils suscitent des interrogations et des critiques. Ce fut le cas à propos du classement des universités, lors du Forum mondial organisé par l’UNESCO, la Banque mondiale et l’Organisation de coopération et de développement économique en mai 2011. L’événement avait pour titre : « Classements et responsabilisation dans l’enseignement supérieur : bons et mauvais usages ». À cette occasion et parmi d’autres participants ayant une attitude critique sur les systèmes de classement des universités, Ellen Hazelkorn, de l’Institut de technologie de Dublin en Irlande, a affirmé dans son discours qu’« un classement objectif ne peut exister parce que le choix des indicateurs et des pondérations reflète les jugements de valeur ou les priorités de ceux qui élaborent le classement. Les classements ne mesurent pas ce que l’on croit qu’ils mesurent, parce que les systèmes [de classements nationaux des universités] ne sont pas directement comparables. Ils mesurent ce qui est facile et prévisible, privilégient la performance passée plutôt que la performance potentielle, mettent l’accent sur la quantité considérée comme un indicateur (proxy) de la qualité, et comparent des institutions complexes situées dans différents contextes et ayant différentes missions » (7).
3.
Mais la critique des classements peut être étendue et systématisée. Rémi Coulom passe ainsi en revue différents systèmes de classements utilisés pour comparer les niveaux des joueurs dans le domaine des jeux. Il présente ainsi des systèmes de classement reposant sur des procédures de calcul algorithmiques, par exemple le « classement Elo », utilisé par beaucoup de fédérations d’échecs, qui permet de prédire le résultat d’une confrontation entre deux joueurs, ou des modèles probabilistes complexes, comme les algorithmes bayésiens statiques ou dynamiques (fondés sur l’inférence bayésienne, les modèles dynamiques prenant en compte des échelles de temps adaptées aux niveaux des joueurs et à leur rythme de progression probable), qui visent à remplir avec la plus grande efficacité la fonction de prédiction.
Il est utile, en guise d’illustration, de reproduire l’un des exemples proposés par Coulom à propos de l’algorithme bayésien statique, d’autant qu’il produit un résultat paradoxal. Il imagine deux joueurs d’échecs, A et B, « qui commencent par jouer de nombreuses parties exclusivement l’un contre l’autre, avec un résultat égal [A et B font match nul]. Leur classement estimé par un modèle bayésien statique traduira alors avec fidélité leur niveau relatif, par exemple 1500 points. Si le joueur A joue ensuite contre d’autres adversaires et obtient de bons résultats, tandis que le joueur B reste inactif, alors son nouveau classement va s’ajuster à son niveau réel, par exemple 1800 points. Mais au vu de leurs parties passées, le nouveau classement du joueur B sera lui aussi évalué à une valeur proche de 1800 points. Il reflètera ainsi mieux le niveau du joueur B par rapport aux autres joueurs, même si celui-ci n’a jamais joué contre eux ! »
Les systèmes algorithmiques de classement supposent une unité de valeur commune et mesurable. Dans les exemples de Coulom, il s’agit du résultat de confrontations aux échecs ou au tennis. Mais il existe quantité de valeurs permettant de classer des objets. Même des objets ayant a priori peu à voir l’un avec l’autre peuvent être classés si une telle valeur commune est identifiable. Dans un article paru dans la revue Ethics, T. K. Seung et Daniel Bonevac prennent l’exemple de la comparaison entre des pommes et des oranges (8). Même si ces deux objets appartiennent à la catégorie des fruits, ils ne peuvent être classés que par référence à une valeur commune. Le goût sucré est une valeur de ce genre. Cette valeur permet de les classer. C’est aussi le cas du caractère juteux du fruit ou de ses qualités nutritives.
Cependant, la pluralité des valeurs de classement soulève une nouvelle difficulté. Comme l’indiquent Seung et Bonevac, « si A est meilleur que B du point de vue de la valeur v1, si B est meilleur que A du point de vue de la valeur v2, et si B est égal à A du point de vue de la valeur v3, (…) alors il s’agit d’un cas de classement non-algorithmique ». Pourtant, bien que le classement soit non-algorithmique, il est possible de choisir entre A et B – par exemple de choisir une pomme ou une orange, même si leur classement diverge suivant les valeurs retenues. Ce genre de choix est d’ailleurs tout à fait commun.
Résumons les points évoqués. (i) Pour avoir une valeur prédictive, les classements devraient de préférence, et si cela est possible, être fondés sur des algorithmes élaborés. (ii) Certains classements sont difficiles à établir, faute d’une unité de valeur commune aux objets à évaluer. (iii) Des objets peuvent ne pas pouvoir être classés sans pour autant qu’une évaluation – voire un choix, s’il doit avoir lieu – soit impossible.
Ces trois points donnent une image complexe de la relation entre classement et évaluation. Nous prolongerons la discussion dans le prochain article.
Alain Anquetil
(1) D’après le Dictionnaire historique de la langue française Le Robert.
(2) Dans le cadre de l’« UCI World Tour 2013 », l’UCI propose un classement individuel, un classement par équipes et un classement par pays.
(3) R. Coulom, « Jeux et sports: le problème des classements », Pour la Science, 393, 2010, p. 20-27. Cf. aussi « Méthodes de classements scientifiques : peut-on parier sans risques ? », sur le site de l’Institut national de recherche en informatique et en automatique (INRIA).
(4) Le site officiel du Tour de France comprend des informations relatives aux paris en ligne, lesquels auront de fortes chances d’être inspirés par les classements passés des coureurs. Cf. la rubrique « Paris en lignes avec PMU » sur la droite de la page ; voir également le site du PMU.
(5) Pour le classement ATP, on se réfèrera aux « Questions fréquemment posées » ou FAQ du site ATP World Tour.
(6) A. Saada, « L’évaluation et le classement des revues de sciences humaines par l’agence de l’évaluation de la recherche et de l’enseignement supérieur (AERES) », Connexions, 93(1), 2010, p. 199-204. L’article de François Gossiaux, « L’évaluation des revues d’anthropologie : histoire, principes, enjeux », se trouve dans Alertes ! Lettre d’actualité sur le devenir de l’anthropologie dans le contexte de la réforme de l’enseignement supérieur et de la recherche, Lettre n° 5, 4 mars 2009.
(7) E. Hazelkorn, « World-class universities or world-class systems? Rankings and higher education policy choices ».
(8) T. K. Seung et D. Bonevac, « Plural values and indeterminate rankings », Ethics, 102(4), 1992, p. 799-813.