lundi 24 mars 2008

Evaluation par les pairs : une réponse




Dans son dernier billet, Etienne Wasmer s'interroge sur la pertinence de l'évaluation par les pairs dans le milieu académique. Autant Gizmo partage comme lui l'idée que l'évaluation des travaux scientifiques ne peut se faire que par les pairs, autant elle est beaucoup plus sceptique sur la manière dont est utilisée cette évaluation pour la gestion de la carrière des chercheurs, et a fortiori des enseignants-chercheurs.




L'évaluation par les pairs : les publications scientifiques

Les revues scientifiques sont dotées d'un comité éditorial, composé de personnalités cooptées, ayant fait la preuve de leur connaissance d'un champ scientifique particulier. Ce comité a pour mission de sélectionner les articles qui lui sont soumis pour publication. Pour mener à bien cette mission, il recourt à des rapporteurs anonymes chargés d'évaluer l'article soumis. Certaines revues recourent à un double anonymat (et le rapporteur, et le rapporté, sont inconnus l'un de l'autre), d'autres ne conservent qu'un anonymat asymétrique (le rapporteur connaît l'auteur de l'article, mais le rapporté ne connaît pas son rapporteur). En règle générale, mais chaque revue a sa propre procédure qu'elle explicite, deux rapporteurs sont sollicités pour évaluer l'article. Ces rapporteurs sont choisis par le comité éditorial, soit de manière collégiale, soit de manière décentralisée (dans ce dernier cas, le membre du comité éditorial sollicite seul les rapporteurs les plus à même de faire une évaluation éclairée). Dans certaines revues (les plus prestigieuses), les rapporteurs sont rémunérés, et les soumissions sont payantes (on paie pour avoir le droit d'être évalué). Les autres recourent à des rapporteurs bénévoles et les soumissions sont gratuites. Cette double gratuité induit deux biais : le rapporteur n'a pas d'incitation monétaire à réaliser une évaluation minutieuse et rapide, le rapporteur n'a pas d'incitation à s'autosélectionner. Les rapports ont une double fonction : d'une part, sélectionner les articles à publier ; d'autre part, contribuer à l'amélioration des articles soumis, en soulignant les erreurs, les insuffisances et les limites de quelque nature que ce soit (scientifique, mais également rédactionnelle). Une fois rédigés, ces rapports sont envoyés au comité éditorial qui décide de la suite à donner, en fonction de l'évaluation des rapporteurs : acceptation en l'état, acceptation avec des modifications mineures, acceptation avec des modifications majeures, et refus. Lorsque les rapports sont contradictoires, le comité éditorial peut faire appel à un troisième rapporteur.

Evaluation par les pairs : le financement des projets de recherche

L'évaluation par les pairs est également mobilisée dans d'autres circonstances, notamment dans le cadre des appels d'offres (par exemple, ceux de l'Agence Nationale pour la Recherche, ANR). Lorsque l'ANR lance un appel à projets, elle demande aux soumissionnaires de lui fournir un projet, un budget, mais également une liste d'experts à solliciter pour évaluer le projet soumis, ainsi qu'une liste d'experts à ne pas solliciter. On comprend l'intention : dans le premier cas, le soumissionnaire connaît, en tant que spécialiste d'une thématique, les meilleurs experts à même de l'évaluer ; dans le second cas, on cherche à éviter les conflits d'intérêt. L'intention est louable pour autant que les responsables d'appels à projets agissent avec discernement : proposer des noms d'évaluateurs potentiels peut conduire au copinage ; a contrario, refuser un évaluateur peut être le signe que le projet soumis est médiocre. Au bout du compte, l'éthique du responsable de projets est déterminante. Dans certaines sciences dites dures, l'évaluation par les pairs dans les projets ANR conduit à une certaine défiance. Comme dans toutes les autres disciplines, les chercheurs sont en concurrence pour la production scientifique (i.e. la production publiée dans des revues à comité éditorial) ; mais ils le sont aussi dans le dépôt de brevets. Ceci explique en partie que les scientifiques "durs" soient hostiles au financement par projet, dans la mesure où il expose le soumissionnaire aux risques d'espionnage des pairs.

Evaluation par les pairs : les carrières des scientifiques

L'évaluation par les pairs est enfin utilisée pour l'allocation des financements publics aux laboratoires et pour la gestion des carrières des chercheurs et des enseignants-chercheurs. Parmi les instruments utilisés pour cette évaluation, figurent les classements bibliométriques, c'est-à-dire les classements des supports utilisés pour publier les articles scientifiques. Les disciplines scientifiques les utilisent depuis longtemps, et ont élaboré des indicateurs dérivés de ces classements, pour mesurer l'impact d'un chercheur sur sa communauté disciplinaire, à partir du facteur d'impact de la revue dans laquelle il publie : on parle d'impact factor pour la revue, et de facteur H par exemple pour l'individu. En sciences économiques en France, on dispose depuis le début des années 2000, d'un classement établi par la section 37 du Comité National de la Recherche Scientifique (CoNRS), révisé en octobre 2007. Il s'agit d'un classement de revues de langues anglaise ou française exclusivement, non totalement ordonné : les revues ne sont pas classées de la première à la n-ième, mais le classement regroupe les revues en cinq grandes catégories pour les revues "généralistes" (de 1* pour les meilleures à 4 pour les moins bonnes) et en quatre catégories pour les revues "spécialisées" (de 1 à 4) sur 20 thématiques pertinentes retenues par le CoNRS. Le classement n'est donc ni exhaustif (il ne comprend pas les revues en langues étrangères autres que l'anglais, ni les ouvrages, ni d'autres supports), ni total (de nombreuses revues à comité de lecture n'y figurent pas, soit que leur qualité ait été jugée insuffisante, ou qu'elles soient trop récentes), ni cardinal (on n'attribue pas de points aux revues). Le classement n'est donc pas "univoque" comme le soutient Etienne Wasmer, et tient compte de la diversité des modes particuliers de production dans les sous-champs disciplinaires de l'économie et de la gestion.

Les effets pervers des évaluations tirés de classement bibliométrique sont connus. Etienne Wasmer en souligne un, celui qu'un article soit cité, non pas en raison de sa grande qualité, mais parce qu'il comporte des erreurs que d'autres chercheurs corrigent par la suite. On peut d'ailleurs s'interroger sur le caractère contreproductif de ce biais : s'il amène une amélioration des connaissances par corrections successives d'erreurs, après tout, on peut le porter au crédit du chercheur. Egalement, les facteurs d'impact, lorsqu'ils sont calculés de manière sommaire, amènent à des co-publications factices (heureusement, les indices les plus récemment élaborés gomment cet effet). Ils sont peu adaptés aux sciences à "mémoire longue" : qu'on songe à l'histoire de l'article de John Muth sur les anticipations rationnelles, paru en 1961, tombé dans un oubli relatif pour être exhumé dans les années soixante-dix et quatre-vingt. Enfin, les jeunes chercheurs qui ne connaissent pas leur "vraie" valeur n'osent parfois pas soumettre d'excellents travaux dans les meilleures revues. Entendu dans une commission de recrutement : "l'article de Monsieur X est excellent, dommage qu'il ait été publié dans une mauvaise revue". Navrant.

Facteurs d'impact et gestion des carrières


Ensuite, et c'est la vraie question, comment utiliser ces facteurs d'impact pour la gestion des carrières individuelles ? Une première réponse consiste à prendre le facteur d'impact individuel, et à classer les candidats au recrutement ou à la promotion selon cet indice. C'est simple, clair, facile à mettre en œuvre (au bémol près des ex aequo), et "objectif" (au bémol près de ce qui a été écrit plus haut sur les procédures d'arbitrage dans les revues à comité de lecture). Plus besoin de réunir des pairs de manière collégiale, un tableur suffit. La seconde réponse consiste à s'appuyer sur ce facteur d'impact dans une évaluation globale qui tienne compte non seulement de la production scientifique, mais également du rayonnement scientifique, du rôle du chercheur dans l'animation de la recherche (direction d'équipe, participation à des instances d'évaluation...), et pour les chercheurs en économie, de leur rôle social (participation à des instances de politique économique au sens large - Conseil d'Analyse Economique, Conseil National de la Concurrence, expertise régionale…). Etienne Wasmer pose la question "Veut-on être "juste" c'est-à-dire récompenser la qualité du travail, ou récompenser le succès institutionnel, qui dans pas mal de disciplines de sciences humaines, ne recouvre pas exactement la qualité du travail ?" Cette question est formulée de manière naïve : il n'y a pas une évaluation "juste" qui serait centrée uniquement sur la qualité des productions scientifiques évaluée par des facteurs d'impact, et une évaluation "injuste" qui prendrait en compte d'autres critères : originalité des travaux, prise de risque (pour autant qu'elles ne soient pas prises en compte dans les facteurs d'impact), et influence du chercheur dans sa communauté et au-delà. Ceci signifie que l'évaluation peut aller au-delà des pairs (par exemple, évaluation des enseignements par les étudiants).

Enfin, il est intéressant d'analyser les dernières lignes du billet d'Etienne Wasmer : "à vue de nez, je dirais qu'0.1% environ des travaux en sciences (dures et humaines) mérite de survivre une génération de chercheurs, et 50% des travaux sont nuls ou contreproductifs". D'une part, il est amusant de constater que la pifométrie aboutit à une estimation bien connue pour ceux qui s'intéressent à l'économie comportementale : en présence d'une incertitude radicale pour laquelle on ignore la probabilité d'un événement (ici "le travail est-il nul"), chacun est tenté de lui donner une chance sur deux d'occurrence, voir le paradoxe d'Ellsberg). En outre, si 50 % des travaux publiés étaient nuls ou contreproductifs, pourquoi les revues qui les publient survivraient-elles ? Et qu'est-ce qu'un travail "nul" ou "contreproductif" ? S'il s'agit d'un article sans intérêt, sans innovation, le coût social de sa publication reste faible. S'il s'agit d'un article erroné, les erreurs ou approximations conceptuelles et méthodologiques (qui n'ont pas été décelées par les rapporteurs) peuvent donner lieu à des améliorations substantielles par la suite. Enfin, à supposer qu'il faille récompenser les chercheurs les plus productifs sur la seule base de leur facteur H, comment fournir des incitations efficaces dans un système où les carrières sont gérées de manière centralisée ? Autrement dit, en admettant que cela soit possible, faut-il faire passer directement un chercheur exceptionnellement talentueux de 35 ans en directeur de recherche ou professeur de classe exceptionnelle ? Il semble que l'utilisation des facteurs d'impact n'est véritablement compatible qu'avec une allocation décentralisée et non contrainte des promotions (absence d'ancienneté minimale pour passer d'un échelon à l'autre), où les établissements gèrent les carrières avec leur budget propre.

Oui, Etienne, tout cela est bien difficile. Mais ce qui paraît essentiel dans le processus d'évaluation par les pairs, c'est la collégialité. Se réfugier derrière une qualité objective, évaluée par des facteurs d'impact est illusoire. La collégialité, par la diversité qu'elle permet et le contrôle social qu'elle opère, offre des garanties dans l'efficacité de recrutements et de promotions qui ne sont pas le simple clonage de générations successives.

2 ça se discute...:

Vincent a dit…

Pour élargir un peu le sujet, il me semble que le problème soulevé ici est celui de la notation et de l'évaluation de personnes n'ayant pas une production quantifiable. Et les productions intellectuelles rentrent naturellement dans cette catégorie.

On retrouve cette thématique un peu partout, et, à mon avis, elle se posera de plus en plus à l'avenir. En effet, les jeunes générations ont un comportement beaucoup plus individualiste, ou, dit autrement, rentrant plus difficilement dans le moule d'un "avancement moyen".

Pour ma part, je trouve cette problématique particulièrement prégnante dans la fonction publique à l'heure actuelle. La "rémunération au mérite" suscite bien des espoirs, mais aussi bien des craintes.

Alors si les professeurs d'université (ou MCF, ne soyons pas outrageusement corporatistes) arrivent à trouver un moyen satisfaisant (terme à définir, d'ailleurs) pour s'évaluer, je dois avouer que je suis très intéressé !

Tom Roud a dit…

J'avoue personnellement que je n'ai aucune confiance en l'idée d'une évaluation chiffrée du travail des chercheurs. Pour une raison simple : par définition, la recherche est un domaine difficile. Donc si on commence à trop se baser sur l'évaluation purement chiffrée, c'est une incitation à ne faire que des choses inintéressantes, et à ne surtout surtout pas prendre de risques. Le pire, c'est que vous serez quand même cité si tout le monde fait pareil ... Dans ma discipline, on voit clairement cet effet : mon chef qualifie d'ailleurs le domaine de "baroque".