Comment le ministère manipule les évaluations nationales à des fins politiques (d’après l’article de R. Goigoux)

Hier le chercheur Roland Goigoux publiait ici-même un long article sur les évaluations nationales. Ce texte, très étayé, renvoyant à de nombreuses études internationales et nationales, analyse les résultats des évaluations de CP et de CE1 et montre comment leurs résultats ont été manipulés afin de valider la politique mise en place par le ministère.

Nous nous proposons ici de mettre en avant les éléments les plus saillants de l’article de R. Goigoux.

Des tests contestables car biaisés

Sur le terrain, de nombreux enseignants ont trouvé les évaluations de début de CP peu adaptées à des élèves sortant de maternelle. Rien d’étonnant, si on en croit R. Goigoux qui explique que ces tests « sont ceux que les psychologues cognitivistes utilisent pour leurs recherches fondamentales : en laboratoire, ils sont proposés à des élèves plus âgés et administrés en tête-à-tête, de manière à encourager les enfants et à pouvoir les interrompre en cours de passation après plusieurs échecs consécutifs. Ils n’ont pas pour but d’évaluer les compétences définies par les programmes scolaires et ne couvrent qu’une toute petite partie des habiletés enseignées à l’école ».

Le ministère a défini trois groupes d’élèves pour chaque compétence évaluée : les élèves « à besoins » et les élèves « fragiles » constituent les élèves « en difficulté », le dernier groupe réunissant les élèves sans difficultés. Mais « certains tests étaient si mal conçus ou si inappropriés à l’âge des enfants que la DEPP a dû établir des seuils extrêmement bas pour éviter que cela soit trop visible et que trop d’élèves soient rangés dans la catégorie « en difficulté ».

En effet, les seuils de réussite n’avaient pas été donnés avant les évaluations, ils ont été établis après, une fois les résultats analysés au ministère. « Il suffit de jouer avec les taux de réussite attendus pour influencer les pourcentages d’élèves en difficulté », explique Goigoux, qui donne plusieurs exemples :

- l’exercice de comparaison de suites de lettres était si difficile que la DEPP a fixé le seuil minimal à 3 réussite seulement sur 24, ce procédé permettant de réduire le nombre d’élèves en difficulté à 18,6% des élèves (8 réussites sur 24, ceux qui ont 9 réussites sur 24 ne sont pas en difficulté)

- pour l’épreuve de manipulation de phonèmes le seuil minimal a été fixé à 2 réussites sur 15, les élèves en difficulté sont 23% à réussir 6 items ou moins (n'à 7 sur 15, l’élève n’est pas en difficulté) ; le but ici était de « masquer l’inadéquation de l’épreuve aux compétences attendues à la fin de l’école maternelle » d’après Goigoux.

- pour l’épreuve de compréhension de textes au CP, le ministère a « artificiellement fait baisser le seuil de réussite », il suffisait de répondre correctement à 7 questions sur 18, ainsi le ministère conclut que l’épreuve est réussie par 90% des élèves et qu’un enseignement de la compréhension des récits n’est pas prioritaire…

« Les enseignants doivent être informés que la définition de ces seuils n’a rien de scientifique : elle est le fruit de tâtonnements réalisés par la DEPP avec l’aide de quelques professionnels de terrain en fonction de consignes politiques. Pour chaque test, il faut trouver où placer le curseur pour qu’il n’y ait ni trop, ni trop peu, d’élèves signalés en difficulté. C’est pour cette raison que ces seuils ne peuvent pas être communiqués aux enseignants avant l’analyse des résultats. C’est le ministère, pas la science, qui détermine après coup (une fois les résultats recueillis) le pourcentage d’élèves à signaler aux enseignants. Et qui gère sa communication politique sur la base de chiffres apparemment indiscutables : au début du quinquennat, tout allait mal mais l’amélioration est en marche ».

Et Goigoux de conclure : « Lorsque le ministre affirme devant la presse qu’un quart des élèves est en difficulté, cela signifie simplement qu’il a choisi de juger « en difficulté » les 25 % des élèves qui ont obtenu les scores les plus faibles à une épreuve (non étalonnée). Sont-ils pour autant « en difficulté » ? Parfois oui, parfois non ».

Les évaluations nationales, cheval de Troie

Si le ministère a intérêt à définir lui-même le pourcentage d’élèves en difficulté selon les items, c’est parce que cela lui permet de valider et de mettre en place la politique qu’il entend appliquer, en fixant les priorités qui l’arrangent et qu’il a préalablement établies.

Goigoux explique qu’en réalité « les évaluations CP-CE1 n’étaient que la première partie d’un dispositif plus vaste appelé « la réponse à l’intervention » (RAI). Seule une connaissance de cette opération aurait permis aux maitres de comprendre que les choix des tests puis des seuils de réussite avaient été déterminés par les modalités de remédiation préalablement arrêtés ».

La RAI est une version québécoise d’un dispositif américain dont l’objectif est d’intervenir le plus tôt possible pour prévenir les difficultés des élèves et qui repose sur trois étapes.

Un enseignement collectif fondé sur les recommandations issues de la recherche en éducation et / ou de leur employeur ; « en France, cela signifie que les maitres doivent faire classe en respectant scrupuleusement les consignes du guide orange»
Les élèves signalés en difficulté à l’issue de tests standardisés bénéficient d’un enseignement supplémentaire dispensé par l’enseignant de la classe (lequel pose de nombreuses questions de méthode et de faisabilité, développées par R. Goigoux).
Pour les élèves qui n’ont pas fait de progrès lors des deux premières étapes, il faut l’intervention supplémentaire, d’un enseignant spécialisé ou autres (étape pour l’instant non détaillée, note Goigoux)

Dans cette approche, les enseignants doivent se référer exclusivement à des normes nationales, non à leurs évaluations personnelles des élèves. La première fonction des évaluations nationales est donc de fixer les normes et de comparer les élèves. Les besoins mis en évidence par les évaluations standardisées, si les items évalués sont bien choisis et les seuils de réussite fixés savamment après analyse des résultats, vont légitimer l’enseignement que le ministère veut voir dispensé en aval lors de la remédiation, mais aussi celui qu’il a décrit en amont dans diverses circulaires et guides pour l’enseignant (par exemple l’accent mis sur le décodage au détriment de la compréhension).

Les évaluations ont suscité l’émoi sur le terrain notamment parce qu’elles choisissent les compétences à enseigner en minorant ou ignorant d’autres (calligraphie, copie, production de textes, compréhension de textes entendus à mi-CP…). « Ce qui n’est pas évalué perd de sa valeur, les maitres sont incités à enseigner l’évaluable ». Et à s’emparer des outils et consignes allant dans ce sens, par exemple le guide orange, dont Goigoux dit qu’il y a fort à parier qu’il deviendra la référence dans les futurs INSPé (Institut supérieur du professorat et de l’éducation) créés par le ministère.

Le lien est ainsi fait entre le guide orange et les circulaires très prescriptives publiées par le ministère, les évaluations nationales et les outils de remédiation dont Goigoux se demande s’ils seront imposés aux enseignants.

Au passage, le chercheur explique que divers aspects de la RAI sont discutés sur le plan international, et que plusieurs conditions doivent être réunies pour qu’elle ait une chance d’être bénéfique :

La qualité et la pertinence des tests choisis ;
L’adhésion des enseignants au dispositif et sa possible intégration dans leur culture professionnelle : les impositions autoritaires échouent ;
La possibilité de dégager du temps supplémentaire pour les élèves en difficulté sans que cela se fasse au détriment des autres enseignements au programme et sans que leurs camarades soient pénalisés ;
La qualité des outils de remédiation et leur capacité à couvrir l’ensemble des compétences au programme ;
La complémentarité des informations apportées par les tests avec celles dont disposent déjà les enseignants qui travaillent au quotidien avec les élèves.

Sur les deux premiers points, l’opération française « conduite en catimini et sans concertation est très mal engagée ». Quant aux trois dernières conditions, « aucune n’est remplie en France pour le moment, pas plus que n’est réglée la question de la pertinence des seuils choisis par la DEPP »*.

Pédagogie officielle, management autoritaire

On comprend que Goigoux s’inquiète, « à la lecture de la circulaire de rentrée et à l’écoute des formations nationales dispensées aux cadres », que soit mise en place « une sorte de pédagogie officielle ». Plus encore, il constate que pour imposer ce modèle et veiller à ce que sur le terrain tout soit parfaitement suivi et respecté, une chaine de commande très verticale est savamment organisée : « Le ministère a choisi un mode de management autoritaire. Circulaires et livrets oranges se multiplient (4 nouveaux sont annoncés pour la rentrée prochaine), les ressources de la DEGSCO deviennent des feuilles de route obligatoires, les inspecteurs sont priés d’aller vérifier dans chaque CP dédoublé que les directives sont bien mises en œuvre, les récalcitrants sont menacés. Cette caporalisation touche aussi les équipes de circonscription : la formation continue ne sert plus qu’à exposer les directives nationales, les diaporamas à projeter sont fournis par la DGESCO, aucune réflexion critique n’est prévue au programme. Le dernier dispositif de formation de cadres départementaux sur la maternelle a été élaboré au plan national et diffusé clés-en-main dans toutes les académies : le choix des vidéos à montrer, le temps alloué aux travaux de groupes et les questions à poser à l’auditoire, tout était prédéfini et devait être appliqué scrupuleusement. Les DASEN, sermonnés par les recteurs, font à leur tour pression sur les IEN qui sont tous convoqués pour écouter la bonne parole délivrée par les affidés du ministre à l’IH2EF à Poitiers. Les intervenants choisis par le MEN sont toujours les mêmes et répètent inlassablement les mêmes choses ; les chercheurs critiques sont black-listés ».

En un mot comme en cent : « Le ministère employeur veut pouvoir décider ce qu’il est bon d’enseigner et comment ».

Pour cela, il est fondamental de prouver que ce qu’on veut faire est indiscutable, donc d’apporter une caution scientifique à sa politique, de l’asseoir sur des preuves rationnelles. D’où la création du Conseil scientifique de l’éducation nationale (CSEN) mis en place par le ministre. Mais lorsqu’on y regarde de plus près, dit Goigoux, « bon nombre d’injonctions officielles ne sont justifiées par aucune donnée probante ou sont publiées avant même que les groupes de travail du CSEN rendent leurs conclusions (par exemple, sur les manuels). De plus, le MEN ne reprend les arguments de son propre conseil scientifique que lorsqu’ils l’arrangent (il ignore ceux qui touchent au redoublement, aux rythmes scolaires, à la limitation des effectifs à 24…). Bref, les scientifiques sont utilisés pour cautionner les grands choix ministériels, parfois à leur insu, parfois en échange de la promotion de leurs travaux ». « Comme il n’existe quasiment aucune étude de ce type disponible en France sur les sujets jugés prioritaires, le MEN bluffe, procède à des approximations ou transpose de manière hasardeuse des résultats de recherche produits à l’étranger dans des contextes scolaires très différents ».

Goigoux constate par exemple que le ministère a fait peu de cas d’une étude jugée « magistrale » par Stanislas Dehaene, le Président du CSEN, mais qui remettait en cause les fondements du guide orange au moment même où la pression était mise sur les enseignants par leur hiérarchie afin qu’ils appliquent « les leçons-modèles » du guide.

Les mauvais résultats masqués des CP dédoublés

On avait suivi le parfait exercice de communication du ministère passé maitre en la matière, quand il s’était agi de présenter les premiers résultats des CP dédoublés, mesure phare du quinquennat. On se souvient du ministre (et du Président reprenant les mêmes éléments de langage dernièrement) vantant des « résultats très positifs » et « l’effet très significatif du dédoublement ». Pourtant, les chiffres présentés en français comme en maths, positifs en effet, étaient très en-deçà des objectifs fixés par le ministère lui-même : on se félicitait des 7,8% d’élèves en progrès en français, mais c’est une amélioration des performances scolaires comprise entre 20% et 30% qui était attendue. Au fnial, les résultats étaient 3 fois moins bons que ceux espérés !

Or, l’article de Goigoux nous apprend que dans le monde scientifique, un effet "moyen" de ce type de dispositif de réduction du nombre d’élèves est fixé à 50%, et un effet "fort" à 80%, le taux de 20% correspond quant à lui à un effet "faible". C’est donc ce taux d’amélioration de 20% déjà modeste que le ministère visait, et qu’il aura donc été loin d’atteindre. « L’effet réel du dispositif CP dédoublé est très faible », conclut Goigoux, qui constate que « la plupart des journalistes se sont laissé piéger par la communication ministérielle (…). La presse a titré sur « l’effet très significatif du dédoublement », et le tour était joué ! ».

Devant cet effet très faible du dédoublement des CP, il faut considérer le cout de cette mesure, très élevé. « Si un véritable débat sur l’efficience des politiques publiques était organisé, on comparerait le rapport coût-efficacité de plusieurs dispositifs innovants. Par exemple, l’impact du dédoublement avec celui du dispositif « Plus de maitres que de classes » (PMQC) qui, à coût comparable, touchait sept à huit fois plus d’élèves sous le précédent gouvernement ». Et Goigoux de constater qu’on attend toujours la publication des résultats de l’évaluation du dispositif PMQC pourtant réalisé par la DEPP avant l’arrivée du ministre actuel rue de Grenelle. « Un comble pour un ministère qui ne jure que par l’expérimentation et l’évaluation ! ».

Le texte de Roland Goigoux est à lire en intégralité ici.

*Goigoux donne un autre exemple de la manipulation des seuils avec les évaluations de CE1 : le ministère souhaitait que la population d’élèves en difficulté avoisine les 20%, comme c’est le cas dans les dispositifs de RAI à l’étranger. Cette barre des 20% nécessitait une réussite de 12 mots sur 15 au test lexical, mais correspond à 3 questions sur 9 à l’épreuve de lecture-compréhension : au final ces deux épreuves comptent le même nombre d’élèves en difficulté (22%). « Les taux de réussite pris en compte sont donc très différents d’une épreuve à l’autre (ici 4/5 et 1/3) selon les conclusions qu’on veut en tirer. En lecture par exemple, exiger la réussite à 4 questions sur 9 modifierait considérablement la proportion d’élèves « en difficulté » ».

Suivez l’instit’humeurs sur Facebook et sur Twitter @LucienMarboeuf.

L’instit humeurs

La vie de l'école, l'actualité de l'éducation

À Lire Aussi :