Pénombre

Problèmes de mathématique

Claude Got réagit à la brève qui figurait dans le numéro précédent :

« Citation du Pr. Claude Got, dans 20 minutes du 17 septembre 2005 : « Les 2/3 des Français pensent conduire mieux que la moyenne. Cela pose un problème de mathématique. »

Eh non, cher Professeur ! Un problème, peut-être, mais pas de mathématique... »

Je suis un trop fidèle abonné de « Pénombre » pour ne pas avoir prémédité mon affirmation que le fait que « les 2/3 des Français pensent conduire mieux que la moyenne pose un problème de mathématique ». Je n’imaginais pas une notation de la valeur de la conduite de chaque conducteur sur des critères tels que les points de permis ou le bonus/malus avec une distribution très asymétrique vers une minorité de chauffards permettant d’imaginer que 2/3 des conducteurs ont une note supérieure à la moyenne arithmétique des notes obtenues. Le problème posé relevait à mes yeux de la « logique mathématique » et de la cohérence qui peut exister entre l’affirmation d’appartenance à une classe et les effectifs de cette classe obtenus par un sondage. Le but est de comprendre à partir de quelle proportion de réponses à une question sur son comportement le sondé exprime une erreur de jugement.

Les producteurs de sondages ont une compétence particulière pour « extraire » de l’humain sondé ses ambiguïtés, mais hélas ils agissent avec des procédés qui sont eux-mêmes ambigus et il faut ensuite exploiter les réponses en se référant aux usages usuels des mots. La question posée était particulièrement sournoise car elle unissait une notion de classement (meilleur) à la notion de moyenne. Le sondé pouvait se percevoir comme référence à un conducteur qui avait « la moyenne », c’est-à-dire tout juste bon pour avoir le permis de conduire, et se situer par rapport à ce niveau. Il revendiquait alors l’appartenance à une classe d’un niveau supérieur, celle des « bons conducteurs », qui constatent en permanence les méfaits des autres usagers de la route (que l’on remarque comme les derniers fumeurs sur les quais du métro !) et qui ne tolèrent que leurs propres entorses aux règles, bien entendu anodines puisqu’ils maîtrisent parfaitement leur voiture. En se considérant comme meilleurs conducteurs que la moyenne voulaient-ils simplement dire qu’ils étaient de « bons conducteurs » puisque leurs notes étaient supérieures aux notes des moyens ou voulaient-ils se définir comme les meilleurs élèves de la classe ? La notion de classement se télescopait avec la notion de classification dans ce sondage à problèmes, et l’on sait qu’il n’y a pas une majorité de meilleurs dans une classe, alors qu’elle peut avoir une majorité de bons élèves !

Comment tenter d’aller plus loin et de dépasser les interprétations possibles, voire vraisemblables, mais sans preuves ? Ce sondage avait suscité l’intérêt des institutions œuvrant pour la sécurité routière et on avait tenté d’envisager des formulations moins ambiguës, pour explorer la même notion, tout en évitant de manipuler le sondé par des propositions trop alléchantes, mélangeant valeur absolue et comparaison. Le premier progrès a consisté à ne plus utiliser la notion implicite de « meilleur que les autres » et les sondages de la Prévention routière ont formulé la question:

« Vous-même, dans quelle catégorie d’automobilistes vous rangeriez-vous ? »
- Très bon conducteur : 14 % en 1999 et 19 % en 2004
- Bon conducteur : 64 % en 1999 et 66 % en 2004
- Moyen : 22 % en 1999 et 15 % en 2004.

Le sondage le plus intéressant explorant à la fois le jugement sur sa conduite et sur la conduite des autres par deux questions distinctes a été réalisé en mai 2000 par IPSOS pour la Direction de la sécurité routière. La première question était proche de la formulation du sondage de la Prévention routière, mais avec une distinction de quatre classes qui est toujours plus riche d’enseignements que la distinction en trois classes qui favorise souvent l’accumulation de réponses sur l’attitude médiane. La rédaction était:

« Estimez-vous être ? »
- Un très bon conducteur : 12 %
- Un conducteur assez bon : 62 %
- Un conducteur assez moyen 17 %
- Un conducteur très moyen 3 %
- Ne se prononcent pas : 6 %

La seconde était:

« Estimez-vous que les autres automobilistes en France sont :
- Très bons : 1 %
- Assez bons : 40 %
- Assez moyens 42 %
- Très moyens 16 %
- Ne se prononcent pas 1 %

Cette seconde question était très différente de la précédente, tout en donnant l’impression d’explorer la situation avec les mêmes qualifications, puisqu’elle exigeait un avis global sur le mode de conduite des Français. Ces résultats sont fascinants et ils expriment parfaitement le problème mathématique que je voulais soulever. Peut-on dans une population avoir seulement 20 % des conducteurs qui se considèrent comme « assez moyens » ou « très moyens » alors que les mêmes personnes estiment que 58 % des autres appartiennent à ces deux groupes ? Peut-on avoir 12 % d’autoclassement dans les très bons et accorder chichement ce qualificatif à 1 % des autres ? Peut-on conclure qu’il y a là une impossibilité logique avec sa composante probabiliste comme toute affirmation utilisant des données recueillies sur un échantillon, et que cette impossibilité logique implique une erreur de jugement sur sa valeur en tant que conducteur ou la valeur des autres ? Faut-il exclure des mathématiques l’analyse des données dans sa dimension « classificatoire », utilisant des variables non métriques et des proportions de cas définies par rapport à ces variables, avec les intervalles de confiance liés à la taille des échantillons utilisés ?

Qu’en pensent la rédaction et les lecteurs de « Pénombre » ? Sauf à me dire que ces commentaires n’étaient pas dans 20 minutes. Certes, et c’est là toute la difficulté de la communication en santé publique ! Vous expliquez pendant 20 minutes et il en reste une phrase ! Quelles propositions peut-on faire pour la formulation d’un sondage à venir tentant d’explorer au mieux cette différence entre le jugement sur soi et le jugement sur les autres, en évitant toutes les confusions tournant autour de la notion de conducteur moyen et de moyenne des conducteurs ?

Claude Got

Ndlr: cher Professeur, ne commentez-vous pas un sondage du type « un pourcent des Français pensent que les Français sont trop gros » comme si ce sondage disait « les Français pensent qu’un pourcent d’entre eux sont trop gros » ?

Commentaire d’un Pénombrien

Les exemples abondent de bizarreries qui suggèrent une erreur qui n’en est pas une. Sans doute, lorsque la mathématique a tort, c’est qu’on s’est trompé. Pour autant, ne pouvoir expliquer un phénomène ne signifie pas qu’il y a un problème de mathématique.

Exemple 1:

« 30 % des hommes mariés affirment avoir eu une aventure avec une femme mariée alors que seulement une femme mariée sur dix aurait eu une aventure avec un homme marié »:

- problème de mathématique ?
- vantardise des uns, discrétion des autres ?
- taille respective des populations d’hommes mariés et de femmes mariées ?
- comportements différents : à population comparable, il suffirait que les femmes mariées qui ont une aventure avec un homme marié changent 3 fois plus souvent de partenaire…

Exemple 2:

J’ai le choix entre deux bus pour me rendre au travail, le 162 et le 187, l’un et l’autre passant toutes les 10 minutes ; je n’ai pas d’horaire précis et décide de prendre le premier qui passe. Au bout d’un an, j’ai pris180 fois le 162 et seulement 20 fois le 187:

- problème de mathématique ?
- et si le 187 suit d’une minute le 162 ?

Exemple 3:

La consommation de glace aux halles de Rungis est destinée à 99 % aux grossistes en poissons ; la corrélation des tonnages journaliers vendus avec les tonnages de poissons commercialisés ces mêmes jours est à peine significative ; de même pour la corrélation avec les courbes de température:

- problème de mathématique ?
- ou problème mal posé ? (en réalité la corrélation entre le ratio journalier des tonnages glace/poisson et la température est très élevée : c’est, toutes choses égales par ailleurs, lorsque la température augmente que la demande de glace augmente, mais les volumes de poisson commercialisés sont très importants en hiver et ne nécessitent pas alors un grand volume de glace).

L’expérience des sondages dans le cadre des études sociologiques ou des études de marché me suggère plutôt que le problème a été mal posé ou incomplètement analysé. Dans le cas qui nous occupe, je formulerais volontiers quelques hypothèses:

- celui qui a un ego surdimensionné et affirme être un très bon conducteur ne peut imaginer que les autres puissent être également très bons conducteurs, sauf quelques exceptions;
- celui qui, avec humilité, dit qu’il conduit plutôt mal reconnaît sans doute que les autres sont nombreux à conduire mieux que lui, voire beaucoup mieux ;
- etc.

Et dans ce cas, le minimum est de croiser les deux séries d’informations, avec un tableau de type:

		Estime être?
		Très bon	Assez bon	Assez moyen	Très moyen	NSP
Estime que les autres sont?	Très bon
	Assez bon
	Assez moyen
	Très moyen
	NSP

Alors seulement (et l’exercice n’est pas limitatif) pourra-t-on supposer un éventuel problème de cohérence des réponses.

Daniel Cote-Colisson

Commentaire au commentaire d’un Pénombrien

Il y a des similitudes et des différences entre ce que j’ai voulu dire et les commentaires de Daniel Cote-Colisson. L’accord est complet quand il affirme que des incertitudes peuvent être induites par le fait que des problèmes ont été « mal posés ou incomplètement analysés » : il y a donc bien un « problème ». Il est pour moi de nature mathématique quand on analyse les données disponibles pour affirmer que les résultats indiquent obligatoirement une erreur de jugement d’une fraction de ceux qui ont répondu aux questionnaires. Les instituts de sondage communiquent rarement leurs données brutes et nous ne pouvons pas établir le tableau croisé proposé par Daniel Cote-Colisson qui permettrait de distinguer des sous-groupes plus pertinents se situant aux intersections des lignes et des colonnes (avec les limites éventuelles dans l’interprétation introduites par la faiblesse des effectifs dans chacune de ces subdivisions).

Nous pouvons cependant nous poser la question de la nature de la qualité enquêtée et de la possibilité de se placer dans une case et de placer les autres dans une autre case sans commettre une erreur de jugement. Cette hypothèse serait envisageable si la qualité avait une composante subjective très importante, en demandant par exemple à un échantillon d’adolescents de se classer et de classer les autres sur une échelle de beauté corporelle (c’est l’âge où les humains se trouvent moches). Dans le cas de la conduite nous sommes dans un domaine quantifiable avec des méthodes objectives et l’on demande au sondé de donner son avis subjectif sur ce fait objectif. Dans une étude sur le poids corporel, l’épidémiologiste qui a accès aux « mesures » peut tracer l’histogramme, diviser son échantillon en classes en intégrant la taille et calculer un indice de poids corporel, il est dans le réel et ne tente pas d’étudier le ressenti. La distribution du capital de points d’un échantillon de titulaires du permis de conduire est un exemple de cette nature. Mais il est également possible de connaître le risque d’obésité ressentie pour soi, ou perçue chez les autres, par un questionnaire demandant à des personnes si elles s’estiment plutôt grosses ou plutôt maigres, puis en explorant leur vision de la population française avec de tels critères. Seule l’étude d’un tableau croisé permet alors d’affirmer par exemple que ce sont les plutôt maigres qui trouvent les Français plutôt gros.

Cependant quand on s’attribue une qualité que l’on refuse « globalement » aux autres et que le rapport est de 1 à 12, il est possible d’affirmer que cette situation exprime une erreur de jugement, sauf à estimer son aptitude à la conduite avec des critères différents de ceux que l’on utiliserait pour qualifier la conduite des autres. C’est ce que je voulais exprimer à propos de ces sondages. Ils impliquent que la quasi-totalité de ceux qui s’estiment très bons conducteurs placent les « autres conducteurs » dans des classes « moins compétentes » et qu’ils commettent donc une erreur d’appréciation. Nous ne sommes pas dans la situation des possibles erreurs d’analyse citées par Daniel Cote-Colisson qui concernent toutes les trois des faits purement objectifs et non l’évaluation subjective d’un fait objectif. Autrement dit, il ne peut pas remplir sa matrice avec des valeurs compatibles avec le résultat du total des lignes et du total des colonnes du sondage que je cite sans conclure que sa proposition sur ceux qui ont un ego surdimensionné n’est pas une hypothèse mais une certitude. Il ne s’agit donc pas de « bizarreries apparentes qui suggèrent une erreur qui n’en est pas une ».

Le problème du risque ressenti et du risque réel est au cœur de l’action de santé publique. La comparaison entre la représentation que l’on a de soi et celle que l’on se fait des autres est étroitement liée à cette distinction et il est important d’améliorer les outils disponibles pour mieux l’apprécier. Avoir les résultats des questionnaires individuels et pouvoir les croiser est évidemment une des clés de l’interprétation. La difficulté d’obtention des données nécessaires demeure très importante, y compris dans les milieux de la recherche. Comme président du collège scientifique de l’Observatoire français des drogues et toxicomanies j’ai eu parfois à soutenir les demandes de chercheurs de cet organisme qui souhaitaient avoir accès aux données brutes et les traiter eux-mêmes, non pas pour vérifier ce qui avait été fait, mais pour tenter de nouvelles analyses et ajouter de la valeur aux données disponibles. Certains de leurs interlocuteurs considéraient que ces données étaient leur propriété et refusaient de les communiquer, alors que l’OFDT était le financeur. Il est important de prévoir contractuellement l’accès aux données et les commanditaires publics de sondages devraient introduire cette exigence dans leurs pratiques.

Claude Got