Entretien avec Daniel Schwartz
(Jean-Paul Jean et René Padieu, Pénombre. numéros 12 et 14, 03-05 1997)
Polytechnicien, professeur
émérite à la Faculté de médecine
Paris-Sud, Daniel Schwartz a été directeur de la
première unité de recherches statistiques de l'Institut
national de la santé et de la recherche médicale (INSERM)
et fondateur du Centre d'enseignement de la statistique
appliquée à la médecine (CESAM). Il a
été le pionnier de l'introduction de la statistique dans
la médecine en France, et a publié de nombreux ouvrages
sur le sujet.
René Padieu: Le hasard est-il,
selon l'expression célèbre, "l'expression de notre
ignorance", ou une caractéristique du monde?
Daniel Schwatrz: C'est là un vieux débat. Sans doute,
dans un lancer de pièce, nous ignorons si le résultat
sera pile ou face. Mais s'agit-il là vraiment d'une ignorance,
c'est-à-dire d'un état que des connaissances pourraient
pallier. C'est ce qu'avançait Laplace, lorsqu'il disait: "le
hasard représente seulement l'expression de notre ignorance.
Tout phénomène, si minime soit-il, a une cause, et un
esprit infiniment puissant, infiniment bien informé des lois de
la nature, aurait pu le prévoir dès le commencement des
siècles". Mais cette vue n'est pas réaliste, car nous ne
sommes pas des esprits infiniment puissants, et rien ne nous permet de
prévoir le résultat du pile ou face. Cette
incapacité est donc autre chose qu'une ignorance. Disons que le
hasard est la dépendance de facteurs si nombreux que leur
résultat est imprévisible.
R. P.: La statistique est-elle la description d'une population ou la mise en évidence de lois?
D. S.: Les deux à la fois. Pour le premier problème que
vous évoquez, la description d'une population, une
difficulté majeure provient de la variabilité des
caractères biologiques selon les individus. Pour
l'évolution d'une maladie par exemple, certains individus
guérissent et d'autres non. On ne peut donc décrire la
population à partir d'un seul malade, il faut connaître la
proportion de guéris dans la population des malades de ce type.
Or nous ne pouvons disposer de tous ces malades, mais seulement
d'échantillons de taille finie. Le taux de guéris
estimé sur des échantillons diffère plus ou moins
de la vraie valeur, celle de la population, en raison des fluctuations
d'échantillonnage, ou fluctuations du hasard. Ces fluctuations
font que, par exemple, si on tire un échantillon dans une urne
contenant 20% de boules blanches, on n'obtient pas
nécessairement ce taux mais un taux fluctuant autour de 20% d'un
échantillon à l'autre. Ces fluctuations du hasard sont
imprévisibles et peuvent conduire à de grands
écarts. Ainsi, voilà la difficulté : on veut
décrire une population par un taux et ce taux est hors de
portée.
À cette difficulté majeure, le statisticien apporte une
solution (partielle). Il peut déclarer que le taux inconnu dans
la population est compris dans tel intervalle, une fourchette, à
condition d'admettre un risque d'erreur (5%, 1%….). Au constat
de l'impossible certitude, il oppose la conclusion avec risque d'erreur
contrôlé.
Jean-Paul Jean: Et pour la mise en évidence de lois statistiquement établies?
D. S.: Les lois qu'on cherche à mettre en évidence sont
le plus souvent des associations entre variables: par exemple entre
consommation du tabac et cancer des bronches, ou entre administration
d'un traitement A et guérison. Dans le cas le plus simple, il
s'agit donc d'une description comparée: comparaison pour le
cancer entre les fumeurs et les non fumeurs, pour la guérison
entre les malades traités par A et des témoins
traités différemment. Ici encore, il faut comparer des
proportions (probabilités) de cancer, ou de guérison, qui
sont hors de portée parce qu'on ne peut avoir accès
qu'à des échantillons finis, sujets aux fluctuations
d'échantillonnage. Le statisticien apporte une solution, le test
statistique. Cette opération permet de savoir si la
différence des taux observés sur les échantillons
peut raisonnablement être attribuée aux fluctuations
d'échantillonnage, ou au contraire être réelle (on
dit "significative"); ceci à condition, ici encore, d'admettre
un risque d'erreur.
J.P. J.: Qu'entend-on par "facteurs de risque" d'une maladie?
D. S.: Une définition du risque d'un événement est
la probabilité qu'il se produise, éventuellement au cours
d'une période donnée. Le risque d'une maladie est une
façon d'exprimer sa fréquence. Les deux mots ont
toutefois une connotation différente: la fréquence
concerne la population, tandis que le risque s'attache surtout à
l'individu. C'est pourquoi l'on recherche une personnalisation maximale
du risque, en tenant compte des "facteurs de risque".
Est facteur de risque tout élément corrélé
à l'apparition de l'événement. Le taux annuel
d'infarctus dans une population augmente avec l'âge: l'âge
est un facteur de risque. Supposons que, dans un groupe de sujets, la
fréquence annuelle de l'infarctus atteigne quatre pour mille;
pour un sujet dont on ignore tout, le risque annuel d'infarctus est
quatre pour mille. Si, dans ce groupe, on sait qu'un sujet a 80 ans, on
tiendra compte de cette information en évaluant son risque dans
le sous-groupe des sujets de 80 ans. On trouvera ainsi une nouvelle
valeur, supérieure à quatre pour mille, mieux
adaptée au sujet.
Cette nouvelle valeur semble plus réaliste, mais elle n'est pas
pleinement satisfaisante; on a supposé que le risque est le
même pour tous les sujets de 80 ans. Précédemment,
on ignorait tout facteur de risque, maintenant on ignore tout facteur
de risque autre que l'âge: la frontière de l'inconnu a
seulement reculé d'un pas. En prenant en compte de nouveaux
facteurs, la cholestérolémie, puis la tension
artérielle, puis l'usage du tabac, on pourra placer le sujet
dans des sous-groupes de plus en plus réduits. D'étape en
étape, le risque changera au gré des informations,
cernant de plus en plus près une probabilité
personnalisée.
Dans une étude menée il y a quelques années sur
une population d'hommes de 50 ans, le risque annuel de
l'événement infarctus ou mort subite était de
quatre pour mille. Mais considérons par exemple deux sujets dans
des situations extrêmes. Le premier a une tension
artérielle et une cholestérolémie normale, il ne
fume pas et n'est pas diabétique; le second a une tension
artérielle à 200 mm, une cholestérolémie de
300 mg/ml, il fume 40 cigarettes/jour et est diabétique. Le
risque annuel du premier était de 1 pour 1000, celui du second
de 10%.
Ainsi la prise en compte des quatre facteurs de risque nous permet de
calculer des risques très différents. Jusqu'où
peut nous mener cette voie? La connaissance de nouveaux facteurs
permettra-t-elle de diviser une population où le risque est de
quatre pour mille en deux groupes de sujets, dont l'un comporte les
quatre individus qui feront sûrement un infarctus dans
l'année, et l'autre les 996 qui n'en feront sûrement pas?
La réponse à une telle question est négative, et
ce pour deux raisons. La première est qu'on n'arrivera
probablement jamais à connaître tous les facteurs de
risque. La seconde est que, même si on les connaissait, on ne
parviendrait pas à tenir compte du stress ou autres
événements aussi imprévisibles que les raisons
conduisant au pile ou face.
Un autre exemple illustrera les limites de la prévision: le
conducteur au volant de sa voiture encourt un risque d'accident qu'on
estime au mieux en fonction de son âge, de son type de voiture,
de l'alcool absorbé… mais sans pouvoir jamais tenir
compte des imprévus du parcours.
Ainsi, apparaît-il que le risque résulte à la fois
de l'ignorance et du hasard. Pour personnaliser un risque de maladie,
l'épidémiologiste réduit la part d'ignorance pour
se rapprocher aussi près que possible de la situation où
la seule composante du risque est le hasard pur.
R. P.: Le hasard est-il un outil du
statisticien pour tenir en respect sa subjectivité et quelles
sont les stratégies à mettre en œuvre pour
réduire l'incertitude des résultats?
D. S.: Dans les problèmes évoqués plus haut, la
difficulté est qu'on voudrait connaître, ou comparer, des
taux vrais - ceux des populations - mais qu'on ne dispose en
général que d'estimations observées sur des
échantillons qui s'écartent plus ou moins des vraies
valeurs en raison des fluctuations d'échantillonnage. Ainsi le
hasard rend toute conclusion certaine impossible, il est notre
maître, notre ennemi… Grâce à ces lois, nous
pouvons énoncer des conclusions à condition d'admettre un
risque d'erreur contrôlé.
Cependant l'intervention du hasard ne se limite pas là…
L'établissement d'une fourchette dans la description d'une
population suppose que l'échantillon considéré
soit représentatif. On peut montrer que ceci n'est en principe
réalisé que si l'échantillon résulte d'un
tirage au sort. De même, dans la description comparée, par
exemple dans la comparaison des taux de guéris avec deux
traitements A et B. le test statistique permet de savoir si la
différence est significative. Mais, dans ce cas, elle ne peut
être attribuée aux traitements que si les
échantillons des deux groupes sont, à part le traitement,
comparables à tous les égards, et là encore on
peut montrer que ceci nécessite que les deux groupes aient
été constitués par tirage au sort. Ainsi le hasard
cette fois nous est utile, ce n'est plus notre ennemi, mais notre
allié….
J.P. J.: Pourquoi, dans ces deux situations, la solution est-elle le tirage au sort?
D. S.: On constitue souvent des échantillons par des
procédés commodes, en s'imaginant qu'ils sont
"représentatifs". Ainsi, dans la population française, on
choisira les sujets dont le nom commence par A. Dans la population des
étudiants suivant un cours, on choisira ceux du premier rang
dans l'amphithéâtre. Dans un groupe de souris d'une race
donnée, quand on souhaite faire une expérience sur 20
souris, on choisira les 20 premières attrapées dans la
cage. Ces méthodes sont mauvaises.
Les Français dont le nom commence par A diffèrent de ceux
dont le nom commence par une autre lettre. Le nom dépend, entre
autres, des ethnies, des régions. Dans un
amphithéâtre, les élèves du premier rang
(quand il y en a…) diffèrent des autres: souvent ce sont
les plus consciencieux, les plus tôt arrivés ou ceux qui
entendent ou voient moins bien. Les souris attrapées en premier
sont… des nigaudes. L'expérience montre qu'elles sont
plus vulnérables aux maladies.
Dans ces exemples, l'échantillon diffère
systématiquement de la population par un caractère au
moins (la première lettre du nom, la place dans
l'amphithéâtre…). Comme un caractère est
toujours lié à un écheveau de beaucoup d'autres,
l'échantillon risque de différer de la population par de
nombreux caractères, peut-être précisément
ceux que l'on étudie. Un tel échantillon n'est pas
représentatif; on dit qu'il est "biaisé".
Pour éviter tout biais, on doit introduire dans
l'échantillon des sujets choisis indépendamment de toutes
leurs caractéristiques. La seule façon d'y parvenir est
de recourir au hasard - n'est-ce pas là une de ses
définitions? Le hasard est la rencontre de deux chaînes
d'événements indépendantes : le croisement, au
même instant, de l'itinéraire choisi par Monsieur N et de
la trajectoire d'une tuile qui glisse d'un toit et lui tombe sur la
tête est un hasard… Ainsi, un échantillon
constitué par tirage au sort sera représentatif. Pour
obtenir deux groupes, comparables dans la description comparée,
c'est le même raisonnement qui conduit à les constituer
par tirage au sort.
J.P. J.: Comment utiliser ces
éléments de connaissance pour prendre des
décisions? Pourrions-nous prendre quelques exemples? D'abord,
celui de la mort subite du nourrisson (MSN). Quel est le risque
statistique? Quelles conséquences générales
à en tirer sur la prévention? Quelles mesures
particulières pour les sujets les plus exposés? Que dire
à des parents dont l'enfant est mort, alors que le risque
était estimé comme minime? Ainsi, dans le cas d'une
famille où un bébé est mort de ce fait, alors que
dans la lignée du père, quatre enfants sur 100
étaient décédés de cette façon.
D. S.: Dans le cas que vous m'avez transmis, la mère a
demandé au médecin, qui le lui a
déconseillé, des mesures comme des monitorings, un
télécontrôle. Le risque de MSN qui était
autrefois de 1 pour mille est aujourd'hui de 0,5 pour mille. Cette
baisse est due probablement au conseil donné aux mères de
coucher l'enfant sur le côté et non plus sur le ventre. Je
dis probablement, parce que la causalité est difficile à
établir, car d'autres conseils ont aussi été
prodigués. Y a-t-il un problème
héréditaire? Il n'est pas prouvé. S'il
l'était, cela "ne" multiplierait le risque "que" par 2 ou 3,
c'est-à-dire que de 0,5 pour mille, il passerait à 1,5 ou
à deux pour mille. La différence de risque, malgré
la "multiplication par deux ou trois" reste donc très faible. Si
l'on prenait ces mesures de monitoring, il faut se dire qu'il y en
aurait près de 998 sur 1000 qui ne serviraient à rien,
élément dont il faut tenir compte. Il n'est pas sûr
non plus que le monitoring serait efficace et il a
l'inconvénient d'être très anxiogène pour la
mère.
Pour un bénéfice très faible, le coût est
très élevé. Le choix raisonnable est donc de
prendre uniquement les mesures habituelles: coucher le
bébé sur le côté, éviter la
fumée de cigarette dans la pièce, bien aérer la
chambre, ne pas avoir d'excès de couverture, ceci entre deux et
quatre mois, période dans laquelle peut intervenir la MSN.
J.P. J.: Mais comment expliquez-vous
ensuite aux parents qu'ils ont eu le malheur de "tomber" dans les deux
pour mille? Le risque était minime, mais ils en sont victimes.
D. S.: Il faut leur expliquer que, sur 1000 bébés, on
sait qu'en moyenne deux auront une mort subite et 998 y
échapperont. Rien ne permet, à l'heure actuelle, de
connaître à l'avance les deux victimes, et même si
dans l'avenir on décelait des facteurs de risque
(l'hérédité en est peut-être un) il restera
toujours des facteurs imprévisibles, un pur hasard. Tomber dans
les deux pour mille est une malchance…
La suite de l'entretien porte notamment sur le risque d'être
victime d'un attentat dans le RER, la subjectivité du chercheur
et du médecin dans l'élaboration des statistiques et
l'information transmise à partir de ses constatations, le risque
de transmission VIH de la mère à l'enfant, les effets
placebo des médicaments, la vache folle, le rapport entre les
lignes à haute tension et la leucémie, les risques
liés au tabac et la notion de mort prématurée,
ainsi que l'apport de la recherche sur le tabac à
l'épidémiologie….
Revenons au problème du
risque. Nous vous avions demandé, dans l'entretien
précédent (1), comment utiliser les connaissances pour
prendre des décisions. Et vous nous avez donné un exemple
de réponse, celui de la mort subite du nouveau-né.
Pouvez-vous élargir le débat?
Daniel Schwartz: La connaissance d'un risque sert, d'une part à
faire progresser le savoir, mais d'autre part aussi, bien sûr,
à guider des décisions: cette utilisation est la "gestion
du risque". C'est là le problème à la mode, il
fait l'objet d'innombrables écrits et conférences, il est
en effet très vaste, en raison des multiples facettes du risque.
Une des facettes, la plus importante sans doute, provient du fait que
le risque recouvre deux aspects. C'est, d'une part une fréquence
dans un groupe de sujets (risque collectif) et d'autre part une
probabilité pour un individu (risque individuel). Ce qui est
tout différent pour le mode de gestion.
P.: Il y a donc deux modes, la gestion collective et la gestion individuelle?
D.S.: Disons trois, car il y a des cas où les deux interviennent. La gestion individuelle et collective
P.: La mort subite du
nouveau-né était, j'imagine, un cas de gestion
individuelle. Pouvez-vous nous parler des deux autres situations?
D.S.: Pour la gestion individuelle et collective, un bon exemple est le
tabagisme. Les méfaits du tabagisme, plus ou moins connus depuis
très longtemps, ont été prouvés de
manière rigoureuse dans les années 50 à l'occasion
de l'augmentation explosive de la fréquence du cancer
bronchique. Mais il a fallu de nombreuses études très
importantes pour prouver la responsabilité du tabac. En effet
des enquêtes étiologiques remarquables ont certes
prouvé que la fréquence de ce cancer était
nettement plus élevée chez les fumeurs que chez les non
fumeurs. Mais voilà, ces deux groupes sont-ils comparables, ne
diffèrent-ils que par le fait de porter ou non une cigarette
à la bouche? Il est bien vraisemblable que non. Et les
enquêtes ont confirmé que les fumeurs diffèrent des
non fumeurs par la catégorie socio-professionnelle, la
consommation de café et d'alcool… ils mesurent même
1 cm de plus. Alors la cause du cancer est-elle le tabac, l'alcool, le
café (ou le cm?).
Cette difficulté de l'imputation causale est la tare majeure des
enquêtes d'observation, où on se contente d'observer des
groupes qui se sont constitués par eux-mêmes. Pour
parvenir à la preuve de causalité, on a dû
accumuler les résultats d'études de type varié:
d'abord des enquêtes épidémiologiques souvent
gigantesques (une enquête sur 1 million de personnes aux
États-Unis), ensuite la comparaison des pourcentages de cancer
chez les fumeurs et les non fumeurs à égalité de
consommation d'alcool, de café, etc. ainsi que des
expériences sur animal (badigeonnage sur la peau de souris de
condensats de fumée - on n'a pas pu faire fumer des souris, mais
seulement des crapauds, en trop petit nombre), analyses chimiques etc.
C'est cet ensemble cohérent qui a fini par convaincre que le
tabagisme est bien la cause, et la cause non seulement du cancer
bronchique, mais de bien d'autres cancers et de maladies respiratoires
et cardio-vasculaires. La durée de vie médiane est
raccourcie d'environ 8 ans chez les fumeurs réguliers de
cigarette. En France, d'après les calculs de C. Hill, le
tabagisme tuerait près de 60'000 personnes.
P.: Mais ces personnes seraient
mortes de toute façon? Selon l'expression consacrée, "il
faut bien mourir de quelque chose".
D.S.: Certes, mais il s'agit de morts prématurées. Les sujets auraient vécu plus longtemps.
P.: Et qu'en est-il alors résulté pour les décisions (gestions) individuelles?
D.S.: Eh bien, pratiquement rien. Les médecins anglais ont
certes diminué leur consommation, très probablement parce
qu'ils avaient constitué un des échantillons
d'enquête et avaient ainsi observé les dégâts
sur eux-mêmes. Mais le public n'a pas suivi dans
l'immédiat, et dans les autres pays aucune décision
individuelle n'a été à la mesure de la
connaissance: Homo Sapiens est l'homme qui sait, ce n'est pas l'homme
sage!
P.: Et au plan collectif?
D.S.: Bien des mesures collectives sont possibles, notamment
l'accroissement des taxes sur le tabac, la réglementation de la
consommation dans les lieux publics etc. Cependant la réduction
des ventes de tabac occasionne un préjudice à de
nombreuses catégories de personnes: planteurs, débitants
de tabac (il y en a actuellement en France respectivement 40'000 et
35'000), entreprises de publicité, sans parler de l'État
qui tire un énorme profit des taxes (actuellement plus de 40
milliards de francs par an). Et encore faudrait-il ajouter les sommes
que les maladies liées au tabagisme rapportent aux
médecins, aux chirurgiens, aux pharmaciens. Et pour pousser les
choses à l'extrême, remarquer quel avantage résulte
de décès, par cancer du poumon en particulier,
intervenant juste à l'âge de la retraite! La gestion
collective suppose un bilan coût-avantage. Mais un bilan pour
qui? La seule solution souhaitable est un accord des parties
démocratiquement adopté.
Il a fallu attendre, pour la mise en œuvre des mesures possibles,
les années soixante-dix, voire quatre-vingt, pour la plupart des
pays européens; 1976 en France où la loi Veil a, en
particulier, interdit la publicité à la radio, à
la télévision, au cinéma et par voie d'affiche. En
1991, l'interdiction de publicité a été
renforcée par la loi Evin en même temps qu'était
décidée une nette augmentation du prix des cigarettes,
pour la première fois depuis des décennies.
Au total, la consommation du tabac, à part une baisse importante
pendant la guerre et des variations annuelles mineures, a grandi
constamment depuis le début du siècle, puis a
présenté un palier à partir de 1976, date de la
loi Veil, et une diminution à partir des années 91, date
de la loi Evin et de l'augmentation des tarifs. Mais elle reste
beaucoup plus élevée qu'elle n'était avant la
publication des enquêtes. Celles-ci n'ont donc joué qu'un
rôle quasi nul dans les gestions individuelles mais sans doute
ont-elles préparé le terrain et permis moins
difficilement les décisions de type collectif.
P.: Et pour la gestion de type purement collectif, quels exemples pouvez-vous nous donner?
D.S.: Je n'en choisirai qu'un, mais à propos duquel je voudrais
évoquer quelques principes généraux allant le plus
souvent contre des idées fortement ancrées dans l'esprit
du public. Ce sera celui des lignes aériennes à haute
tension.
J'ai assisté, il y a peu, dans une commune des Yvelines,
concernée par ce problème, à une réunion
d'habitants de la région. Quand l'orateur a communiqué
aux assistants la conclusion d'un remarquable travail de
synthèse:"les résultats épidémiologiques
actuellement disponibles ne permettent pas d'exclure un rôle des
champs magnétiques dans l'apparition de leucémies, en
particulier chez l'enfant", ce fut un tollé: comment des
soi-disant chercheurs de haut niveau peuvent-ils se contenter d'une
conclusion qui n'est qu'une absence de conclusion? C'est oui ou non,
blanc ou noir, on veut savoir! C'est là une première
idée fortement ancrée dans l'esprit du publi: il n'admet
pas l'incertain. Or celui-ci est toujours possible, soit parce que la
conclusion nécessite des enquêtes immenses, soit parce
qu'elles conduisent à des résultats contradictoires.
Comme il faut bien agir, on devra pratiquer une gestion dans
l'incertain.
Dans certains cas, le risque a une valeur quasi inconnue pour un effet
très grave. C'est ce qui s'est produit pour l'encéphalite
spongiforme bovine. On a recours alors à ce qu'on appelle, un
peu pompeusement, le principe de précaution: c'est une
sévérité des mesures telle qu'on l'adopterait si
le risque était très élevé; une
démarche qui finalement rappelle le pari de Pascal incitant
à agir comme si Dieu existait, bien que la probabilité de
cette éventualité soit inconnue.
Mais ces cas sont l'exception. En général, on a une
idée du risque en fonction de l'importance de l'exposition et on
peut établir un "risque admissible". Celui-ci résultera
d'un bilan entre les avantages et les inconvénients de la limite
admise pour l'exposition au risque, il est tel que pour une exposition
plus élevée les inconvénients l'emportent sur les
avantages.
Dans le cas des lignes à haute tension, "l'inconvénient"
serait - s'il existe - un nombre minime de leucémies chez
l'enfant. Mais ce nombre, même minime, est-il tolérable?
Ne doit-on pas tout faire pour le réduire à zéro?
C'est bien ce que pensaient les assistants à la réunion
que j'ai évoquée. "N'y eût-il qu'une
leucémie en plus n'est pas tolérable, pensez donc, et si
c'était votre enfant". Un contradicteur (je faillis
l'être…) eût été lapidé! Car le
second principe fortement ancré dans l'esprit du public est que
la santé n'a pas de prix. Or malheureusement la santé a
un coût. En argent certes: les sommes disponibles sont
limitées et le prix payé pour habiller Pierre
déshabillerait Paul; pour un danger incertain on va supprimer
des crédits, entraînant des dangers certains. Ces
coûts ne sont d'ailleurs, et de loin, pas les seuls à
considérer. L'enterrement des lignes électriques
entraînera très probablement des accidents du travail,
peut-être plus nombreux et graves que les éventuelles
leucémies.
P.: Mais que faire alors?
D.S.: Dans le cas des lignes électriques, la solution
raisonnable est sans doute de ne pas toucher aux lignes existantes,
mais d'éviter les villes et villages pour les lignes futures.