Des modèles descriptifs aux modéles prédictifs ?
L'exemple des records olympiques du 100 mètres

A mettre en lien avec l'actualité Le Monde du 09 juillet 2010
"Christophe Lemaitre établit un singulier nouveau record de France du 100 m"

Vidéo sur le site Le Parisien et les commentaires du généticien Axel Khan

Benoît Urgelli
last up-date : 23-Oct-2017


Une des questions centrale de l'expertise climatique est la suivante : même si les modèles climatiques semblent en adéquation avec la réalité passée (caractère descriptif des modèles), leurs chances de prévoir correctement l'avenir (caractère prédictif) est-il acceptable ? Je sollicite vos commentaires critiques sur ce point.

Rittaud (2010, p.151) précise que les modèles climatiques disponibles, s'ils semblent en accord entre eux pour ce qui concerne la description des climats passés, sont loin de s'accorder aussi bien sur l'avenir, avec des écarts qui sont de l'ordre de plusieurs degrés pour la fin du XXIe siècle :

Des modélisations descriptives du climat global passé ....


(Schwartz et al. (2007) Quantifying climate change — too rosy a picture?
Nature
, 27 June 2007)

aux modélisations prédictives...

Je propose ici de me reporter à une étude de cas qui souligne les limites des modèles explicatifs utilisés comme modèles prédictifs. Cette étude de cas porte sur un article Nature (n°431, 30 septembre 2004, page 525) proposé par Andrew Tatem, Carlos Guerra, Peter Atkinson et Simon Hay, et intitulé "Un sprint décisif aux jeux olympiques de 2156" (Momentous sprint at the 2156 Olympics ?) (exemple pris par Rittaud (2010), pp.145-148) :

Selon les auteurs de cette publication, d'après les points représentants la suite des records olympiques masculins (en bleu) et féminins (en rouge) et les approximations linéaire proposées, les records du 100 mètres seront battus par des femmes (approximations en rouges) et non plus par des hommes aux alentours de 2156, avec 95% de chances que la date soit comprise entre 2064 et 2788 :

The 95% confidence intervals, estimated through Markov chain Monte Carlo simulation [...] indicate that this could occur as early as the 2064 or as late as the 2788 Games).

Comme le précise Rittaud "ça laisse une bonne marge...". Les prévisions de Tatem et al. (2004) se sont révélées correctes pour les Jeux olympiques de Pékin (2008) : en effet, l'article proposait que le 100 mètres féminin se courait à Pekin entre 10,338 et 10,802 secondes et que le 100 mètres masculin entre 9,586 secondes et 9,874 secondes (Extrapolation of these trends to the 2008 Olympiad indicates that the women’s 100-metre race could be won in a time of 10.57+/-0.232 seconds and the men’s event in 9.73+/-0.144 seconds). Shelly-Ann Fraser a couru en 10,78 secondes et Usain Bolt en 9,69 secondes.

Vu de loin, l'étude respecte donc l'essentiel des critères qu'il semble raisonnable d'appliquer à une prévision fondée sur un modèle : elle tire sa source d'observations fiables et en propose une synthèse à partir d'outils mathématiques assez simples. Il en ressort un modèle descriptif semble très acceptable.

Pourtant, dans le numéro du 11 novembre 2004 de Nature (vol. 423, page 147), Kenneth Rice, prolongeant les courbes de Tatem et al. ironisera : "c'est une courbe bien plus intéressante qui devrait avoir lieu vers 2636, lorsque des temps inférieurs à zéro seconde seront enregistrés" :

Sprint research runs into a credibility gap. Sir— A. J. Tatem and colleagues calculate that women may outsprint men by the middle of the twenty-second century . They omit to mention, however, that (according to their analysis) a far more interesting race should occur in about 2636, when times of less than zero seconds will be recorded. In the intervening 600 years, the authors may wish to address the obvious challenges raised for both time-keeping and the teaching of basic statistics. Kenneth Rice

La critique la plus argumentée, dans ce même numéro de Nature, est celle de Weia Reinboud, qui n'est pas une scientifique mais une championne d'athlétisme ! Ses remarques sont une combinaison entre bon sens et esprit critique. Elle explique que au fur et à mesure que le temps passe, battre des records est de plus en plus difficile pour les coureurs qui épuisent progressivement les marges de progression disponibles. Selon l'athlète, le suite des records successifs décroitra, à terme, de moins en moins vite :

[...] A logical critique goes like this : an athlete can improve greatly by training three times instead of twice a week and can improve further by adding a fourth training session, and so on — but each additional session will give less improvement than the one before. It follows that the sport as a whole will show a similar nonlinear improvement. When statistics, nevertheless, point to linear development, there must be something wrong. Most likely the ‘linear’ graph in fact consists of more nonlinear parts. For example, one part for the period when athletes were adding ever more training sessions, one part for when they reached a ceiling in adding sessions (around 1980), one part for when drug users were filtered out, and so on.

Ainsi, parce qu'il est intrinsèque à cette représentation linéaire qu'apparaissent des temps négatifs à plus ou moins brèves échéances, parce que la fourchette est si large qu'il aurait été difficile de tomber à côté...., mais également parce qu'il ne prend pas en compte l'ensemble des données disponibles sur l'objet étudié (ici la physiologie du sportif de haut niveau placé dans une logique sociale et économique de compétition), il n'est pas légitime d'utiliser ce modèle pour faire des prévisions.

C'est ce qui conduit Rittaud à critiquer les modèles climatiques actuels dans la mesure où ils n'intégrent qu'une partie des connaissances disponibles (notamment sur les transferts de chaleur et le rôle des nuages), et que leurs fourchettes d'approximations sont trop larges.