Les approximations de l’Insee : nouvel épisode

Dans mon dernier billet, j’ai analysé une note de l’Insee relative à l’évolution de la population par commune de 2011 à 2016 et à la façon (erronée) dont la presse s’en est fait l’écho. Une des critiques essentielles adressées à l’Insee portait sur les limites des comparaisons de moyenne par catégorie de territoire, qui masquent l’hétérogénéité au sein de chaque catégorie.

Je découvre aujourd’hui une nouvelle note de l’Insee, sur le même jeu de données mais sur un autre découpage géographique par EPCI (Etablissements Publics de Coopération Intercommunale), parmi lesquels on distingue les métropoles (ME) au nombre de 22, les Communautés Urbaines (CU) au nombre de 11, les Communautés d’Agglomérations (CA) au nombre de 221 et les Communautés de Communes(CC) au nombre de 1005, soit 1259 EPCI au total.

Cette nouvelle note est titrée « Démographie des EPCI : la croissance se concentre dans et au plus près des métropoles ». On y trouve des choses intéressantes (notamment les cartes), mais aussi, hélas, toujours les mêmes erreurs et approximations, qui conduisent à des conclusions contestables. Comme les données utilisées par l’Insee sont mises en ligne en annexe du document, j’ai pu me livrer à quelques traitements. Je vous propose de me concentrer sur un point pour illustrer mon propos : la comparaison par catégories d’EPCI du taux de variation annuel de la population sur la période 2011-2016, résumée notamment par le graphique ci-dessous.

(Il y aurait encore une fois des choses à dire pour éviter toute mauvaise interprétation : les métropoles dont il s’agit sont les métropoles instituées par la loi, qui ont peu à voir avec les métropoles au sens des économistes ou des géographes. On notera également que pour ceux qui considèrent que la seule vraie métropole française (au sens de Saskia Sassen par exemple), Paris, ne va pas très bien si l’on en juge par l’indicateur retenu, mais cet indicateur a-t-il seulement du sens ? Je passe).

Le cœur de mon propos est le suivant : une fois encore l’Insee propose des comparaisons de moyenne, mais oublie de s’interroger sur la dispersion au sein de chaque catégorie, que l’on peut mesurer par exemple par l’écart-type. Terme étrange pour beaucoup, mais finalement assez simple, qui correspond  à la moyenne des écarts à la moyenne : un écart-type important signale que c’est un peu le bazar au sein de la catégorie, un écart-type faible que c’est plutôt homogène (exemple pédagogique : pour une classe de lycée où tous les élèves ont 10 à une épreuve, la moyenne de la classe sera de 10 et l’écart-type de 0 ; pour une classe où la moitié des élèves a zéro et l’autre moitié a 20, la moyenne sera toujours de 10, mais l’écart-type sera de 10. Vous conviendrez que ces deux classes diffèrent sensiblement, ce que la moyenne ne montre pas, puisqu’elle est identique dans les deux cas). C’est vraiment facile de calculer ces écarts-types, voilà ce que ça donne.

Tableau 1 : moyenne et écart-type des taux de croissance de la population des EPCI, 2011-2016, non pondérés

EPCI Moyenne Ecart-type Nombre
CC          0.25          0.75        1 005
CA          0.36          0.64           221
CU          0.27          0.43             11
ME          0.60          0.55             22
Total          0.27          0.73        1 259

La moyenne simple des Métropoles est effectivement sensiblement supérieure à celle des autres catégories d’EPCI, mais l’écart-type de 0,55 est loin d’être négligeable, il est notamment supérieur à celui des Communautés Urbaines, qui sont donc moins hétérogènes. Réciproquement, pour les CC et les CA, l’importance des écarts-types suggère que si, en moyenne, leur croissance est plus faible, certaines présentent des taux de croissance très forts (bien plus forts que les plus dynamiques des ME en vérité) et d’autres très faibles. Dès lors, il n’est pas possible d’avancer une proposition générale du type « les métropoles sont plus dynamiques que les autres catégories de territoires », puisque cela dépend desquelles, idem pour chacune des catégories retenues, d’ailleurs.

On peut aller plus loin dans l’analyse, en faisant un peu d’économétrie, ce que tous les statisticiens de l’Insee savent faire, et sans doute mieux que moi, si bien que je me demande pourquoi ils ne le font pas. Plutôt que de calculer des moyennes par catégorie d’EPCI, il s’agit par exemple de procéder à des comparaisons de moyenne non pas par grande catégorie, mais en régressant le taux de croissance de la population 2011-2016 de chaque EPCI sur la catégorie à laquelle elle appartient. Ceci permet de savoir si les différences de moyenne observées entre catégories sont statistiquement significatives.

Je me suis livré à cet exercice et la conclusion est implacable : les différences de moyenne ne sont pas statistiquement significatives. Par rapport à la catégorie de référence « Communautés d’Agglomération », seule la catégorie « Communautés de Communes » présente un coefficient significativement plus faible et encore, loin du seuil de 1%. Pas de différence statistiquement significative aux seuils de 1, 5 ou 10%, en revanche, entre CA, CU et ME. On note de plus que cette typologie en EPCI n’explique quasiment rien des différences géographiques de taux de croissance, le R² étant de moins de 0,5% (ce qui signifie que cette typologie explique seulement 0,5% des différences observées, que donc d’autres choses en expliquent… 99,5%).

Pour les initiés, voici le tableau de résultat :

variable expliquée : taux de croissance 2011-2016 de la population par EPCI, données Insee

Coefficient écart-type t P>t
CA référence
CC –            0.11              0.05 –            1.99              0.05
CU –            0.08              0.22 –            0.37              0.71
ME              0.25              0.16              1.53              0.13
Constante              0.36              0.05              7.28                   –

Compte-tenu des données disponibles, on peut s’amuser à procéder à d’autres estimations. Si l’on régresse les taux de croissance non plus sur les catégories d’EPCI mais sur les populations de 2011, pour identifier un éventuel effet taille initiale de la population, on aboutit à la même conclusion : le modèle global est très mauvais (R² inférieur à 0,5%) et le coefficient associé à la taille initiale n’est pas significatif au seuil de 1%.

Comme on dispose également du département d’appartenance de la commune la plus peuplée de chaque EPCI, j’ai régressé les taux de croissance des EPCI sur ces départements. Cette fois les choses s’améliorent, le R² monte à 40% environ. Je pense que si l’on agrégeait par région, cela s’améliorerait encore un peu, car, comme les cartes le montrent, on voit bien que les dynamiques de population sont macro-régionales, avec un avantage aux territoires de l’Ouest et du Sud.

Je réitère donc mon conseil à l’Insee : présentez dans vos documents les écarts-types, et procédez en amont de vos commentaires à quelques régressions. Vos documents sont « grand public », ces calculs n’ont sans doute pas vocation à y figurer, mais cela vous permettrait de ne pas dire n’importe quoi, dans vos commentaires.

Related posts:

4 commentaires sur “Les approximations de l’Insee : nouvel épisode

  1. Juste une petite remarque sur vos tests qui reviennent à faire un anova sur le taux de variation 2011-2016 par nature d’EPCI.

    Ces résultats ne sont valables que si les hypothèses sous-jacents à l’anova sont vérifiées, à savoir une variance identique pour les groupes et une distribution normale.
    Les deux hypothèses sont ici non vérifiées (testées avec un test de Levene + Brown-Fortsythe pour la variance et un Shapiro-Wilk pour la normalité).

    En allant du coup chercher des tests non-paramétriques, on peut observer une différence des médianes (Kruskal-Wallis + Wilcoxon), entre CA-CC et CC-ME (à 5 %). Même si ça reste tout de même modéré.

    Je doute cela dit fortement que le chargé d’études de la publication soit allé chercher jusque-là… Cela n’enlève rien à votre propos sur la légèreté de l’analyse.

  2. Merci Olivier encore une fois pour ton regard affuté de statisticien. On pourrait y ajouter, ce que tu suggères, le regard de l’économiste, qui va isoler les mobilités des jeunes actifs et des retraités dans la croissance de la population. Mais surtout je m’interroge sur la pertinence d’un traitement satistique indifférencié, tant les variables territoriales sont complexes, mêlant la nature des effets métropolitains (y compris exterieurs), le profil industriel, l’économie résidentielle, les villes creatives etc et leurs interactions. Ce qui suggère un premier tri typologique régional (du genre profils metropolitain, lotharingien, alpin etc.).

    • Une autre remarque concerne la comparaison des écarts types du tableau 1 et la partie de cette phrase :
       » mais l’écart-type de 0,55 est loin d’être négligeable, il est notamment supérieur à celui des Communautés Urbaines, qui sont donc moins hétérogènes »
      Il me semble qu’on ne peut pas comparer ainsi les écarts types de moyennes différentes.
      Pour ce faire il faut utiliser le coefficient de variation qui est le rapport écart type / moyenne.
      Les commentaires s’inversent alors : les CU ont un coefficient de variation supérieur à celui des ME. Elles sont donc plus hétérogènes que les ME.
      Les coefficients de variation sont d’ailleurs croissants avec la taille des EPCI : ME 0.92, CU 1.59, CA 1.78, CC 3.00.
      Ce qui donne à penser que plus les EPCI sont petits, plus leurs taux de croissance démographique sont hétérogènes, ce qui est assez compréhensibles.

Répondre à Ivan Samson Annuler la réponse.

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *