Les approximations de l’Insee : nouvel épisode

Dans mon dernier billet, j’ai analysé une note de l’Insee relative à l’évolution de la population par commune de 2011 à 2016 et à la façon (erronée) dont la presse s’en est fait l’écho. Une des critiques essentielles adressées à l’Insee portait sur les limites des comparaisons de moyenne par catégorie de territoire, qui masquent l’hétérogénéité au sein de chaque catégorie.

Je découvre aujourd’hui une nouvelle note de l’Insee, sur le même jeu de données mais sur un autre découpage géographique par EPCI (Etablissements Publics de Coopération Intercommunale), parmi lesquels on distingue les métropoles (ME) au nombre de 22, les Communautés Urbaines (CU) au nombre de 11, les Communautés d’Agglomérations (CA) au nombre de 221 et les Communautés de Communes(CC) au nombre de 1005, soit 1259 EPCI au total.

Cette nouvelle note est titrée « Démographie des EPCI : la croissance se concentre dans et au plus près des métropoles ». On y trouve des choses intéressantes (notamment les cartes), mais aussi, hélas, toujours les mêmes erreurs et approximations, qui conduisent à des conclusions contestables. Comme les données utilisées par l’Insee sont mises en ligne en annexe du document, j’ai pu me livrer à quelques traitements. Je vous propose de me concentrer sur un point pour illustrer mon propos : la comparaison par catégories d’EPCI du taux de variation annuel de la population sur la période 2011-2016, résumée notamment par le graphique ci-dessous.

(Il y aurait encore une fois des choses à dire pour éviter toute mauvaise interprétation : les métropoles dont il s’agit sont les métropoles instituées par la loi, qui ont peu à voir avec les métropoles au sens des économistes ou des géographes. On notera également que pour ceux qui considèrent que la seule vraie métropole française (au sens de Saskia Sassen par exemple), Paris, ne va pas très bien si l’on en juge par l’indicateur retenu, mais cet indicateur a-t-il seulement du sens ? Je passe).

Le cœur de mon propos est le suivant : une fois encore l’Insee propose des comparaisons de moyenne, mais oublie de s’interroger sur la dispersion au sein de chaque catégorie, que l’on peut mesurer par exemple par l’écart-type. Terme étrange pour beaucoup, mais finalement assez simple, qui correspond  à la moyenne des écarts à la moyenne : un écart-type important signale que c’est un peu le bazar au sein de la catégorie, un écart-type faible que c’est plutôt homogène (exemple pédagogique : pour une classe de lycée où tous les élèves ont 10 à une épreuve, la moyenne de la classe sera de 10 et l’écart-type de 0 ; pour une classe où la moitié des élèves a zéro et l’autre moitié a 20, la moyenne sera toujours de 10, mais l’écart-type sera de 10. Vous conviendrez que ces deux classes diffèrent sensiblement, ce que la moyenne ne montre pas, puisqu’elle est identique dans les deux cas). C’est vraiment facile de calculer ces écarts-types, voilà ce que ça donne.

Tableau 1 : moyenne et écart-type des taux de croissance de la population des EPCI, 2011-2016, non pondérés

EPCI Moyenne Ecart-type Nombre
CC          0.25          0.75        1 005
CA          0.36          0.64           221
CU          0.27          0.43             11
ME          0.60          0.55             22
Total          0.27          0.73        1 259

La moyenne simple des Métropoles est effectivement sensiblement supérieure à celle des autres catégories d’EPCI, mais l’écart-type de 0,55 est loin d’être négligeable, il est notamment supérieur à celui des Communautés Urbaines, qui sont donc moins hétérogènes. Réciproquement, pour les CC et les CA, l’importance des écarts-types suggère que si, en moyenne, leur croissance est plus faible, certaines présentent des taux de croissance très forts (bien plus forts que les plus dynamiques des ME en vérité) et d’autres très faibles. Dès lors, il n’est pas possible d’avancer une proposition générale du type « les métropoles sont plus dynamiques que les autres catégories de territoires », puisque cela dépend desquelles, idem pour chacune des catégories retenues, d’ailleurs.

On peut aller plus loin dans l’analyse, en faisant un peu d’économétrie, ce que tous les statisticiens de l’Insee savent faire, et sans doute mieux que moi, si bien que je me demande pourquoi ils ne le font pas. Plutôt que de calculer des moyennes par catégorie d’EPCI, il s’agit par exemple de procéder à des comparaisons de moyenne non pas par grande catégorie, mais en régressant le taux de croissance de la population 2011-2016 de chaque EPCI sur la catégorie à laquelle elle appartient. Ceci permet de savoir si les différences de moyenne observées entre catégories sont statistiquement significatives.

Je me suis livré à cet exercice et la conclusion est implacable : les différences de moyenne ne sont pas statistiquement significatives. Par rapport à la catégorie de référence « Communautés d’Agglomération », seule la catégorie « Communautés de Communes » présente un coefficient significativement plus faible et encore, loin du seuil de 1%. Pas de différence statistiquement significative aux seuils de 1, 5 ou 10%, en revanche, entre CA, CU et ME. On note de plus que cette typologie en EPCI n’explique quasiment rien des différences géographiques de taux de croissance, le R² étant de moins de 0,5% (ce qui signifie que cette typologie explique seulement 0,5% des différences observées, que donc d’autres choses en expliquent… 99,5%).

Pour les initiés, voici le tableau de résultat :

variable expliquée : taux de croissance 2011-2016 de la population par EPCI, données Insee

Coefficient écart-type t P>t
CA référence
CC –            0.11              0.05 –            1.99              0.05
CU –            0.08              0.22 –            0.37              0.71
ME              0.25              0.16              1.53              0.13
Constante              0.36              0.05              7.28                   –

Compte-tenu des données disponibles, on peut s’amuser à procéder à d’autres estimations. Si l’on régresse les taux de croissance non plus sur les catégories d’EPCI mais sur les populations de 2011, pour identifier un éventuel effet taille initiale de la population, on aboutit à la même conclusion : le modèle global est très mauvais (R² inférieur à 0,5%) et le coefficient associé à la taille initiale n’est pas significatif au seuil de 1%.

Comme on dispose également du département d’appartenance de la commune la plus peuplée de chaque EPCI, j’ai régressé les taux de croissance des EPCI sur ces départements. Cette fois les choses s’améliorent, le R² monte à 40% environ. Je pense que si l’on agrégeait par région, cela s’améliorerait encore un peu, car, comme les cartes le montrent, on voit bien que les dynamiques de population sont macro-régionales, avec un avantage aux territoires de l’Ouest et du Sud.

Je réitère donc mon conseil à l’Insee : présentez dans vos documents les écarts-types, et procédez en amont de vos commentaires à quelques régressions. Vos documents sont « grand public », ces calculs n’ont sans doute pas vocation à y figurer, mais cela vous permettrait de ne pas dire n’importe quoi, dans vos commentaires.

Bordeaux, une ville moyenne (la plus moyenne).

Comme promis, je vais écrire quelques billets en lien avec la sortie de mon dernier livre. Pas pour redire ce qu’il y a dedans, ce serait ballot : il faut que je maximise mes droits d’auteur. Plutôt pour faire des variations sur les mêmes thèmes.

Dans le chapitre trois (titré « des petits bouts de petits mondes ». J’adore ce titre. C’est mon préféré avec celui du chapitre de conclusion. Que je ne vous dirai pas. Cf. paragraphe précédent), j’insiste sur l’idée que pour comprendre les territoires, il faut repérer leurs spécialisations (les spécialisations des entreprises présentes, plutôt), voir comment ces entreprises s’insèrent dans des chaînes de valeur ajoutée de plus en plus fragmentées, s’interroger sur la qualité de leur spécialisation, etc.

Pour cela, on peut procéder de différentes manières. Dans l’ouvrage, j’insiste sur l’idée de commencer par regarder les activités plus présentes à tel endroit qu’ailleurs, l’hypothèse étant que ce ne doit pas être que le fruit du hasard. Puis de regarder plus précisément, en allant sur le terrain, quelles sont ces activités, ce que font les entreprises, comment elles sont positionnées sur leurs marchés.

Aujourd’hui, j’ai décidé de brasser autrement les statistiques, en comparant le profil global de spécialisation des territoires français par rapport à la moyenne France entière. L’idée est de repérer les territoires dont le profil est très atypique (ils sont spécialisés dans des secteurs beaucoup moins présents ailleurs) et d’autres territoires moins atypiques (le poids des différents secteurs est assez peu différent de ce qu’on observe en moyenne).

Pour cela, on peut s’appuyer sur l’indice de Krugman (n’ayez pas peur, c’est très simple) : on regarde ce que pèse chaque secteur d’activité dans une zone, on compare à ce qu’il pèse France entière, si à chaque fois le poids est le même, à la fin l’indice vaut 0%, si à l’inverse les poids sont très différents, il tend vers 100%. Plus l’indice est élevé, plus la zone est atypique, plus l’indice est faible, plus la zone est proche de la moyenne.

J’ai calculé ces indices à l’échelle des zones d’emploi (304 en France métropolitaine, ce découpage est intéressant car basé sur une variable économique : les déplacements domicile-travail, en gros une bonne partie des gens qui y habitent y travaillent aussi), sur des données en 88 secteurs d’activité (les spécialisations se jouent à des échelles sectorielles assez fines), pour l’ensemble des actifs occupés (données Insee clap 2013) et pour le sous-ensemble du secteur privé (données Acoss de 2008 à 2016).

Plusieurs constats :

  • les résultats sur l’ensemble de l’emploi (Insee) ou sur le sous-ensemble de l’emploi privé (Acoss) sont très bien corrélés (r=95%). L’introduction de l’emploi public ne modifie donc pas substantiellement les résultats sur les différences de spécialisation des territoires,
  • la moyenne et la médiane des indices sont cependant plus faibles quand on raisonne sur l’ensemble public + privé (moyenne et médiane de 24%) que si on se contente de regarder le privé (moyenne et médiane de 27%) : l’activité publique lisse donc un peu les différences de spécialisation, d’exposition aux chocs qui affectent tel ou tel secteur, donc,
  • je me suis amusé à regarder si le fait d’être très différent de la moyenne en termes de spécialisation, ou au contraire très proche de la moyenne, lors d’une année donnée (en l’occurrence en 2008) avait une incidence sur la croissance de l’emploi sur la période d’après (sur 2008-2016). La réponse est non, corrélation très faible (r=-12%) : des zones atypiques ont une bonne dynamique, d’autres non, et réciproquement.

Au-delà de ces constats généraux, l’idée était de voir quels étaient les territoires dont la structure de spécialisation était la plus proche de la moyenne France entière, et ceux dont la structure était la plus éloignée.

Sur les plus éloignées, on trouve Sablé-sur-Sarthe, indice de Krugman de 49% en 2008, et bonne dynamique : croissance de l’emploi privé de 9% entre 2008 et 2016. Juste derrière, même région, la Ferté-Bernard, indice de Krugman de 47%, mais mauvaise dynamique, baisse de 11% de l’emploi privé.

A l’autre extrême, la zone d’emploi la plus proche de la moyenne française, c’est Bordeaux : indice de 8% (bonne dynamique en même temps, 9%, identique à Sablé-Sur-Sarthe. Bordeaux et Sablé-sur-Sarthe, en termes de dynamique, sont donc très proches : le hasard statistico-politique).

Vous voulez savoir à quoi ressemble la France, en moyenne ? Regardez Bordeaux. Je l’avais constaté à l’échelle régionale, en analysant les différences de PIB par habitant et en les décomposant : en ex-Aquitaine, rien ne ressortait. L’ex-Aquitaine, c’est la France en plus petit.

Bordeaux est donc une ville moyenne. C’est même la plus moyenne des villes de France, sur l’aspect spécialisation. Ce qui n’est pas très grave : on peut être dynamique tout en étant moyen.

Pour compléter un peu, même si Bordeaux ressemble grave à la moyenne française, on peut détecter les secteurs qui contribuent le plus à cet indice de 8%, les secteurs qui s’écartent donc le plus du poids moyen de France métropolitaine. Pour Bordeaux, les deux secteurs les plus atypiques sont « cultures et production animale », d’une part, et « industries alimentaires », d’autre part. A eux deux (sur près de 90 secteurs), ils expliquent 27% de l’écart. Bordeaux ressemble étrangement à la France, mis à part le Bordeaux.