Covid 19, épisode 7 : la géographie des Ehpad

Une des limites des statistiques publiées quotidiennement par Santé Publique France est qu’elles ne recensent que les décès en hôpitaux, ce qui conduit à sous-estimer la mortalité de l’épidémie, car l’on sait qu’il existe aussi de nombreux décès en Ehpad (Établissements d’hébergement pour personnes âgées dépendantes) ou en ville. Ce biais devrait être partiellement éliminé avec la publication des chiffres des Ehpad,  même si ce n’est pas simple, vu le nombre de structures (près de 7 500).

Dans l’attente, je vous propose quelques éléments d’analyse de la géographie des personnes âgées, les plus exposées à l’épidémie, et des structures d’accueil. Pour cela, j’ai collecté des chiffres sur la population par tranches d’âge des départements en janvier 2020, ainsi que des chiffres sur les établissements d’accueil des personnes âgées (qui datent de 2017).

Premiers éléments de cadrage : on compte en France métropolitaine 26,6% de personnes de 60 ans et plus, et 9,5% de personnes de 75 ans et plus au 1er janvier 2020. Ces proportions varient cependant selon les départements, entre 6% pour le Val d’Oise ou la Seine et Marne à 15% pour le Lot ou la Creuse s’agissant des 75 ans et plus, soit un rapport de 2,5 pour 1 environ, et entre 19% et 39% (pour les mêmes départements) pour les plus de 60 ans.

J’ai construit une première carte qui représente à la fois la part des personnes de plus de 75 ans dans la population et le nombre de décès par département recensés par Santé publique France dans cette même population.

La géographie des décès et celle des personnes âgées sont pour l’instant très dissemblables, les décès se concentrant à l’est du pays, les personnes âgées étant plus présentes (en % de la population) à l’ouest et au sud.

S’agissant des structures d’accueil pour personnes âgées, l’Insee distingue les Ehpad, les maisons de retraite non Ehpad, les résidences autonomie, ainsi que le nombre de places en soins infirmiers à domicile et le nombre de lits en soin longue durée. On dénombre au total, France entière, fin 2017, plus de 600 000 places en Ehpad et près de 900 000 places toutes structures confondues. Je me concentre sur les places en Ehpad.

On constate que le nombre de places par habitant est assez bien corrélée au nombre de personnes de 75 ans et plus :

La relation est bonne, mais elle n’est pas parfaite : le « taux d’équipement » en Ehpad varie ainsi de 41 places pour mille personnes de 75 ans et plus à Paris à 169 places pour mille en Lozère. Ces différences ne sont cependant pas si simples à expliquer : certains départements, notamment dans le pourtour méditerranéen, ont des taux d’équipements en apparence faibles (74 pour mille dans le Var, 76 pour mille dans le Vaucluse), non pas parce qu’il y a peu de structures, mais parce qu’il y a une proportion encore plus forte, relativement à la moyenne, de personnes de 75 ans et plus. Dans d’autres cas, le taux d’équipement est fort car la construction d’hébergements pour personnes âgées a été vu comme un vecteur de développement économique local (en ex-Limousin par exemple).

Toujours est-il que la carte des places en Ehpad diffère un peu de la carte des personnes de 75 ans et plus (j’ai représenté sur la carte le nombre de places en Ehpad, et ce nombre pour 1000 personnes de 75 ans et plus) :

Sur la base de cette géographie des personnes âgées et des Ehpad, on peut s’interroger sur ce que vont nous apprendre les chiffres sur les décès dans ces structures : vont-ils concerner prioritairement les régions les plus touchées de l’est du pays, ce qui signifierait que l’épidémie reste principalement cantonnées dans ces régions, et qu’il convient de tout faire pour qu’elle ne s’étende pas ? Va-t-on assister à l’inverse à un « rééquilibrage » géographique, qui signifierait que la diffusion de l’épidémie vers l’ouest et le sud a été plus forte que ce que l’on imagine ? Impossible de répondre pour l’instant, mais on comprend que la réponse est essentielle.

Covid 19, épisode 6 : la diffusion spatiale de l’épidémie

Billet important aujourd’hui, sur la question de la diffusion spatiale de l’épidémie. Je vous propose de comparer trois pays : l’Espagne, la France et l’Italie.

Pour cela, j’ai collecté les données sur le nombre de décès par région pour la période commune aux trois bases de données, à savoir la période allant du 18 mars au 29 mars 2020. J’ai également collecté les mêmes données à l’échelle des départements, pour la France.

J’ai ensuite calculé un indicateur synthétique de concentration spatiale de la population, d’une part, et des décès, d’autre part. Les valeurs de l’indicateur varient entre 1 en cas de concentration maximale et 100 en cas de concentration minimale.

Voici un premier tableau de résultat, je vous explique ensuite comment le lire :

J’obtiens pour la population espagnole un indice de 50 : cela signifie que tous se passe comme si la population espagnole était concentré dans 50% des régions d’Espagne. Pour les décès en Espagne à la date du 18 mars, l’indice est de 12 (tout se passe comme si 12% des régions étaient concernées par les décès). Il est beaucoup plus faible, ce qui signifie que les décès sont beaucoup plus concentrés géographiquement que la population. On peut rapporter les deux indices (50/12), on obtient alors les ratios de la quatrième ligne, soit 4,2 pour l’Espagne : les décès sont en gros 4 fois plus concentrés que la population.

Qu’observe-t-on comme principaux résultats ?

  • les populations des trois pays sont répartis de manière relativement similaires entre leurs régions (indices compris entre 50 et 60),
  • toujours pour les régions, les décès à la date initiale sont entre 3 à 5 fois plus concentrés que les populations,
  • A l ‘échelle des départements français, la concentration spatiale de la population est plus faible (indice de 63), celle des décès est beaucoup plus forte (indice de 7), soit une concentration des décès près de 9 fois supérieure à celle de la population,
  • à l’échelle des régions, la concentration spatiale des décès diminue de manière assez sensible pour la France et l’Espagne, même si ils restent plus de deux fois plus concentrés que la population. L’évolution pour l’Italie est beaucoup plus faible, la diffusion spatiale des décès est donc moins marquée pour ce pays, ce qui peut s’expliquer par un confinement pus précoce et, en apparence, relativement efficace,
  • L’évolution pour les départements français est la plus marquée de toute, bien plus marquée que pour les régions françaises : cela signifie que le mouvement dominant pour la France correspond à une diffusion interdépartementale mais infra-régionale de l’épidémie.

Pour compléter l’analyse, j’ai construit un graphique qui retrace les indices de concentration spatiale des décès pour les trois pays, en prenant la date du 18/03/2020 comme indice base 100, ce qui permet de visualiser le profil d’évolution de la géographie des décès. On obtient le graphique suivant :

On retrouve logiquement les mêmes résultats (diffusion plus marquée pour l’Espagne et la France, très faible diffusion pour l’Italie), avec cependant un profil différent pour l’Espagne (hausse continue) et la France (hausse jusqu’au 23/03/2020 puis stabilité).

Pour finir, j’ai cartographié les décès à l’échelle des départements français à 3 dates (18/03, 23/03, 29/03). Sont représentés les indices qui rapportent pour chaque département le poids dans les décès au poids dans la population.

Les départements en blanc sont ceux qui n’ont connu qu’un nombre très limité de décès, leur nombre diminue fortement, signe de la diffusion de l’épidémie : pratiquement tous les département sont désormais concernés, mais de manière très hétérogène. Pour l’instant, la diffusion a surtout opéré au sein des régions Grand Est, Haut-de-France, Ile-de-France et Bourgogne Franche-Comté.

Covid 19, épisode 5 : géographie américaine et espagnole

En complément de mon billet d’hier sur les cas français et italiens, je vous propose des résultats pour l’Espagne et les Etats-Unis. j’ai trouvé et récupéré les données sur le covid 19 pour l’Espagne ici, et les données sur la population par région sur Eurostat. Pour les Etats-Unis, les données sur le Covid 19 sont disponibles ici, celles sur la population par Etat par là.

J’ai procédé de la même façon qu’hier : calcul du poids des régions dans l’ensemble de la population, dans l’ensemble des décès, puis rapport des deux indicateurs pour obtenir un indice qui se commente par rapport à la valeur de 1 : une valeur de 2, par exemple, signifie que la région considérée pèse deux fois plus dans les décès que dans la population (surmortalité), une valeur de 0,5 qu’elle pèse deux fois moins (sousmortalité). Les tableaux sont présentés plus bas.

J’ai également calculé des indicateurs synthétiques de concentration spatiale, pour pouvoir comparer les pays, je détaille un peu car il y a un petit nouveau : comme hier, j’ai calculé le poids de la première région dans l’ensemble des décès, notons le C1. J’ai également noté le poids des deux premières régions, notons le C2. Pour les comparaisons France, Italie et Espagne, cela ne pose pas de problème majeur, car le nombre de régions est à peu près le même (18 pour la France, 19 pour l’Espagne, 21 pour l’Italie). Cela change avec les 51 Etats américains. J’ai donc calculé un indicateur synthétique de concentration permettant de neutraliser le biais éventuel, dérivé de ce que l’on appelle l’indice d’Herfindahl (que je note EH), qui se lit comme suit : il varie entre 1% (concentration géographique maximale) et 100% (concentration géographique minimale).

Voilà ce que l’on obtient pour les quatre pays, à la date du 28 mars 2020 :

Etats-Unis Espagne France Italie
Nombre décès              2 026              6 528              2 314            10 023
C1 35.9% 45.2% 32.5% 59.3%
C2 45.2% 66.0% 62.2% 72.7%
EH 12% 19% 26% 13%

La concentration est relativement forte dans tous les pays, les valeurs les plus élevées sont observées pour les Etats-Unis et l’Italie, la valeur la moins élevée pour la France. Si le confinement fonctionne correctement dans les différents pays, on peut peut-être espérer maîtriser plus facilement la pandémie. On comprend également la nécessité d’une régulation nationale de l’offre de soin.

Je continue avec la présentation détaillée des résultats, pour l’Espagne d’abord :

Région

part de la région dans l’ensemble de la population

(1)

part de la région dans l’ensemble des décès

(2)

indice

(2)/(1)

Andalucía 18.0% 3.2%    0.18
Aragón 2.8% 1.4%    0.51
Principado de Asturias 2.2% 0.6%    0.29
Cantabria 1.2% 0.4%    0.32
Ceuta 0.2% 0.0%    0.08
Castilla y León 5.1% 5.8%    1.13
Castilla La Mancha 4.3% 8.3%    1.90
Canarias 4.7% 0.6%    0.13
Cataluña 16.1% 18.8%    1.17
Extremadura 2.3% 1.5%    0.67
Galicia 5.8% 0.9%    0.16
Islas Baleares 2.5% 0.4%    0.18
Región de Murcia 3.2% 0.3%    0.10
Comunidad de Madrid 14.2% 47.2%    3.34
Melilla 0.2% 0.0%    0.08
Comunidad Foral de Navarra 1.4% 1.3%    0.93
País Vasco 4.6% 4.1%    0.87
La Rioja 0.7% 1.0%    1.56
C. Valenciana 10.6% 4.1%    0.39

Comme pour la France et l’Italie, on observe une forte concentration géographique des décès, dans la région de Madrid en l’occurrence. Les deux premières régions en nombre absolu (région de Madrid et Catalogne) concentrent 66% des décès. A noter que l’indice de la Catalogne n’est pas parmi les plus élevés (Castilla la Mancha et la Rioja la devancent), mais comme cette région est très peuplée, elle pèse plus dans le nombre absolu de décès.

Pour les Etats-Unis, on obtient ce tableau :

Etat

part de l’Etat dans la population (%)

(1)

Part de l’Etat dans les décès (%)

(2)

indice

(2)/(1)

New York 5.9% 35.9%                                     6.06
Louisiana 1.4% 6.8%                                     4.77
Washington 2.3% 9.3%                                     4.00
Vermont 0.2% 0.6%                                     3.12
New Jersey 2.7% 6.9%                                     2.55
Michigan 3.0% 5.5%                                     1.80
Connecticut 1.1% 1.6%                                     1.50
Georgia 3.2% 3.4%                                     1.05
Massachusetts 2.1% 2.2%                                     1.03
District of Columbia 0.2% 0.2%                                     0.92
Colorado 1.8% 1.5%                                     0.87
Delaware 0.3% 0.2%                                     0.83
Indiana 2.1% 1.5%                                     0.75
Mississippi 0.9% 0.6%                                     0.71
Oklahoma 1.2% 0.7%                                     0.61
Illinois 3.9% 2.3%                                     0.60
Nevada 0.9% 0.5%                                     0.53
Oregon 1.3% 0.6%                                     0.50
Wisconsin 1.8% 0.8%                                     0.47
South Carolina 1.6% 0.7%                                     0.47
California 12.0% 5.4%                                     0.45
Alaska 0.2% 0.1%                                     0.44
Pennsylvania 3.9% 1.7%                                     0.43
Florida 6.5% 2.7%                                     0.41
Idaho 0.5% 0.2%                                     0.36
Ohio 3.6% 1.2%                                     0.35
Arizona 2.2% 0.7%                                     0.33
Kentucky 1.4% 0.4%                                     0.33
Rhode Island 0.3% 0.1%                                     0.31
Arkansas 0.9% 0.2%                                     0.27
Missouri 1.9% 0.5%                                     0.26
Virginia 2.6% 0.6%                                     0.25
New Hampshire 0.4% 0.1%                                     0.24
Kansas 0.9% 0.2%                                     0.22
North Dakota 0.2% 0.0%                                     0.21
South Dakota 0.3% 0.0%                                     0.18
Texas 8.8% 1.5%                                     0.17
Nebraska 0.6% 0.1%                                     0.17
Tennessee 2.1% 0.3%                                     0.17
Iowa 1.0% 0.1%                                     0.15
Montana 0.3% 0.0%                                     0.15
Minnesota 1.7% 0.2%                                     0.14
Maryland 1.8% 0.2%                                     0.13
Alabama 1.5% 0.2%                                     0.13
Maine 0.4% 0.0%                                     0.12
New Mexico 0.6% 0.0%                                     0.08
North Carolina 3.2% 0.2%                                     0.08
Utah 1.0% 0.0%                                     0.05
Hawaii 0.4% 0.0%                                          –
West Virginia 0.5% 0.0%                                          –
Wyoming 0.2% 0.0%                                          –

L’Etat de New-York concentre près de 36% des décès, soit plus de 6 fois ce qu’il pèse dans la population. Les deux premiers Etats en nombre absolu concentrent 45,2% des décès. La Californie, avec 110 décès, arrive en 6ème position en nombre absolu, mais bien en deçà pour l’indice.

Un enjeu pour les prochains jours/semaines : la concentration géographique de l’épidémie va-t-elle se maintenir ou se réduire ? Je vous présenterai quelques éléments de réponse demain je pense, pour le cas français au moins.

Covid 19, épisode 4 : une comparaison des géographies française et italienne

Petit billet pour explorer la géographie de l’épidémie de l’autre côté des Alpes, grâce à des données pour l’Italie disponibles ici.

Comme indiqué dans mon premier billet consacré au Covid 19, lorsque l’on brasse des données par territoire, il convient de rapporter le nombre de cas observés à la population pour neutraliser les différences de taille des territoires. J’ai donc récupéré les données sur les populations des régions italiennes sur Eurostat pour calculer le nombre de cas par habitant.

En rapportant les valeurs obtenues pour chaque région au résultat pour le pays dans son ensemble, on obtient un indice qui vaut 1 si la valeur de la région est la même que dans l’ensemble du pays, et une valeur supérieure à 1 si cette valeur est supérieure. Un indice de 2, par exemple, signifie que le ratio observé pour la région considérée est le double de celui observé en moyenne. Ou, dit d’une autre façon, que la région considérée pèse deux fois plus pour l’indicateur considéré que pour la population (c’est comme cela que je vais présenter les résultats). Je me concentre sur les données relatives aux décès cumulés observés à la date du 27 mars 2020.

Région part de la région dans la population nationale (%)
(1)
part de la région dans l’ensemble des décès (%)
(2)
indice

(2)/(1)

Lombardia 16.7% 59.1%                   3.5
Valle d’Aosta 0.2% 0.4%                   1.9
Emilia Romagna 7.4% 13.9%                   1.9
Marche 2.5% 3.7%                   1.5
Liguria 2.6% 3.6%                   1.4
P.A. Trento 0.9% 1.1%                   1.2
Piemonte 7.2% 6.2%                   0.9
P.A. Bolzano 0.9% 0.7%                   0.7
Veneto 8.1% 3.4%                   0.4
Friuli Venezia Giulia 2.0% 0.8%                   0.4
Abruzzo 2.2% 0.7%                   0.3
Toscana 6.2% 1.9%                   0.3
Molise 0.5% 0.1%                   0.2
Umbria 1.5% 0.2%                   0.2
Lazio 9.7% 1.3%                   0.1
Puglia 6.7% 0.8%                   0.1
Campania 9.6% 1.1%                   0.1
Sardegna 2.7% 0.2%                   0.1
Calabria 3.2% 0.2%                   0.1
Sicilia 8.3% 0.4%                   0.1
Basilicata 0.9% 0.0%                   0.0

La géographie de l’épidémie est fortement marquée, la Lombardie concentrant 59% des décès. Comme cette région concentre 17% des habitants, l’indice obtenu est de 3,5 : on observe 3,5 fois plus de décès dans cette région que ce que l’on observe pour l’Italie dans son ensemble.

L’Emilie-Romagne est dans une situation similaire (poids dans les décès supérieur au poids dans la population), mais moins marquée (indice « seulement » de 1,9). Le Piémont, en revanche, qui arrive en troisième position en termes de décès, présente un indice inférieur à 1.

En procédant de même à l’échelle des régions françaises, on obtient les résultats suivants :

Région part de la région dans la population nationale (%)
(1)
part de la région dans l’ensemble des décès

(2)

indice

(2)/(1)

Grand-Est 8.2% 32.9%                4.0
Corse 0.5% 1.0%                1.8
Bourgogne-Franche-Comté 4.1% 7.0%                1.7
Île-de-France 18.3% 29.0%                1.6
Hauts-de-France 8.9% 8.5%                0.9
Auvergne-Rhône-Alpes 12.0% 8.3%                0.7
Occitanie 8.8% 3.1%                0.3
Bretagne 5.0% 1.7%                0.3
Centre-Val de Loire 3.8% 1.3%                0.3
Provence-Alpes-Côte d’Azur 7.5% 2.4%                0.3
Pays de la Loire 5.7% 1.6%                0.3
Normandie 4.9% 1.2%                0.2
Nouvelle-Aquitaine 8.9% 2.1%                0.2
Martinique 0.5% 0.1%                0.1
Guadeloupe 0.6% 0.1%                0.1
Guyane 0.4% 0.0%                     –
La Réunion 1.3% 0.0%                     –
Mayotte 0.4% 0.0%                     –

Même si Grand Est concentre une part moins importante des décès que la Lombardie, son indice est encore supérieur. Les Hauts-de-France sont dans une situation similaire à celle du Piémont : nombre absolu de cas élevé mais, compte-tenu de la taille de cette région, l’indice reste inférieur à 1.

Dans le cas Italien comme dans le cas français, l’épidémie reste donc pour l’instant très concentrée géographiquement : 62% des décès sont situés dans les deux régions françaises les plus touchées (Grand Est et Ile-de-France), 73% dans le cas italien (Lombardie et Emilie-Romagne).

Covid 19, épisode 2 : géographie des propriétaires de résidence secondaire

Suite à l’annonce du confinement, certains habitants de grandes villes sont allés se réfugier dans leur résidence secondaire. J’ai entendu hier sur les ondes Stéphane Richard, PDG d’Orange, indiqué que la population de Paris avait baissé de 17% suite à l’annonce, pendant que celle de l’Ile de Ré avait augmenté de 30% (chiffres obtenus à partir de données de téléphonie mobile, voir ici).

Ouest France s’en est fait l’écho hier, en indiquant que plus de 150 000 personnes sont venus se réfugier en Pays de la Loire, principalement en Loire-Atlantique et en Vendée, en précisant qu’il est « Impossible d’affirmer d’où viennent ces dizaines de milliers de personnes » (source ici).

En fait, si, on peut savoir assez bien d’où ils viennent, en ressortant une de mes cartes préférées, extraite d’un article de Berroir et al. (2017),  » les systèmes urbains français : une approche relationnelle », Cybergéo, qui relie la localisation des résidences secondaires à la localisation des résidences principales de leurs propriétaires.

L’article présente la même carte en excluant Paris, qui montre qu’on peut croiser sur les plages vendéennes quelques touristes qui ne viennent pas d’Ile-de-France :

Il n’est donc pas exclu que la propagation du Covid 19 à venir soit en partie orientée par cette géographie des résidences secondaires…

Géographie du Covid 19

Petit billet sur la géographie régionale et départementale du Covid 19, suite à une insatisfaction avec la façon quotidienne de présenter les chiffres dans les médias, sous la forme du nombre absolu de personnes contaminées ou décédées. Ces nombres absolus ne sont pas satisfaisants, dès lors que la taille des entités analysées varient : on devrait logiquement observer un nombre plus grand de victimes dans une grande région, si l’épidémie touche de manière homogène tous les territoires.

Pour éviter ce biais, il convient de diviser le nombre de cas par la population du territoire, ce que je vous propose de faire. Plus précisément : j’ai rapporté le nombre de cas par habitant des régions au même ratio observé France entière. Dès lors, une valeur de mon indicateur de 1 signifie que le nombre de cas par habitant de la région en question est similaire au nombre de cas par habitant observé en moyenne en France ; une valeur supérieure à 1 que le ratio est supérieur, d’autant plus que la valeur est forte.

A ce « jeu », la région Grand Est est sans surprise la plus touchée, avec un indice de 2,69 pour le nombre de personnes contaminées en date du 23 mars 2020, suivie de la Corse (1,89) et de l’Ile-de-France (1,67). La région capitale reste donc moins touchée que Grand Est, même si le nombre absolu de cas observés est plus élevé (6211 contre 4256). Les régions les moins touchées de France métropolitaines sont les Pays de la Loire (indice de 0,27) et la Nouvelle-Aquitaine (indice de 0,40).

J’ai reproduit l’exercice avec le nombre de décès, à l’échelle des départements : les plus touchés relativement à la moyenne sont le Haut-Rhin (indice de 16,04), le Territoire de Belfort (13,35) et les Vosges (6,94).

Le dernier exercice auquel je me suis livré consiste à repérer la géographie départementale des personnes de 60 ans et plus, considérées comme les plus vulnérables face à l’épidémie, car cette géographie est assez marquée : la part des 60 ans et + varie en France métropolitaine de 39,3% dans le Doubs à 19,3% dans le Val d’Oise.

La géographie des décès et la géographie des personnes de 60 ans et + diffèrent sensiblement. Il n’est pas exclu qu’elles se rapprochent à mesure que l’épidémie se propage, et que les données collectées soient de meilleure qualité (jusqu’à présent les décès en Ephad ne sont pas comptabilisés par Santé publique France, cela devrait être le cas à partir de la semaine prochaine si j’ai bien compris).

Poitiers 2020 : saison 2, épisode 1 (les centres d’appels)

Poitiers est une ville qui vit pour une part importante de la fonction publique, quelle soit hospitalière (1er employeur : le CHU), territoriale (1er employeur : la ville de Poitiers) ou d’Etat (1er employeur : l’Université).

Si l’on regarde par exemple à l’échelle de l’Aire Urbaine le poids des 15 fonctions d’emploi rapporté au poids de ces fonctions France entière, ressortent les fonctions « administration publique » (indice de 1,4, c’est-à-dire que cette fonction pèse 40% de plus sur Poitiers que France entière, avec des effectifs au recensement 2014 de 14 107), « santé, action sociale » (indice de 1,2 ; effectifs de 13 363) et « éducation, formation » (indice de 1,2 ; effectifs de 6 856). L’agriculture s’intercale cependant avec un indice de 1,3 mais des effectifs plus faibles (2 228).

L’activité privée, pour autant, n’est pas absente. Notamment les activités des centres d’appels, d’où ce billet.

Pour évaluer le poids de cette activité, j’ai exploité les données Acoss (qui recensent l’ensemble des emplois privés hors agriculture) par zones d’emploi, dans le découpage sectoriel le plus fin disponible, la NAF 732. Il s’avère que le secteur privé qui emploie le plus de personnes sur la zone d’emploi de Poitiers est précisément le secteur « activités de centres d’appels », avec, en 2017, 2 640 personnes qui y travaillent. Cela représente 3,4% de l’ensemble de l’emploi privé de la zone.

Est-ce beaucoup ? Oui : France entière, ce secteur représente 0,29% de l’ensemble de l’emploi privé, dès lors, ce secteur pèse près de 12 fois plus sur Poitiers que ce qu’il pèse France entière.

On peut même regarder en valeur absolue pour se rendre compte de son importance : la zone d’emploi qui emploie le plus dans ce secteur, c’est logiquement Paris (qui pèse 25% de l’ensemble des emplois, cela n’a donc rien de surprenant), avec 6 096 emplois recensés. En 2ème position, arrive la zone d’emploi de … Poitiers. Devant Lens-Hénin (2 584), Lille (2 152), Bordeaux (2 066) et Marseille-Aubagne (1 596).

Je signale en passant que ce chiffre de 2 640 pour Poitiers ne capture qu’une partie des emplois des centres d’appels, ceux des entreprises enregistrées dans ce secteur, qui correspondent donc à ce que l’on appelle des centres d’appels externalisés. On trouve sur la zone également des centres d’appels internalisés, comptabilisés dans les effectifs des secteurs auxquelles appartiennent les entreprises en question, et j’en connais un certain nombre.

L’essentiel des emplois de ce secteur sont localisés sur la zone du Futuroscope, à proximité immédiate de Poitiers. Un nombre non négligeable de salariés réside sur Poitiers et travaille au Futuroscope, ce qui génère un flux lui-même non négligeable de déplacement domicile-travail, matin et soir.

La zone du Futuroscope, présentée par nombre de politiques comme une technopole —une sorte de Silicon Valley picto-charentaise— est donc avant tout dominée par cette activité, ce qui n’est ni bien, ni mal : c’est un fait.

Pour ceux qui pensent que ce secteur n’a pas d’avenir en France, je signale en passant que c’est l’un des secteurs les plus dynamiques en termes de création d’emploi, avec un taux de croissance de 31% entre 2007 et 2017 (dynamique plus faible sur la zone d’emploi de Poitiers : +6%).

Or : je crois que je n’ai jamais entendu un politique, quel que soit son bord, parler de ce secteur, ni des milliers de poitevins qui y travaillent (je prends tout élément de preuve permettant de me contredire). C’est pourtant l’activité privée phare du territoire.

D’autant plus que ce secteur, à l’image plutôt calamiteuse, est beaucoup plus hétérogène et complexe qu’on l’imagine. Nous avions travaillé dessus il y a quelques années, pour montrer notamment que l’idée que cette activité allait connaître un processus massif de délocalisation ne résistait pas à l’analyse (l’article est visible ici).

Elle fait sans doute moins rêver les politiques que les activités dites de haute technologie, ou les « startups », ou que sais-je encore, mais elle est là, et fait vivre de nombreuses personnes. S’intéresser à son fonctionnement, sa dynamique, aux salariés qui y travaillent, à comment ils se sentent, à leurs pratiques de déplacements, aux problèmes éventuels qu’ils rencontrent et/ou que rencontrent les entreprises, etc., me semble donc important, pour ne pas dire indispensable.

Les approximations de l’Insee : nouvel épisode

Dans mon dernier billet, j’ai analysé une note de l’Insee relative à l’évolution de la population par commune de 2011 à 2016 et à la façon (erronée) dont la presse s’en est fait l’écho. Une des critiques essentielles adressées à l’Insee portait sur les limites des comparaisons de moyenne par catégorie de territoire, qui masquent l’hétérogénéité au sein de chaque catégorie.

Je découvre aujourd’hui une nouvelle note de l’Insee, sur le même jeu de données mais sur un autre découpage géographique par EPCI (Etablissements Publics de Coopération Intercommunale), parmi lesquels on distingue les métropoles (ME) au nombre de 22, les Communautés Urbaines (CU) au nombre de 11, les Communautés d’Agglomérations (CA) au nombre de 221 et les Communautés de Communes(CC) au nombre de 1005, soit 1259 EPCI au total.

Cette nouvelle note est titrée « Démographie des EPCI : la croissance se concentre dans et au plus près des métropoles ». On y trouve des choses intéressantes (notamment les cartes), mais aussi, hélas, toujours les mêmes erreurs et approximations, qui conduisent à des conclusions contestables. Comme les données utilisées par l’Insee sont mises en ligne en annexe du document, j’ai pu me livrer à quelques traitements. Je vous propose de me concentrer sur un point pour illustrer mon propos : la comparaison par catégories d’EPCI du taux de variation annuel de la population sur la période 2011-2016, résumée notamment par le graphique ci-dessous.

(Il y aurait encore une fois des choses à dire pour éviter toute mauvaise interprétation : les métropoles dont il s’agit sont les métropoles instituées par la loi, qui ont peu à voir avec les métropoles au sens des économistes ou des géographes. On notera également que pour ceux qui considèrent que la seule vraie métropole française (au sens de Saskia Sassen par exemple), Paris, ne va pas très bien si l’on en juge par l’indicateur retenu, mais cet indicateur a-t-il seulement du sens ? Je passe).

Le cœur de mon propos est le suivant : une fois encore l’Insee propose des comparaisons de moyenne, mais oublie de s’interroger sur la dispersion au sein de chaque catégorie, que l’on peut mesurer par exemple par l’écart-type. Terme étrange pour beaucoup, mais finalement assez simple, qui correspond  à la moyenne des écarts à la moyenne : un écart-type important signale que c’est un peu le bazar au sein de la catégorie, un écart-type faible que c’est plutôt homogène (exemple pédagogique : pour une classe de lycée où tous les élèves ont 10 à une épreuve, la moyenne de la classe sera de 10 et l’écart-type de 0 ; pour une classe où la moitié des élèves a zéro et l’autre moitié a 20, la moyenne sera toujours de 10, mais l’écart-type sera de 10. Vous conviendrez que ces deux classes diffèrent sensiblement, ce que la moyenne ne montre pas, puisqu’elle est identique dans les deux cas). C’est vraiment facile de calculer ces écarts-types, voilà ce que ça donne.

Tableau 1 : moyenne et écart-type des taux de croissance de la population des EPCI, 2011-2016, non pondérés

EPCI Moyenne Ecart-type Nombre
CC          0.25          0.75        1 005
CA          0.36          0.64           221
CU          0.27          0.43             11
ME          0.60          0.55             22
Total          0.27          0.73        1 259

La moyenne simple des Métropoles est effectivement sensiblement supérieure à celle des autres catégories d’EPCI, mais l’écart-type de 0,55 est loin d’être négligeable, il est notamment supérieur à celui des Communautés Urbaines, qui sont donc moins hétérogènes. Réciproquement, pour les CC et les CA, l’importance des écarts-types suggère que si, en moyenne, leur croissance est plus faible, certaines présentent des taux de croissance très forts (bien plus forts que les plus dynamiques des ME en vérité) et d’autres très faibles. Dès lors, il n’est pas possible d’avancer une proposition générale du type « les métropoles sont plus dynamiques que les autres catégories de territoires », puisque cela dépend desquelles, idem pour chacune des catégories retenues, d’ailleurs.

On peut aller plus loin dans l’analyse, en faisant un peu d’économétrie, ce que tous les statisticiens de l’Insee savent faire, et sans doute mieux que moi, si bien que je me demande pourquoi ils ne le font pas. Plutôt que de calculer des moyennes par catégorie d’EPCI, il s’agit par exemple de procéder à des comparaisons de moyenne non pas par grande catégorie, mais en régressant le taux de croissance de la population 2011-2016 de chaque EPCI sur la catégorie à laquelle elle appartient. Ceci permet de savoir si les différences de moyenne observées entre catégories sont statistiquement significatives.

Je me suis livré à cet exercice et la conclusion est implacable : les différences de moyenne ne sont pas statistiquement significatives. Par rapport à la catégorie de référence « Communautés d’Agglomération », seule la catégorie « Communautés de Communes » présente un coefficient significativement plus faible et encore, loin du seuil de 1%. Pas de différence statistiquement significative aux seuils de 1, 5 ou 10%, en revanche, entre CA, CU et ME. On note de plus que cette typologie en EPCI n’explique quasiment rien des différences géographiques de taux de croissance, le R² étant de moins de 0,5% (ce qui signifie que cette typologie explique seulement 0,5% des différences observées, que donc d’autres choses en expliquent… 99,5%).

Pour les initiés, voici le tableau de résultat :

variable expliquée : taux de croissance 2011-2016 de la population par EPCI, données Insee

Coefficient écart-type t P>t
CA référence
CC –            0.11              0.05 –            1.99              0.05
CU –            0.08              0.22 –            0.37              0.71
ME              0.25              0.16              1.53              0.13
Constante              0.36              0.05              7.28                   –

Compte-tenu des données disponibles, on peut s’amuser à procéder à d’autres estimations. Si l’on régresse les taux de croissance non plus sur les catégories d’EPCI mais sur les populations de 2011, pour identifier un éventuel effet taille initiale de la population, on aboutit à la même conclusion : le modèle global est très mauvais (R² inférieur à 0,5%) et le coefficient associé à la taille initiale n’est pas significatif au seuil de 1%.

Comme on dispose également du département d’appartenance de la commune la plus peuplée de chaque EPCI, j’ai régressé les taux de croissance des EPCI sur ces départements. Cette fois les choses s’améliorent, le R² monte à 40% environ. Je pense que si l’on agrégeait par région, cela s’améliorerait encore un peu, car, comme les cartes le montrent, on voit bien que les dynamiques de population sont macro-régionales, avec un avantage aux territoires de l’Ouest et du Sud.

Je réitère donc mon conseil à l’Insee : présentez dans vos documents les écarts-types, et procédez en amont de vos commentaires à quelques régressions. Vos documents sont « grand public », ces calculs n’ont sans doute pas vocation à y figurer, mais cela vous permettrait de ne pas dire n’importe quoi, dans vos commentaires.

Les journalistes racontent n’importe quoi (mais c’est un peu la faute de l’Insee)

L’Insee vient de publier les chiffres de la population 2016 par commune et en a profité pour mettre en ligne une étude France entière et des études par région sur l’évolution de la population 2011-2016, comparée à la période 2006-2011. L’étude France entière s’intitule « Entre 2011 et 2016, les grandes aires urbaines portent la croissance démographique française », vous la trouverez ici.

La presse s’en est fait l’écho, et le moins qu’on puisse dire, c’est que certains racontent n’importe quoi. Mon sentiment : c’est en partie la faute de l’Insee et en partie en lien avec le déficit de formation en statistique des journalistes. La prise de Came ne doit pas être totalement étrangère au problème, également.

Reuters, les métropoles et les grandes aires urbaines : un problème de vocabulaire

Premier exemple, un article de Reuters intitulé « Les métropoles polarisent la population mais Paris se vide », où l’on peut lire ceci :

En écho au mouvement des “Gilets jaunes” parfois présenté comme la confrontation entre la France rurale et des villes petites et moyennes et celle des grandes métropoles, cette étude souligne que la croissance des grandes aires urbaines a porté la croissance démographique de la France entre 2011 et 2016.

Où est le problème ? Dans le vocabulaire. L’Insee brasse des statistiques par aire urbaine (771 France entière) et distingue, parmi elles, les grandes aires urbaines, dont vous trouverez la définition, plutôt complexe, ici : « un ensemble de communes, d’un seul tenant et sans enclave, constitué par un pôle urbain (unité urbaine) de plus de 10000 emplois, et par des communes rurales ou unités urbaines (couronne périurbaine) dont au moins 40 % de la population résidente ayant un emploi travaille dans le pôle ou dans des communes attirées par celui-ci ».

Reuters considère que grande aire urbaine = métropole. Peut-on vraiment les en blâmer ? Sans doute pas, d’où mon sentiment que l’Insee, pour le coup, est fautif. En effet, les grandes aires urbaines sont au nombre de 241. On y trouve Paris, Lyon et Marseille, bien sûr, mais aussi Ancenis (10 000 habitants), les Herbiers (19 000), Figeac (26 000), etc. Bref, beaucoup de villes que la plupart d’entre vous considèrent, à juste titre, comme moyennes voire petites.

Elles concentrent 78% de la population en 2016 d’après les chiffres de l’Insee. On trouve en leur sein, comme précisé dans la définition, de nombreuses communes rurales, si bien qu’avoir choisi le terme d’aires urbaines pour parler de territoires composés en partie d’espaces à faible ou très faible densité, c’est moyen… Cela laisse penser que le « rural » se réduit à peau de chagrin (4,5% de la population hors influence des aires urbaines si l’on retient la typologie de l’Insee), ce qui est pour le moins contestable, comme expliqué en détail ici.

Les statistiques, la Croix et la bannière

Deuxième exemple, un article de la Croix intitulé « La banlieue attire de moins en moins d’habitants », où l’on peut lire en sous-titre de la photo « les périphéries des grandes villes se vident au profit des « grands pôles urbains » de plus de 300 000 habitants » et dans le corps du texte : « les villes de banlieues attirent de moins en moins, au profit des centres-villes… qui se repeuplent » [Edit 29/12 : le journaliste de la Croix m’a écrit pour m’indiquer qu’il avait modifié la légende de la photo suite à la lecture de mon billet].

Petite devinette pour comprendre l’erreur : Pierre et Jacques font la course, qui consiste à faire deux fois le tour d’un stade. Pierre va beaucoup plus vite que Jacques lors du premier tour de piste (disons 4 fois plus vite). Lors du deuxième tour, Pierre ralentit alors que Jacques maintient son allure, de telle sorte que maintenant, Pierre ne court pas 4 fois plus vite que Jacques, mais seulement deux fois plus vite. Question : lors du deuxième tour, qui va plus vite, Pierre ou Jacques ?

Question stupide, n’est-ce pas ? Pas tant : les journalistes de la Croix se sont plantés dans la réponse, en tout cas. Ce que montre l’Insee, en effet, ce n’est pas que les grands pôles urbains (les « centre-villes » pour la Croix) croissent plus vite que leur couronne (les « banlieues » pour la Croix), elles croissent toujours moins vite (0,4% pour les premières contre 0,8% pour les dernières), mais l’écart s’est réduit, le taux de croissance n’est plus que 2 fois supérieur, contre 4 fois supérieur entre 2006 et 2011 (0,3% contre 1,2%), d’où mon exemple. Donc affirmer que les périphéries se vident au profit des grands pôles urbains, comment dire…

Des commentaires moyens sur les moyennes

Le vocabulaire associé à la typologie de l’Insee me semble très critiquable, je l’ai dit. Le fait ensuite de comparer des moyennes par paquet d’aires urbaines l’est tout autant, car il masque l’hétérogénéité au sein de chaque catégorie.

Quand l’Insee affirme que les grandes aires urbaines portent la croissance de la population entre 2006 et 2011, c’est parce que cette catégorie a connu un taux de croissance de 0,5% en moyenne, contre 0,4% France entière. Sauf que les taux varient, au sein de cette catégorie, entre -1,6% et +2,6%.

Si l’on restreint aux 20 plus grandes aires urbaines, ce qui correspond sans doute mieux à ce que l’on pense être les « métropoles », idem, ça varie beaucoup, comme le montre ce graphique tiré du document :

Vous remarquerez que parmi les 20 plus grandes aires urbaines, 11 ont un taux de croissance de la population inférieur ou égal au taux de croissance France entière (0,4%)… (En complément, je me suis amusé, à partir des données mises en ligne, à tester le lien entre la taille des départements et leur taux de croissance, j’ai fait de même pour les 241 grandes aires urbaines, cela ne donne rien, on ne trouve pas d’effet taille).

Petite recommandation à l’Insee, de ce fait : quand vous présentez des moyennes dans un tableau, indiquez également l’écart-type. Faites des petits tests de comparaison de moyenne, également, pour éviter des commentaires trop rapides.

La Came, encore et toujours…

S’intéresser à la géographie des taux de croissance de la population n’est pas totalement inutile. Mais il faut toujours faire attention aux catégories et aux indicateurs que l’on utilise. A ce titre, ce que montrent avant tout les chiffres publiés par l’Insee, c’est qu’on retrouve plutôt des dynamiques macro-régionales, avec des territoires (grands, moyens et petits) dynamiques à l’Ouest et au Sud, et d’autres (grands, moyens et petits) moins dynamiques dans un grand quart Nord-Est. Quand l’Insee affirme ensuite que « la proximité d’une grande métropole favorise la croissance de population départementale », ça manque d’éléments de preuve : je ne suis pas sûr que la dynamique vendéenne soit lié à la proximité de Nantes, ni que la Haute-Savoie croisse en lien avec Lyon…

Mais même cet exercice de comparaison de taux de croissance est critiquable : plus ou moins consciemment, on considère qu’un territoire qui connaît une croissance de la population plus forte va bien, et que celui qui connaît une croissance plus faible va mal. Or, la croissance forte observée à Bordeaux, Nantes, Montpellier, …, n’est pas sans poser problème en terme d’effets de congestion et de montée du prix du foncier, je ne suis pas sûr qu’un territoire moins « dynamique » soit en plus mauvaise position et que sa situation soit moins enviable…

Comparer les taux de croissance, enfin, c’est considérer, là encore plus ou moins consciemment, que les territoires sont en concurrence les uns avec les autres dans le cadre d’une sorte de tournoi de foot. Or, ce n’est pas le cas, les territoires sont traversés par des processus socio-économiques, des interdépendances qui les dépassent, qu’il faut identifier, et s’interroger sur la façon de mieux régler les problèmes que cela pose.

Je fais le vœu que l’année 2019 soit sous le signe de la cohésion des territoires, plutôt que sous celui, calamiteux, de la concurrence entre eux. Cela passe par des réflexions sur la façon dont on les regarde, et sur les représentations qui sous-tendent notre regard.

Variations sur les variations

Suite à mon dernier post, où je montrais notamment que la croissance de l’emploi était plus forte aux Herbiers qu’à Paris, le commentaire suivant a été posté sur Linkedin :

Pour me faire l’avocate de la partie adverse : peut-on vraiment comparer les taux de croissance de deux zones de taille si différente ? 1000 emplois créés aux Herbiers ça vous booste le taux de croissance (parce que c’est beaucoup par rapport au stock d’emplois initial), alors que c’est quasi invisible dans le taux de croissance parisien…

Ce n’est pas la première fois que l’on me fait cette remarque. J’ai donc posté sur twitter un sondage, voici le résultat :

Plus de 80% des sondés répondent le territoire A. La variation absolue est la même (création de 20 emplois pour chaque territoire), mais la variation relative est bien supérieure en A : taux de croissance de l’emploi de 20% en A et de seulement 0,4% en B. Or, ce qui compte, c’est bien la variation relative, donc la majorité a raison.

Pourquoi ? Parce qu’une partie de l’activité économique est liée à la population présente. Petit exemple pour le comprendre : supposons que pour vivre correctement, un coiffeur a besoin de 10 clients par jour et que la population se rend deux fois par mois chez le coiffeur. Supposons en outre qu’aucun résident ne dispose des compétences de base pour vous coiffer. En A, cela va « attirer » 1 coiffeur (100 personnes, 2 rendez-vous par mois, répartis sur 20 jours ouvrables : (100*2)/20= 10 clients par jour en moyenne, soit de quoi faire vivre un coiffeur). En B, 50 ((5000*2)/20=500, soit potentiellement 50 coiffeurs). Soit, un passage de 100 à 101 personnes en A, et de 5000 à 5050 en B. Variation absolue supérieure en B, mais taux de croissance similaires (1%).

Une autre partie de la croissance n’est pas liée à la population, mais à la capacité des acteurs à vendre des produits à des consommateurs localisés hors de leur territoire. Si la probabilité de créer une telle entreprise performante est la même pour tous les territoires, on observera un nombre d’entreprises performantes proportionnel, une fois encore, à la taille initiale des territoires.

Cette relation de proportionnalité n’est pas toujours vérifiée : dans certains cas, la grande taille confère un avantage, dans d’autres cas, elle pénalise. Pour le savoir, on peut par exemple estimer des lois d’échelle (voir mon dernier article pour un exemple d’application) :

e=αpβ

Avec e l’emploi, p la population, α et β des paramètres à estimer. Si l’emploi est strictement proportionnel à la taille de la population, β est égal à 1. C’est le cas avec mon exemple des coiffeurs (α étant quant à lui égal à 1%).Si β est supérieur à 1, cela signifie que l’emploi est plus que proportionnel à la taille des territoires, on parlera d’économies d’agglomération ; symétriquement, si β est inférieur à 1, on parlera de déséconomies d’agglomération.

Dès lors, ceux qui pensent qu’il est plus facile de créer de l’emploi au sein de territoires de plus petites tailles font l’hypothèse, sans s’en rendre compte je pense, que β est inférieur à 1, donc qu’il existerait des déséconomies d’agglomération. Dans les faits, cela dépend des activités : la recherche, par exemple, est surreprésentée dans le haut de la hiérarchie urbaine, alors que l’agriculture et l’industrie y sont sous-représentées.

Au final, Les Herbiers sont donc bien plus performants que Paris, sans que l’on puisse affirmer que cela est plus facile pour eux.