Covid 19, épisode 7 : la géographie des Ehpad

Une des limites des statistiques publiées quotidiennement par Santé Publique France est qu’elles ne recensent que les décès en hôpitaux, ce qui conduit à sous-estimer la mortalité de l’épidémie, car l’on sait qu’il existe aussi de nombreux décès en Ehpad (Établissements d’hébergement pour personnes âgées dépendantes) ou en ville. Ce biais devrait être partiellement éliminé avec la publication des chiffres des Ehpad,  même si ce n’est pas simple, vu le nombre de structures (près de 7 500).

Dans l’attente, je vous propose quelques éléments d’analyse de la géographie des personnes âgées, les plus exposées à l’épidémie, et des structures d’accueil. Pour cela, j’ai collecté des chiffres sur la population par tranches d’âge des départements en janvier 2020, ainsi que des chiffres sur les établissements d’accueil des personnes âgées (qui datent de 2017).

Premiers éléments de cadrage : on compte en France métropolitaine 26,6% de personnes de 60 ans et plus, et 9,5% de personnes de 75 ans et plus au 1er janvier 2020. Ces proportions varient cependant selon les départements, entre 6% pour le Val d’Oise ou la Seine et Marne à 15% pour le Lot ou la Creuse s’agissant des 75 ans et plus, soit un rapport de 2,5 pour 1 environ, et entre 19% et 39% (pour les mêmes départements) pour les plus de 60 ans.

J’ai construit une première carte qui représente à la fois la part des personnes de plus de 75 ans dans la population et le nombre de décès par département recensés par Santé publique France dans cette même population.

La géographie des décès et celle des personnes âgées sont pour l’instant très dissemblables, les décès se concentrant à l’est du pays, les personnes âgées étant plus présentes (en % de la population) à l’ouest et au sud.

S’agissant des structures d’accueil pour personnes âgées, l’Insee distingue les Ehpad, les maisons de retraite non Ehpad, les résidences autonomie, ainsi que le nombre de places en soins infirmiers à domicile et le nombre de lits en soin longue durée. On dénombre au total, France entière, fin 2017, plus de 600 000 places en Ehpad et près de 900 000 places toutes structures confondues. Je me concentre sur les places en Ehpad.

On constate que le nombre de places par habitant est assez bien corrélée au nombre de personnes de 75 ans et plus :

La relation est bonne, mais elle n’est pas parfaite : le « taux d’équipement » en Ehpad varie ainsi de 41 places pour mille personnes de 75 ans et plus à Paris à 169 places pour mille en Lozère. Ces différences ne sont cependant pas si simples à expliquer : certains départements, notamment dans le pourtour méditerranéen, ont des taux d’équipements en apparence faibles (74 pour mille dans le Var, 76 pour mille dans le Vaucluse), non pas parce qu’il y a peu de structures, mais parce qu’il y a une proportion encore plus forte, relativement à la moyenne, de personnes de 75 ans et plus. Dans d’autres cas, le taux d’équipement est fort car la construction d’hébergements pour personnes âgées a été vu comme un vecteur de développement économique local (en ex-Limousin par exemple).

Toujours est-il que la carte des places en Ehpad diffère un peu de la carte des personnes de 75 ans et plus (j’ai représenté sur la carte le nombre de places en Ehpad, et ce nombre pour 1000 personnes de 75 ans et plus) :

Sur la base de cette géographie des personnes âgées et des Ehpad, on peut s’interroger sur ce que vont nous apprendre les chiffres sur les décès dans ces structures : vont-ils concerner prioritairement les régions les plus touchées de l’est du pays, ce qui signifierait que l’épidémie reste principalement cantonnées dans ces régions, et qu’il convient de tout faire pour qu’elle ne s’étende pas ? Va-t-on assister à l’inverse à un « rééquilibrage » géographique, qui signifierait que la diffusion de l’épidémie vers l’ouest et le sud a été plus forte que ce que l’on imagine ? Impossible de répondre pour l’instant, mais on comprend que la réponse est essentielle.

Covid 19, épisode 6 : la diffusion spatiale de l’épidémie

Billet important aujourd’hui, sur la question de la diffusion spatiale de l’épidémie. Je vous propose de comparer trois pays : l’Espagne, la France et l’Italie.

Pour cela, j’ai collecté les données sur le nombre de décès par région pour la période commune aux trois bases de données, à savoir la période allant du 18 mars au 29 mars 2020. J’ai également collecté les mêmes données à l’échelle des départements, pour la France.

J’ai ensuite calculé un indicateur synthétique de concentration spatiale de la population, d’une part, et des décès, d’autre part. Les valeurs de l’indicateur varient entre 1 en cas de concentration maximale et 100 en cas de concentration minimale.

Voici un premier tableau de résultat, je vous explique ensuite comment le lire :

J’obtiens pour la population espagnole un indice de 50 : cela signifie que tous se passe comme si la population espagnole était concentré dans 50% des régions d’Espagne. Pour les décès en Espagne à la date du 18 mars, l’indice est de 12 (tout se passe comme si 12% des régions étaient concernées par les décès). Il est beaucoup plus faible, ce qui signifie que les décès sont beaucoup plus concentrés géographiquement que la population. On peut rapporter les deux indices (50/12), on obtient alors les ratios de la quatrième ligne, soit 4,2 pour l’Espagne : les décès sont en gros 4 fois plus concentrés que la population.

Qu’observe-t-on comme principaux résultats ?

  • les populations des trois pays sont répartis de manière relativement similaires entre leurs régions (indices compris entre 50 et 60),
  • toujours pour les régions, les décès à la date initiale sont entre 3 à 5 fois plus concentrés que les populations,
  • A l ‘échelle des départements français, la concentration spatiale de la population est plus faible (indice de 63), celle des décès est beaucoup plus forte (indice de 7), soit une concentration des décès près de 9 fois supérieure à celle de la population,
  • à l’échelle des régions, la concentration spatiale des décès diminue de manière assez sensible pour la France et l’Espagne, même si ils restent plus de deux fois plus concentrés que la population. L’évolution pour l’Italie est beaucoup plus faible, la diffusion spatiale des décès est donc moins marquée pour ce pays, ce qui peut s’expliquer par un confinement pus précoce et, en apparence, relativement efficace,
  • L’évolution pour les départements français est la plus marquée de toute, bien plus marquée que pour les régions françaises : cela signifie que le mouvement dominant pour la France correspond à une diffusion interdépartementale mais infra-régionale de l’épidémie.

Pour compléter l’analyse, j’ai construit un graphique qui retrace les indices de concentration spatiale des décès pour les trois pays, en prenant la date du 18/03/2020 comme indice base 100, ce qui permet de visualiser le profil d’évolution de la géographie des décès. On obtient le graphique suivant :

On retrouve logiquement les mêmes résultats (diffusion plus marquée pour l’Espagne et la France, très faible diffusion pour l’Italie), avec cependant un profil différent pour l’Espagne (hausse continue) et la France (hausse jusqu’au 23/03/2020 puis stabilité).

Pour finir, j’ai cartographié les décès à l’échelle des départements français à 3 dates (18/03, 23/03, 29/03). Sont représentés les indices qui rapportent pour chaque département le poids dans les décès au poids dans la population.

Les départements en blanc sont ceux qui n’ont connu qu’un nombre très limité de décès, leur nombre diminue fortement, signe de la diffusion de l’épidémie : pratiquement tous les département sont désormais concernés, mais de manière très hétérogène. Pour l’instant, la diffusion a surtout opéré au sein des régions Grand Est, Haut-de-France, Ile-de-France et Bourgogne Franche-Comté.

Covid 19, épisode 5 : géographie américaine et espagnole

En complément de mon billet d’hier sur les cas français et italiens, je vous propose des résultats pour l’Espagne et les Etats-Unis. j’ai trouvé et récupéré les données sur le covid 19 pour l’Espagne ici, et les données sur la population par région sur Eurostat. Pour les Etats-Unis, les données sur le Covid 19 sont disponibles ici, celles sur la population par Etat par là.

J’ai procédé de la même façon qu’hier : calcul du poids des régions dans l’ensemble de la population, dans l’ensemble des décès, puis rapport des deux indicateurs pour obtenir un indice qui se commente par rapport à la valeur de 1 : une valeur de 2, par exemple, signifie que la région considérée pèse deux fois plus dans les décès que dans la population (surmortalité), une valeur de 0,5 qu’elle pèse deux fois moins (sousmortalité). Les tableaux sont présentés plus bas.

J’ai également calculé des indicateurs synthétiques de concentration spatiale, pour pouvoir comparer les pays, je détaille un peu car il y a un petit nouveau : comme hier, j’ai calculé le poids de la première région dans l’ensemble des décès, notons le C1. J’ai également noté le poids des deux premières régions, notons le C2. Pour les comparaisons France, Italie et Espagne, cela ne pose pas de problème majeur, car le nombre de régions est à peu près le même (18 pour la France, 19 pour l’Espagne, 21 pour l’Italie). Cela change avec les 51 Etats américains. J’ai donc calculé un indicateur synthétique de concentration permettant de neutraliser le biais éventuel, dérivé de ce que l’on appelle l’indice d’Herfindahl (que je note EH), qui se lit comme suit : il varie entre 1% (concentration géographique maximale) et 100% (concentration géographique minimale).

Voilà ce que l’on obtient pour les quatre pays, à la date du 28 mars 2020 :

Etats-Unis Espagne France Italie
Nombre décès              2 026              6 528              2 314            10 023
C1 35.9% 45.2% 32.5% 59.3%
C2 45.2% 66.0% 62.2% 72.7%
EH 12% 19% 26% 13%

La concentration est relativement forte dans tous les pays, les valeurs les plus élevées sont observées pour les Etats-Unis et l’Italie, la valeur la moins élevée pour la France. Si le confinement fonctionne correctement dans les différents pays, on peut peut-être espérer maîtriser plus facilement la pandémie. On comprend également la nécessité d’une régulation nationale de l’offre de soin.

Je continue avec la présentation détaillée des résultats, pour l’Espagne d’abord :

Région

part de la région dans l’ensemble de la population

(1)

part de la région dans l’ensemble des décès

(2)

indice

(2)/(1)

Andalucía 18.0% 3.2%    0.18
Aragón 2.8% 1.4%    0.51
Principado de Asturias 2.2% 0.6%    0.29
Cantabria 1.2% 0.4%    0.32
Ceuta 0.2% 0.0%    0.08
Castilla y León 5.1% 5.8%    1.13
Castilla La Mancha 4.3% 8.3%    1.90
Canarias 4.7% 0.6%    0.13
Cataluña 16.1% 18.8%    1.17
Extremadura 2.3% 1.5%    0.67
Galicia 5.8% 0.9%    0.16
Islas Baleares 2.5% 0.4%    0.18
Región de Murcia 3.2% 0.3%    0.10
Comunidad de Madrid 14.2% 47.2%    3.34
Melilla 0.2% 0.0%    0.08
Comunidad Foral de Navarra 1.4% 1.3%    0.93
País Vasco 4.6% 4.1%    0.87
La Rioja 0.7% 1.0%    1.56
C. Valenciana 10.6% 4.1%    0.39

Comme pour la France et l’Italie, on observe une forte concentration géographique des décès, dans la région de Madrid en l’occurrence. Les deux premières régions en nombre absolu (région de Madrid et Catalogne) concentrent 66% des décès. A noter que l’indice de la Catalogne n’est pas parmi les plus élevés (Castilla la Mancha et la Rioja la devancent), mais comme cette région est très peuplée, elle pèse plus dans le nombre absolu de décès.

Pour les Etats-Unis, on obtient ce tableau :

Etat

part de l’Etat dans la population (%)

(1)

Part de l’Etat dans les décès (%)

(2)

indice

(2)/(1)

New York 5.9% 35.9%                                     6.06
Louisiana 1.4% 6.8%                                     4.77
Washington 2.3% 9.3%                                     4.00
Vermont 0.2% 0.6%                                     3.12
New Jersey 2.7% 6.9%                                     2.55
Michigan 3.0% 5.5%                                     1.80
Connecticut 1.1% 1.6%                                     1.50
Georgia 3.2% 3.4%                                     1.05
Massachusetts 2.1% 2.2%                                     1.03
District of Columbia 0.2% 0.2%                                     0.92
Colorado 1.8% 1.5%                                     0.87
Delaware 0.3% 0.2%                                     0.83
Indiana 2.1% 1.5%                                     0.75
Mississippi 0.9% 0.6%                                     0.71
Oklahoma 1.2% 0.7%                                     0.61
Illinois 3.9% 2.3%                                     0.60
Nevada 0.9% 0.5%                                     0.53
Oregon 1.3% 0.6%                                     0.50
Wisconsin 1.8% 0.8%                                     0.47
South Carolina 1.6% 0.7%                                     0.47
California 12.0% 5.4%                                     0.45
Alaska 0.2% 0.1%                                     0.44
Pennsylvania 3.9% 1.7%                                     0.43
Florida 6.5% 2.7%                                     0.41
Idaho 0.5% 0.2%                                     0.36
Ohio 3.6% 1.2%                                     0.35
Arizona 2.2% 0.7%                                     0.33
Kentucky 1.4% 0.4%                                     0.33
Rhode Island 0.3% 0.1%                                     0.31
Arkansas 0.9% 0.2%                                     0.27
Missouri 1.9% 0.5%                                     0.26
Virginia 2.6% 0.6%                                     0.25
New Hampshire 0.4% 0.1%                                     0.24
Kansas 0.9% 0.2%                                     0.22
North Dakota 0.2% 0.0%                                     0.21
South Dakota 0.3% 0.0%                                     0.18
Texas 8.8% 1.5%                                     0.17
Nebraska 0.6% 0.1%                                     0.17
Tennessee 2.1% 0.3%                                     0.17
Iowa 1.0% 0.1%                                     0.15
Montana 0.3% 0.0%                                     0.15
Minnesota 1.7% 0.2%                                     0.14
Maryland 1.8% 0.2%                                     0.13
Alabama 1.5% 0.2%                                     0.13
Maine 0.4% 0.0%                                     0.12
New Mexico 0.6% 0.0%                                     0.08
North Carolina 3.2% 0.2%                                     0.08
Utah 1.0% 0.0%                                     0.05
Hawaii 0.4% 0.0%                                          –
West Virginia 0.5% 0.0%                                          –
Wyoming 0.2% 0.0%                                          –

L’Etat de New-York concentre près de 36% des décès, soit plus de 6 fois ce qu’il pèse dans la population. Les deux premiers Etats en nombre absolu concentrent 45,2% des décès. La Californie, avec 110 décès, arrive en 6ème position en nombre absolu, mais bien en deçà pour l’indice.

Un enjeu pour les prochains jours/semaines : la concentration géographique de l’épidémie va-t-elle se maintenir ou se réduire ? Je vous présenterai quelques éléments de réponse demain je pense, pour le cas français au moins.

Covid 19, épisode 4 : une comparaison des géographies française et italienne

Petit billet pour explorer la géographie de l’épidémie de l’autre côté des Alpes, grâce à des données pour l’Italie disponibles ici.

Comme indiqué dans mon premier billet consacré au Covid 19, lorsque l’on brasse des données par territoire, il convient de rapporter le nombre de cas observés à la population pour neutraliser les différences de taille des territoires. J’ai donc récupéré les données sur les populations des régions italiennes sur Eurostat pour calculer le nombre de cas par habitant.

En rapportant les valeurs obtenues pour chaque région au résultat pour le pays dans son ensemble, on obtient un indice qui vaut 1 si la valeur de la région est la même que dans l’ensemble du pays, et une valeur supérieure à 1 si cette valeur est supérieure. Un indice de 2, par exemple, signifie que le ratio observé pour la région considérée est le double de celui observé en moyenne. Ou, dit d’une autre façon, que la région considérée pèse deux fois plus pour l’indicateur considéré que pour la population (c’est comme cela que je vais présenter les résultats). Je me concentre sur les données relatives aux décès cumulés observés à la date du 27 mars 2020.

Région part de la région dans la population nationale (%)
(1)
part de la région dans l’ensemble des décès (%)
(2)
indice

(2)/(1)

Lombardia 16.7% 59.1%                   3.5
Valle d’Aosta 0.2% 0.4%                   1.9
Emilia Romagna 7.4% 13.9%                   1.9
Marche 2.5% 3.7%                   1.5
Liguria 2.6% 3.6%                   1.4
P.A. Trento 0.9% 1.1%                   1.2
Piemonte 7.2% 6.2%                   0.9
P.A. Bolzano 0.9% 0.7%                   0.7
Veneto 8.1% 3.4%                   0.4
Friuli Venezia Giulia 2.0% 0.8%                   0.4
Abruzzo 2.2% 0.7%                   0.3
Toscana 6.2% 1.9%                   0.3
Molise 0.5% 0.1%                   0.2
Umbria 1.5% 0.2%                   0.2
Lazio 9.7% 1.3%                   0.1
Puglia 6.7% 0.8%                   0.1
Campania 9.6% 1.1%                   0.1
Sardegna 2.7% 0.2%                   0.1
Calabria 3.2% 0.2%                   0.1
Sicilia 8.3% 0.4%                   0.1
Basilicata 0.9% 0.0%                   0.0

La géographie de l’épidémie est fortement marquée, la Lombardie concentrant 59% des décès. Comme cette région concentre 17% des habitants, l’indice obtenu est de 3,5 : on observe 3,5 fois plus de décès dans cette région que ce que l’on observe pour l’Italie dans son ensemble.

L’Emilie-Romagne est dans une situation similaire (poids dans les décès supérieur au poids dans la population), mais moins marquée (indice « seulement » de 1,9). Le Piémont, en revanche, qui arrive en troisième position en termes de décès, présente un indice inférieur à 1.

En procédant de même à l’échelle des régions françaises, on obtient les résultats suivants :

Région part de la région dans la population nationale (%)
(1)
part de la région dans l’ensemble des décès

(2)

indice

(2)/(1)

Grand-Est 8.2% 32.9%                4.0
Corse 0.5% 1.0%                1.8
Bourgogne-Franche-Comté 4.1% 7.0%                1.7
Île-de-France 18.3% 29.0%                1.6
Hauts-de-France 8.9% 8.5%                0.9
Auvergne-Rhône-Alpes 12.0% 8.3%                0.7
Occitanie 8.8% 3.1%                0.3
Bretagne 5.0% 1.7%                0.3
Centre-Val de Loire 3.8% 1.3%                0.3
Provence-Alpes-Côte d’Azur 7.5% 2.4%                0.3
Pays de la Loire 5.7% 1.6%                0.3
Normandie 4.9% 1.2%                0.2
Nouvelle-Aquitaine 8.9% 2.1%                0.2
Martinique 0.5% 0.1%                0.1
Guadeloupe 0.6% 0.1%                0.1
Guyane 0.4% 0.0%                     –
La Réunion 1.3% 0.0%                     –
Mayotte 0.4% 0.0%                     –

Même si Grand Est concentre une part moins importante des décès que la Lombardie, son indice est encore supérieur. Les Hauts-de-France sont dans une situation similaire à celle du Piémont : nombre absolu de cas élevé mais, compte-tenu de la taille de cette région, l’indice reste inférieur à 1.

Dans le cas Italien comme dans le cas français, l’épidémie reste donc pour l’instant très concentrée géographiquement : 62% des décès sont situés dans les deux régions françaises les plus touchées (Grand Est et Ile-de-France), 73% dans le cas italien (Lombardie et Emilie-Romagne).

Covid 19, épisode 2 : géographie des propriétaires de résidence secondaire

Suite à l’annonce du confinement, certains habitants de grandes villes sont allés se réfugier dans leur résidence secondaire. J’ai entendu hier sur les ondes Stéphane Richard, PDG d’Orange, indiqué que la population de Paris avait baissé de 17% suite à l’annonce, pendant que celle de l’Ile de Ré avait augmenté de 30% (chiffres obtenus à partir de données de téléphonie mobile, voir ici).

Ouest France s’en est fait l’écho hier, en indiquant que plus de 150 000 personnes sont venus se réfugier en Pays de la Loire, principalement en Loire-Atlantique et en Vendée, en précisant qu’il est « Impossible d’affirmer d’où viennent ces dizaines de milliers de personnes » (source ici).

En fait, si, on peut savoir assez bien d’où ils viennent, en ressortant une de mes cartes préférées, extraite d’un article de Berroir et al. (2017),  » les systèmes urbains français : une approche relationnelle », Cybergéo, qui relie la localisation des résidences secondaires à la localisation des résidences principales de leurs propriétaires.

L’article présente la même carte en excluant Paris, qui montre qu’on peut croiser sur les plages vendéennes quelques touristes qui ne viennent pas d’Ile-de-France :

Il n’est donc pas exclu que la propagation du Covid 19 à venir soit en partie orientée par cette géographie des résidences secondaires…

Géographie du Covid 19

Petit billet sur la géographie régionale et départementale du Covid 19, suite à une insatisfaction avec la façon quotidienne de présenter les chiffres dans les médias, sous la forme du nombre absolu de personnes contaminées ou décédées. Ces nombres absolus ne sont pas satisfaisants, dès lors que la taille des entités analysées varient : on devrait logiquement observer un nombre plus grand de victimes dans une grande région, si l’épidémie touche de manière homogène tous les territoires.

Pour éviter ce biais, il convient de diviser le nombre de cas par la population du territoire, ce que je vous propose de faire. Plus précisément : j’ai rapporté le nombre de cas par habitant des régions au même ratio observé France entière. Dès lors, une valeur de mon indicateur de 1 signifie que le nombre de cas par habitant de la région en question est similaire au nombre de cas par habitant observé en moyenne en France ; une valeur supérieure à 1 que le ratio est supérieur, d’autant plus que la valeur est forte.

A ce « jeu », la région Grand Est est sans surprise la plus touchée, avec un indice de 2,69 pour le nombre de personnes contaminées en date du 23 mars 2020, suivie de la Corse (1,89) et de l’Ile-de-France (1,67). La région capitale reste donc moins touchée que Grand Est, même si le nombre absolu de cas observés est plus élevé (6211 contre 4256). Les régions les moins touchées de France métropolitaines sont les Pays de la Loire (indice de 0,27) et la Nouvelle-Aquitaine (indice de 0,40).

J’ai reproduit l’exercice avec le nombre de décès, à l’échelle des départements : les plus touchés relativement à la moyenne sont le Haut-Rhin (indice de 16,04), le Territoire de Belfort (13,35) et les Vosges (6,94).

Le dernier exercice auquel je me suis livré consiste à repérer la géographie départementale des personnes de 60 ans et plus, considérées comme les plus vulnérables face à l’épidémie, car cette géographie est assez marquée : la part des 60 ans et + varie en France métropolitaine de 39,3% dans le Doubs à 19,3% dans le Val d’Oise.

La géographie des décès et la géographie des personnes de 60 ans et + diffèrent sensiblement. Il n’est pas exclu qu’elles se rapprochent à mesure que l’épidémie se propage, et que les données collectées soient de meilleure qualité (jusqu’à présent les décès en Ephad ne sont pas comptabilisés par Santé publique France, cela devrait être le cas à partir de la semaine prochaine si j’ai bien compris).

Les inégalités spatiales de salaire en France : différences de productivité ou géographie des métiers ?

C’est le titre d’un article que nous avons rédigé avec Michel Grossetti et Benoît Tudoux, suite à une sollicitation de l’INSEE pour un numéro spécial d’Economie et Statistique.

Notre idée de départ était d’interroger l’hypothèse au cœur des modèles de l’économie géographique qui considère que les salaires versés sur le marché du travail sont égaux à la productivité du travail. Cette hypothèse, courante en économie, explique que les chercheurs, pour évaluer la surproductivité éventuelle de tel ou tel territoire, estiment des équations de salaire : s’ils observent à tel endroit un salaire supérieur de 10% à la moyenne, ils en déduiront que sur ce territoire, les salariés sont 10% plus productifs. Sauf que cette hypothèse est très contestable pour certains métiers (cadres de la finance, états-majors des grands groupes, artistes, …). Donc, si ces métiers ont une géographie particulière, on risque de faire dire aux sursalaires de grosses bêtises en termes de surproductivité…

Pas qu’aux sursalaires, soit dit en passant : pour régionaliser les PIB, l’INSEE s’appuie précisément sur les salaires versés. Un PIB par emploi supérieur de 10% à la moyenne à tel ou tel endroit correspond, en fait, à un salaire moyen versé supérieur de 10% à la moyenne, rien d’autre. Considérer que cela signifie que les personnes sont 10% plus productives, c’est accepter l’hypothèse que salaire=productivité, ce que certains font sans s’en rendre compte, comme d’autres font de la prose.

Nous voulions donc voir dans quelle mesure la géographie de ces professions atypiques influait sur la géographie des salaires.  Nous voulions également creuser un deuxième point : l’importance des effets de composition. Qu’un territoire verse en moyenne des salaires supérieurs de 10% peut s’expliquer par le fait non pas que chaque salarié est plus productif, mais par le fait que les spécialisations des territoires diffèrent.  Jusqu’à récemment, neutraliser ces effets de composition était difficile, car les données disponibles étaient relativement agrégées : pour les professions, on avait un détail en une trentaine de postes seulement. Nous avons donc exploité une base plus récente et plus détaillée, sur données 2013, avec un détail des professions en plus de 400 postes. Ce dernier point est décisif : seul un tel niveau de détail permet d’appréhender l’influence des métiers particuliers (par exemple les cadres des marchés financiers) sur les différences géographiques de salaire.

Résultat des courses ? Les différences géographiques de salaires sont avant tout des différences de spécialisation métiers des territoires, elles sont très peu liées à des effets géographiques intrinsèques. Pour le dire autrement, une fois neutralisés les effets de spécialisation, on n’observe que très peu de différences de rémunération (donc de productivité si on retient l’hypothèse initiale) entre les territoires français. L’Ile-de-France fait cependant exception. Plus précisément Paris et les Hauts-de-Seine. Est-ce dû à une plus forte productivité sur ces territoires ? Bof : une bonne part de l’écart tient à la surreprésentation des cadres de la banque et de la finance, et à la présence des états-majors des grands groupes… Une fois neutralisés effets de composition et effet professions atypiques, l’Ile-de-France présente des sursalaires d’environ 10%, soit l’écart moyen de prix entre la région capitale et les autres régions…

Sur la base de ces résultats, nous proposons une autre explication des différences géographiques de salaire : elles seraient moins liées à des différences de « performance » des territoires qu’à la géographie des métiers, elle-même héritée de l’histoire et des choix politiques. Nous nous livrons notamment en fin d’article à une petite comparaison France-Allemagne qui nous semble éclairante.

Nous avons donc soumis notre article, qui a été évalué par deux rapporteurs, qui nous ont fait part d’un ensemble de remarques, que nous avons intégrées dans une nouvelle version de notre article. Deuxième analyse par les rapporteurs, ensuite, pour apprendre au final que l’article était finalement rejeté, compte-tenu des commentaires de l’un des deux rapporteurs, que je ne peux m’empêcher de vous livrer, avec des commentaires sur ses commentaires.

Les auteurs souhaitent démontrer que la géographie très inégalitaire des salaires en France est en réalité due à la géographie des métiers. Or parmi les variables individuelles prises en compte en plus des effets géographiques et de structure ne figurent que l’âge, le sexe et la nature privée ou publique du contrat de travail. Quid des qualifications et des diplômes? En l’absence de proxies valables pour ces derniers, leur effet est très certainement capturé par les indicatrices métiers. Or il s’agit bien de dimensions différentes qu’il conviendrait de distinguer pour démontrer de manière convaincante que les disparités spatiales de salaires en France s’expliquent pour l’essentiel par la géographie des métiers.

C’est gentil, mais l’information sur les qualifications et les diplômes ne figure pas dans la base, ce que l’évaluateur est censé savoir… Et avec une décomposition en plus de 400 professions, on peut considérer qu’elle est bien capturée, cette information, en effet… Et même si elle y figurait et qu’elle jouait significativement, elle ne pourrait que réduire encore les effets géographiques, donc renforcer notre argumentation…

Par ailleurs, les auteurs invoquent l’histoire pour rendre compte de la géographie des métiers. Mais cela n’invalide pas l’existence d’effets d’agglomération : le rôle des accidents de l’histoire dans l’agglomération spatiale des activités est d’ailleurs au cœur de l’économie géographique.

L’histoire au cœur des modèles d’économie géographique, on croit rêver… Ils évoquent des « accidents historiques » pour dire qu’on ne peut pas expliquer l’émergence de telle ou telle activité à tel ou tel endroit, mais qu’ensuite on a des processus économiques cumulatifs qui confèrent des avantages irréversibles à ces endroits. Je n’ai pas vu passer de modèle d’économie géographique expliquant la structure urbaine déséquilibrée de la France et la structure urbaine équilibrée de l’Allemagne. Des études historiques, si.

Enfin, l’analyse est essentiellement descriptive et aucun mécanisme n’est étudié de façon rigoureuse empiriquement.

Le jour où j’ai reçu cet avis, j’ai lu ce billet retweeté par Antoine Belgodère, où il est question de cette hiérarchie entre économétrie et statistiques descriptives, que j’invite tous les chercheurs en sciences sociales à lire. Pour les non-initiés au petit monde de la recherche en économie : dire d’une analyse qu’elle est descriptive figure au rang de pire insulte. On a les critères de scientificité qu’on peut.

L’approche me semble ainsi trop légère pour remettre en question de manière convaincante plusieurs décennies de recherche théorique et empirique sur les déterminants et les effets de l’agglomération spatiale des activités.

Là, je me suis dit d’abord que Popper devait se retourner dans sa tombe…  Je me suis dit ensuite que cela fait des dizaines d’années, en effet, que les modèles d’économie géographique, dans leurs versions empiriques, considèrent que salaire=productivité, que c’est une hypothèse, qu’elle est contestable, très contestable même, que la contester fait bouger les résultats et l’interprétation qu’on peut en faire. Autant ne pas la remettre en question, donc, pour que la connaissance avance.

Après discussion avec Michel Grossetti et Benoît Tudoux, on a décidé de poster notre article sur Hal, car au-delà des objectifs de publication de nos recherches, la diffusion des résultats est importante. En voici le résumé :

L’objectif de cet article est d’analyser les différences géographiques de salaire de France métropolitaine, en exploitant des données individuelles localisées de salaire pour l’année 2013 (données DADS), qui proposent notamment une décomposition fine des métiers en plus de 400 postes.

Nous estimons dans un premier temps des équations de salaire, avec comme variables explicatives des caractéristiques individuelles, des indicatrices géographiques et des indicatrices métiers. Nous montrons que les indicatrices métiers expliquent une part importante des différences de salaire, les indicatrices géographiques ne jouant qu’à la marge.

A métiers identiques, certains territoires, tous en Ile-de-France, présentent cependant des salaires significativement supérieurs à la moyenne. Un focus sur ces territoires montre que ces sursalaires s’expliquent pour une part importante par la présence des secteurs de la banque et de la finance et de l’activité des sièges sociaux, au sein desquels figurent des métiers relevant de marchés à très fortes inégalités de rémunération.

L’article est visible ici. N’hésitez pas à commenter.

Croissance de l’emploi et croissance du chômage : quelle(s) relation(s) ?

Dans mon dernier billet consacré à la géographie des taux de chômage, j’indiquais en conclusion qu’il ne fallait pas aller trop vite en besogne lorsqu’on observait un taux de chômage faible sur un territoire donné : un taux de chômage faible est compatible avec un territoire dynamique en matière de création d’emploi, mais aussi avec un territoire déprimé, les personnes à la recherche d’un emploi prospectant hors zone.

Pour avancer un peu sur cette question, j’ai collecté des données sur le chômage et sur l’emploi total par zone d’emploi (304 zones en France métropolitaine), sur la période la plus longue disponible sur le site de l’Insee, à savoir la période 2003-2012.

Première exploration très simple : j’ai calculé le taux de croissance annuel moyen pour les deux indicateurs et la corrélation entre ces deux variables. On s’attend à ce que le taux de croissance du chômage soit lié négativement au taux de croissance de l’emploi. Est-ce le cas ?

cho_empL’allure du nuage de points semble indiquer que c’est le cas, ce que confirme l’estimation de la régression : une hausse de 1% du taux de croissance de l’emploi se traduit par une baisse de 0,6% du taux de croissance du chômage, le coefficient est significatif au seuil de 1%. La qualité de la relation est cependant assez faible, le R² étant de 23% (en gros, les différences de taux de croissance de l’emploi n’expliquent « que » 23% des différences de taux de croissance du chômage).

Deuxième exploration, plus intéressante je trouve : je me suis focalisé sur le quart des zones d’emploi qui présentent les plus faibles taux de chômage en 2012. Pour cadrer les choses, en 2012, la moyenne simple des taux de chômage est de 9,4% ; la valeur minimale est de 4,5%, la valeur maximale de 16,8%. Le premier quartile, qui permet de repérer les 25% de zones aux plus faibles taux de chômage, est de 7,8%.

J’ai ensuite calculé la médiane du taux de croissance annuel moyen de l’emploi sur 2003-2012 : elle est de 0,06% (ce qui signifie que 50% des zones ont un taux de croissance inférieur à cette valeur et 50% un taux supérieur). Idem pour le taux de croissance du chômage, la médiane est de 2,1%. On peut alors ranger les 76 zones d’emploi qui ont les plus faibles taux de chômage dans quatre cases :

croissance du chômage
faible forte Total
croissance de l’emploi faible 11 14 25
forte 30 21 51
Total 41 35 76

Les situations attendues sont les 30 zones qui ont une forte croissance de l’emploi (c’est-à-dire un taux de croissance supérieur à la médiane)  et une faible croissance du chômage (croissance du chômage inférieur à la médiane) et les 14 zones qui ont une faible croissance de l’emploi et une forte croissance du chômage, soit 44 zones sur les 76. Situation moins attendue pour les 32 autres zones : 11 zones connaissent une faible croissance de l’emploi qui n’entame pas leur taux de chômage, on peut penser qu’il s’agit de zones peu dynamiques qui ont tendance à voir partir leurs actifs ; 21 zones connaissent une croissance forte de l’emploi et du chômage, elles restent cependant dans le quartile des plus faibles taux de chômage en 2012, signe peut-être que ces zones attirent des actifs mais ne peuvent répondre à l’ensemble de la demande.

J’ai construit la carte permettant de visualiser ces quatre ensembles de zones (la taille des cercles est proportionnelle au nombre d’emploi en 2012) :

carteLa situation sans doute la plus enviable concerne les zones en vert : forte croissance de l’emploi, faible croissance du chômage. On trouve quelques grandes villes (Nantes, Rennes, Grenoble, des zones d’Ile-de-France comme Saclay), des villes de taille moyenne (Niort, Besançon, Pau, …) et des territoires de plus petite taille (Le Blanc, Chinon, Pontarlier, Bressuire, …).

Les zones en jaune présentent une croissance de l’emploi et du chômage supérieure à la médiane. On y trouve principalement des villes de taille moyenne, comme Poitiers, La Roche-sur-Yon, Cholet, le Genevois Français, …

Les zones en rouge présentent une faible croissance de l’emploi et du chômage. Toutes (sauf la zone d’emploi de Houdan) présentent un taux de croissance de l’emploi négatif. On y trouve quelques zones d’Ile-de-France (Houdan, Rambouillet, Etampes), des villes de l’Est (Wissembourg en Alsace, Morteaux ou Saint-Claude en Franche-Comté) et du centre de la France (Ussel, Mauriac, Saint-Flour).

Les zones en bleu, enfin, combinent croissance faible de l’emploi et croissance forte du chômage. Presque toutes ont également un taux de croissance de l’emploi négatif, elles sont plutôt de moyenne et petite taille. On y trouve Nemours, Epernay, Laval, Tulle, Aurillac, …

Si vous voulez le détail de ces zones, vous pouvez télécharger ce document (pdf) qui reprend leur nom, l’emploi en 2012, les taux de chômage 2003 et 2012 ainsi que les taux de croissance de l’emploi et du chômage entre les deux dates.

Pour conclure : il y a toujours des limites à ce type d’exercice, on rate notamment ici les interdépendances entre les zones d’emploi. On voit sur la carte que des zones proches sont dans des situations différentes, sans doute certains mouvements entre zones expliquent-ils ce que l’on observe. Il faudrait pour le savoir travailler sur des données de flux, analyser par exemple l’évolution des déplacements domicile-travail entre ces zones. Affaire à suivre, donc…

Sinon, la recherche en sciences sociales, ça peut servir, vous savez ?

Jeudi dernier, j’ai participé au jury de thèse de Marion Maisonobe, à Toulouse, qui a travaillé, en gros, sur la géographie de la recherche à l’échelle mondiale. Travail remarquable, de l’avis unanime du jury (l’occasion pour moi de rencontrer enfin Yves Gingras, ce que je souhaite à tout le monde…).

Sur le trajet aller, j’ai vu que le Japon ne faisait pas dans la dentelle : fermeture de 26 universités de sciences humaines et sociales, qui ne servent à rien, c’est bien connu.

Ce que montre la thèse de Marion Maisonobe ?

S’appuyant sur les publications scientifiques recensées par le Web of Science, géolocalisées pour la première fois à l’échelle des agglomérations partout dans le monde (je ne vous dis pas le travail de fourmi réalisé sur Toulouse pour arriver à cela…), elle montre que si les co-publications sont de plus en plus nombreuses, elles ne signent pas la fin de la géographie : on assiste plutôt à un processus massif de déconcentration géographique de la recherche, les régions « centre » voyant leur part baisser dans la quasi totalité des pays (voir cet article auquel elle a contribué par exemple), au profit des espaces intermédiaires (en France, Paris recule au profit de la « province »).

La mondialisation de la recherche n’est donc pas synonyme de « mort de la géographie », elle ne conduit pas à l’émergence d’une « communauté scientifique sans frontière », elle est plutôt synonyme de renforcement des logiques nationales (croissance forte des co-publications au sein des pays) et continentales (bloc européen, bloc asiatique, bloc américain, …). Les pays dits « en développement » voient leur part augmenter, les relations entre eux augmentent très fortement, également.

Bref, plein de résultats riches d’enseignement, à l’heure où le discours dominant, en France (mais pas que), consiste à dire qu’il faut tout concentrer, et puis que quand même, il faut collaborer avec le pays leader (les Etats-Unis), le reste ne sert à rien.

En plus de traitements massifs de données à l’échelle mondiale, Marion Maisonobe a travaillé sur un sujet très pointu (la réparation de l’ADN) et interrogé des chercheurs spécialistes du domaine. On trouve dans sa thèse une anecdote croustillante, que tous les chercheurs et les politiques devraient garder en tête.

En 2009, une chercheuse a produit dans le domaine un travail considéré comme précurseur. Il a été demandé par les deux revues de référence, celles qui font rêver les chercheurs (plutôt « science dur ») du monde entier : Nature et Science. Ces deux revues n’ont pas publié l’article, finalement. Pourquoi ? La recherche s’appuyant sur un outil que personne n’avait dans le monde, il était clair que personne ne pourrait le citer dans les années suivantes, trop précurseur. Impossible de le publier, donc, parce que l’objectif des revues n’est pas de publier les meilleures recherches, mais les recherches qui seront les plus citées (il faut booster « l’impact factor », c’est-à-dire le nombre moyen de citations par article)…

Conclusion ? Les recherches en sciences humaines et sociales ne servent à rien.

 

La circulation invisible des richesses : quand le Cantal, l’Aveyron et la Lozère viennent au secours des Métropoles

Lorsqu’on analyse la géographie des PIB par habitant et celle des Revenus par habitant, on constate rapidement une déconnexion forte entre les deux, le cas le plus extrême concernant l’Ile-de-France, dont le PIB par habitant est environ 60% supérieur à la moyenne, pendant que son Revenu par habitant n’est supérieur que d’environ 20%. Il n’en faut pas plus à quelqu’un comme Jacques Levy pour affirmer alors que « les contribuables des villes les plus productives financent à fonds perdus les territoires urbains les moins efficaces » (source ici).

Je ne reviendrai pas sur les nombreuses limites du PIB par habitant comme indicateur de performance des régions, j’en ai déjà (trop) parlé, je vous invite à parcourir cette tribune du Monde ou d’aller voir, pour plus de détails, l’article co-écrit avec Michel Grossetti Je préfère me concentrer sur les éléments explicatifs de la déconnexion PIB/Revenu, pour insister sur un mécanisme contre-intuitif, dont l’importance vient d’être mise en évidence dans un article tout juste publié.

Quand Jacques Levy affirme que « les contribuables des villes les plus productives financent à fonds perdus les territoires urbains les moins efficaces », il a en tête un mécanisme et un seul, celui de la redistribution des revenus assurée par l’Etat : certains territoires produisent plus de richesses que d’autres, l’Etat y collecte logiquement plus d’impôts qu’il reverse sous forme de prestations aux habitants des autres territoires. Notons en passant que l’Etat ne procède pas à une redistribution spatiale des revenus, mais à une redistribution sociale : en forçant le trait, il prend aux « riches » pour donner aux « pauvres », comme « les riches » sont concentrés en certains lieux (notamment sur Paris) et « les pauvres » dans d’autres lieux (« les territoires urbains les moins efficaces » dirait Levy), la redistribution sociale devient involontairement spatiale.

Ce faisant, on oublie d’autres mécanismes essentiels de la circulation invisible des richesses : le premier d’entre eux relève du transfert opéré entre les actifs d’aujourd’hui et les actifs d’hier, autrement dit les retraités. Une part non négligeable de la déconnexion entre PIB et Revenu par habitant de l’Ile-de-France s’explique par le fait que les actifs franciliens, une fois à la retraite, vont se localiser un peu partout sur le littoral. Les actifs franciliens d’aujourd’hui financent donc les retraites des actifs franciliens d’hier, localisés hors région capitale. Un autre mécanisme important relève du fait que de nombreux actifs participant à la création de richesse en Ile-de-France résident hors Ile-de-France : ils créent du PIB dans la région capitale mais perçoivent leurs revenus hors région capitale. C’est vrai de toutes les régions limitrophes, le cas le plus emblématique étant celui de la Picardie, 13% des actifs y résidant travaillant en Ile-de-France.

Tout ceci est plutôt bien connu des chercheurs travaillant sur ces sujets. Un autre mécanisme moins connu vient d’être étudié par Pierre Bouché, Elisabeth Decoster et Ludovic Halbert dans un article pour la revue Géographie, Economie, Société intitulé « L’épargne réglementée, une géographie méconnue de la circulation de richesse en France ». Ces auteurs s’intéressent à l’épargne sur Livret collectée par la Caisse des Dépôts et Consignations, qui sert massivement à financer le logement social. Les sommes concernées ne sont pas négligeables : on apprend dans l’article que la Direction du Fonds d’Épargne gère 250 Milliards d’euros en 2013, dont environ 55 % sont distribués sous forme de prêts. Comme les lieux de collecte de l’épargne diffèrent des lieux d’investissement, on observe là encore une circulation invisible des richesses qui avait jusqu’à présent échappé aux observateurs.

Que montrent-ils ? Que certains départements épargnent beaucoup plus qu’ils ne perçoivent en termes d’investissement, à commencer par le Cantal (solde négatif de 72 %), l’Aveyron, la Haute-Loire, la Nièvre, la Lozère, ou encore la Manche (-56 %). A l’inverse, d’autres départements affichent des soldes positifs, c’est-à-dire que les montants des prêts qui leurs sont distribués sont plus élevés que ce que les encours observés ne laisseraient supposer. « Il s’agit de départements accueillant une agglomération de grande taille comme le Nord (Lille), la Haute-Garonne (Toulouse), la Gironde (Bordeaux), le Rhône (Lyon), l’Hérault (Montpellier), ou les départements franciliens, aux exceptions de Paris et, surtout, des Yvelines. La Seine-Saint-Denis affiche ainsi le solde positif le plus élevé de France avec +180 % (…) ».

Le Cantal, l’Aveyron et la Lozère viennent au secours de la Seine-Saint-Denis, Lille, Toulouse, Bordeaux, Lyon et Montpellier. Les « pauvres inefficaces » qui financent les « riches efficaces », voilà qui devrait en consoler certains, voire, soyons fous, les inciter à regarder autrement les dynamiques territoriales…