De quoi le PIB par habitant de l’Ile-de-France est-il le nom ?

L’INSEE vient de publier sa dernière analyse des PIB régionaux, où l’on apprend que le PIB par habitant, qui est en moyenne de 34 100€ en France, est de 57 600€ en Ile-de-France, contre 29 175€ ailleurs en France métropolitaine, soit un rapport du simple au double. Est-ce à dire qu’on est deux fois plus performant quand on est en Ile-de-France plutôt qu’ailleurs dans le pays ? Non, le PIB par habitant, dans sa déclinaison régionale, n’est pas le nom de la performance économique, pour plusieurs raisons que je vous propose de développer [1].

La première est que tous les habitants ne contribuent pas à la création de richesses, car tous ne sont pas en âge de travailler, et pour ceux qui le sont, tous ne travaillent pas. D’où la nécessité de décomposer le PIB par habitant en deux parties : le PIB par emploi (appelé aussi la productivité apparente du travail, plus proche de l’idée de performance économique, même si nous allons avoir ensuite que pas totalement, loin de là), d’un côté, et le ratio emploi par habitant, de l’autre. Le PIB par habitant est le produit de ces deux termes.

On constate alors que le PIB par emploi de l’Ile de France (111 073€) n’est plus égal à deux fois celui du reste de la France métropolitaine (72 886€), il est 1,5 fois plus élevé. Même si elle reste très importante, la différence est divisée par deux. Le reste est dû au ratio emploi par habitant, qui est 1,3 fois plus élevé en Ile-de-France (51,9 emplois pour 100 habitants) que dans le reste de la France métropolitaine (40 emplois pour 100 habitants). Le PIB par habitant est donc le nom, en partie, de choses très éloignées de la performance économique, en lien avec le rapport observé sur un territoire donné entre le nombre d’emplois et le nombre d’habitants, rapport sur lequel je reviendrai plus loin.

La deuxième raison est liée aux effets de spécialisation : un PIB par emploi supérieur en A à ce qu’il est en B peut résulter du fait non pas qu’on est plus performant en A qu’en B, mais que la région A est plus spécialisée que B dans les secteurs à forte productivité apparente du travail. Le PIB par habitant de l’Ile-de-France est donc le nom, aussi, de la division régionale du travail, avec certains secteurs plus présents dans la région capitale, et d’autres plus présents dans les autres régions, secteurs qui comprennent des établissements qui travaillent ensemble et qui rendent donc indissociables des territoires qu’on a trop tendance à séparer. L’agriculture est environ 20 fois moins présente en Ile-de-France qu’ailleurs, l’industrie 1,6 fois moins présente (notamment l’industrie agro-alimentaire plus de 3 fois moins présente), tandis que le secteur de l’information-communication y est près de deux fois plus présent et celui de la banque, de la finance et des assurances 1,8 fois plus.  Nous avions fait le calcul dans un article pour la revue de l’OFCE, à l’époque ces effets de composition réduisaient d’un tiers environ la surperformance apparente de l’Ile-de-France, on tomberait donc avec les chiffres actuels à un rapport autour de 1,3 fois le PIB par emploi hors effets de composition (ce serait à vérifier bien sûr, ça a pu changer un peu).

La troisième raison, non évoquée par l’INSEE, est d’une importance  cruciale : en fait, il n’est pas possible de calculer un PIB régional stricto sensu, c’est-à-dire de faire la somme des valeurs ajoutées des entreprises d’une région, parce que beaucoup d’entreprises détiennent des établissements dans plusieurs régions, et qu’on ne dispose pas d’une comptabilité par établissement, mais par entreprise. Comment calculer malgré tout un PIB régional ? Ce que fait l’INSEE, et c’est la moins mauvaise solution, c’est de ventiler la valeur ajoutée localisée au siège social de l’entreprise au prorata de la masse salariale versée dans ses différents établissements.

Cette façon de faire est acceptable si on considère que les différences de salaires correspondent à des différences de productivité, mais c’est une hypothèse quelque peu héroïque, notamment quand on parle des traders de la finance, de l’état-major des grands groupes, du salaire des superstars, …, pratiquement tous localisés en France dans la région capitale : toujours dans le même article, nous avions montré que les deux-tiers des 1% des salaires les plus hauts et les quatre cinquièmes du 0,1% des salaires les plus hauts étaient localisés en Ile-de-France. Ajoutons à cela le fait que les salaires parisiens sont en moyenne plus élevés parce que le niveau des prix est également plus élevé, d’environ 9% estime l’INSEE (voir ici par exemple), sans lien, là encore, avec les niveaux de productivité des salariés.

Pour autant, comme les masses salariales sont la clé de répartition de la valeur ajoutée, la région Ile-de-France récupère beaucoup de la valeur ajoutée des entreprises, si bien que le calcul de la productivité apparente du travail (le terme « apparent » devient particulièrement important) s’appuie sur des différences de salaires censées en rendre compte, alors que, pour partie, ces différences n’ont rien à voir avec elle. On peut donc dire que le PIB par habitant de l’Ile-de-France est aussi, pour partie, le nom de la concentration géographique de l’élite du pays (élite économique, artistique, médiatique ou encore de la haute administration), qui bénéficie de salaires peu liés à une quelconque productivité et plus généralement des inégalités de revenu issu du travail non liées totalement aux différentiels de productivité.

La ventilation de la valeur ajoutée au prorata des rémunérations versées pose un autre problème quand on veut parler de productivité : elle désavantage les régions où les processus productifs sont plus intensifs en capital et, en dynamique, celles pour lesquelles l’intensité capitalistique augmente. Imaginez une entreprise qui détient deux sites, dans deux régions différentes A et B. Le site de production en B investit dans de nouvelles machines, automatise le processus, réduit ses effectifs. Le site de commandement en A est inchangé. Implication : hausse de la valeur ajoutée et de la productivité apparente en A et baisse de la valeur ajoutée et de la productivité apparente en B. Pour pallier ce problème important, il faudrait évaluer la productivité totale des facteurs, mais on ne dispose pas des données pour cela à l’échelle des régions.

Revenons à l’autre ratio qui influe sur les différences de PIB par habitant : le ratio emploi par habitant. Il dépend lui-même de plusieurs éléments (sa décomposition est précisée dans le document), notamment du rapport entre le nombre d’emplois et le nombre d’actifs occupés, et le rapport entre le nombre de personnes en âge de travailler et le nombre d’habitants, deux ratios plus élevés en Ile-de-France que dans le reste de la France métropolitaine.

S’agissant du rapport entre nombre d’emplois localisés en Ile-de-France et nombre d’actifs occupés résidant en Ile-de-France, la valeur élevée du ratio (1,05 en Ile-de-France contre 0,96 ailleurs en France métropolitaine) s’explique par le fait que de nombreuses personnes travaillent dans la région capitale mais résident dans des régions limitrophes. Mécaniquement, ceci fait monter le ratio emploi par habitant et donc le PIB par habitant. J’ai cependant un problème avec la façon dont l’INSEE en parle, en disant que Paris « attire des travailleurs résidant dans les régions voisines, notamment en Bourgogne-Franche-Comté, Centre-Val de Loire et dans les Hauts-de-France », affirmation reprise par certains médias, par exemple ici. C’est aller bien vite en besogne d’affirmer que « Paris attire », car on peut tout aussi bien dire que « Paris repousse » des personnes qui travaillaient sur Paris, qui ne peuvent plus y vivre compte-tenu du prix de l’immobilier et qui donc s’éloignent, se localisent dans les régions limitrophes, en allongeant ce faisant leurs trajets domicile-travail. On ne peut pas trancher entre les deux processus, celui d’attraction par l’emploi ou de répulsion résidentielle, les deux existent, ils conduisent tous deux à l’augmentation du ratio emploi par habitant et donc à celui du PIB par habitant, qui est pour partie le nom des mobilités interrégionales domicile-travail. A noter que ce n’est pas la première fois que la façon dont l’INSEE mobilise le terme “attractif” me pose problème, j’en avais parlé au sujet de ce que je considère comme les très mal nommées “aires d’attraction des villes”.

S’agissant du rapport entre personnes en âge de travailler et nombre d’habitants, si sa valeur est forte sur l’Ile-de-France (65,5% contre 61,3% ailleurs en France métropolitaine), c’est aussi parce que les retraités quittent la capitale lors du passage à la retraite pour couler des jours heureux ailleurs, notamment sur les littoraux de l’Ouest et du Sud. Là encore, ceci se traduit par un PIB par habitant plus élevé que pour une région qui ne connait pas une telle « fuite » de ses retraités, le PIB par habitant est cette fois, pour partie, le nom des mobilités résidentielles des personnes passant à la retraite.

Au total, le PIB par habitant de l’Ile-de-France est le nom de processus géographiques complexes, non réductibles à une question de performance économique : il est le nom d’un vaste marché du travail où exercent des personnes qui pour partie résident ailleurs, par choix ou par nécessité ; il est le nom d’une région dans laquelle on ne reste pas pour finir ses vieux jours ; il est le nom de l’éclatement géographique des processus productifs et des spécialisations territoriales associées ; il est le nom de la concentration géographique de l’élite économique, politique, médiatique, …, à très hautes rémunérations ; il est le nom des inégalités de salaires non liées aux différentiels de productivité ; il est le nom de prix à la consommation plus élevés sur Paris qu’ailleurs. Avec comme enjeu évident l’analyse fine de ces processus complexes et interdépendants, et la nécessité d’en tirer des implications en termes d’action. Je ne suis pas sûr que cela soit réellement fait.


[1] Je m’appuie pour cela sur une analyse et une décomposition du PIB par habitant que nous avions proposée avec Michel Grossetti dans un article pour la Revue de l’OFCE, décomposition que l’INSEE reprend en partie.

Votes et gradient d’urbanité : une relation invalidée

Jacques Lévy est intervenu lundi 25 avril 2022 sur France Culture dans Le temps du débat, puis de nouveau le 1er mai, toujours sur France Culture, dans l’émission l’Esprit Public, pour commenter les résultats des élections. Son analyse s’appuie sur un travail cartographique conséquent visible ici.

Conformément à une thèse qu’il défend depuis longtemps (vous trouverez l’essentiel de ses idées appliquées au vote du 21 avril 2002 dans ce texte), il considère que les différences géographiques de vote s’expliquent avant tout par ce qu’il appelle les gradients d’urbanité, bien plus que par les différences de catégorie sociale, de diplôme ou d’âge.

Son idée forte est la suivante : l’urbain dense est le lieu de la diversité, de l’ouverture, de la tolérance, de la connexion au monde, dès lors, baigner dans des environnements à forte urbanité conduirait à voter pour des partis “de gouvernement”, “universalistes”, alors que quand l’urbanité est faible, on est enclin à voter pour des partis “protestataires”, “populistes”, “tribunitiens”. C’est cela qui expliquerait les votes, plus que le fait d’être jeune ou vieux, d’être diplômé du supérieur ou non diplômé, ouvrier, employé ou cadre supérieur.

Pour mesurer les gradients d’urbanité, Jacques Lévy s’appuie sur les zonages d’étude de l’INSEE, et dans ses dernières analyses, sur le zonage en aires d’attraction des villes. Chaque commune peut être rattachée à l’un des 8 gradients d’urbanité, qui sont définis sur la base d’une double distinction : en fonction de la tranche d’aire d’attraction des villes, d’une part, et de la situation de la commune par rapport à la commune centre de l’aire, d’autre part.

La commune qui présente le gradient d’urbanité le plus fort, c’est Paris, elle correspond au gradient 1. Suivent les communes de la banlieue de Paris, ainsi que les communes centres des aires de plus de 700 000 habitants, toutes étant de gradient 2 : les communes de la banlieue sont moins urbaines que Paris, mais elle bénéficient en quelque sorte de son ruissellement ; les communes centres des très grandes aires, ce n’est pas Paris, mais l’urbanité y est forte. Et ainsi de suite, jusqu’aux communes hors aires d’attraction des villes, de gradient 8, à l’urbanité la plus faible.

Pour mesurer l’impact des gradients d’urbanité, il procède à des analyses cartographiques, qui permettent de visualiser la géographie des votes en fonction de ces gradients, pour conclure le plus souvent que son analyse est validée. Il va cependant un cran plus loin : conscient que d’autres éléments peuvent jouer, notamment les effets de diplôme, de catégorie sociale ou d’âge, il affirme que les gradients d’urbanité sont plus explicatifs que ces autres éléments, sur la base d’un raisonnement quelque peu opaque et pour le moins curieux (voir ici, à partir de 5’30).

L’analyse de Jacques Lévy a fait l’objet de critiques sérieuses, depuis déjà longtemps (voir par exemple l’article de Fabrice Ripoll et Jean Rivière). Mon objectif ici est d’ajouter une pierre à la critique, en montrant qu’elle est invalidée empiriquement, sur la base des résultats du vote du premier tour des élections présidentielles 2022 de l’ensemble des communes de France métropolitaine.

Pour cela, il convient de définir précisément quels résultats on devrait obtenir si la “théorie” du gradient d’urbanité était vérifiée : on devrait observer i) un score des candidats de gouvernement qui augmente quand le degré d’urbanité augmente, ii) un score des candidats protestataires qui diminue quand le degré d’urbanité augmente, iii) un pouvoir explicatif du gradient d’urbanité supérieur au pouvoir explicatif d’autres distinctions (âge, CSP, niveau de diplôme), iv) un effet du gradient d’urbanité qui est observé à caractéristiques sociales égales par ailleurs.

Pour valider ou invalider ces propositions, je considère d’abord comme candidats de gouvernement Macron, Jadot, Pécresse et Hidalgo, et comme candidats protestataires les huit autres candidats, classés à gauche pour quatre d’entre eux (Mélenchon, Roussel, Poutou, Arthaud) et à droite pour les quatre autres (Le Pen, Zemmour, Lassalle, Dupont-Aignan). Sur cette base, je procède aux traitements suivants :

  1. j’analyse les scores moyens obtenus par chaque candidat, en fonction du gradient d’urbanité : si la théorie est vérifiée, le score moyen de Macron, Jadot, Pécresse et Hidalgo doit augmenter avec le degré d’urbanité, celui des huit autres candidats doit diminuer. Le gradient d’urbanité doit en outre expliquer une part importante des différences de vote observées entre communes,
  2. j’analyse parallèlement l’influence d’une autre variable que le gradient d’urbanité : la part des diplômés du supérieur par commune. Si la théorie est validée, cette variable doit expliquer une part moins importante du vote que le gradient d’urbanité,
  3. j’analyse dans un même modèle le gradient d’urbanité et la part des diplômés du supérieur, afin d’évaluer l’impact du gradient d’urbanité à niveau de diplôme donné. Si la théorie fonctionne, le gradient d’urbanité doit exercer l’influence attendue sur les scores des candidats de gouvernement et des candidats protestataires.

Commençons par cette première proposition, en mesurant l’impact du gradient d’urbanité sur les votes des 12 candidats. Dans le tableau, vous pouvez lire le score obtenu par chaque candidat dans la commune de Paris (gradient 1), puis l’écart à ce score pour les gradients de 2 à 8. La dernière ligne renseigne sur le pourcentage des différences de votes entre communes expliquées par le gradient d’urbanité.

Scores au 1er tour de l’élection présidentielle de 2022 par gradient d’urbanité (score moyen des communes du gradient 1 et écart à ce score pour les autres gradients)

A titre d’exemple de lecture, le score d’Emmanuel Macron dans la commune de Paris est de 35,3%, celui de Yannick Jadot est de 7,3%. En moyenne, dans les communes de la banlieue de Paris et dans les communes centre des aires de plus de 700 000 habitants, le score d’Emmanuel Macron est inférieur de 6,4 points de pourcentage au score qu’il obtient sur Paris, et celui de Yannick Jadot est inférieur de 2 points de pourcentage à son score parisien. Sur la dernière ligne de ces deux candidats, on constate que les gradients d’urbanité n’expliquent que 7% des différences communales de vote Macron, et 21% des différences pour Jadot.

Globalement, s’agissant des candidats de gouvernement, on constate que les scores hors Paris sont tous inférieurs au bloc sur Paris intra-muros, ce qui va dans le sens de la théorie, mais dans sa version extrême, où l’urbanité serait réservée au cœur de la capitale, point d’urbanité en dehors. De plus, le gradient d’urbanité n’explique qu’une faible partie des différences entre communes (variance expliquée inférieure à 10%), hormis pour Jadot, candidat pour lequel la théorie « marche » un peu mieux, puisque la variance expliquée par le gradient d’urbanité est de 21% et que son score est continûment décroissant quand on va du gradient 1 à 8.

Pour les candidats protestataires, la théorie fonctionne plutôt bien pour Marine le Pen puisque son score est continûment croissant avec le gradient (à l’exception du gradient 8, son score y est inférieur aux gradients 6 et 7) et il explique 46% des différences observées. En revanche, le résultat est inverse au résultat attendu pour Mélenchon (avec un pouvoir explicatif du gradient important, mais totalement contraire à l’attendu, de 46%) et pour Zemmour (mais avec un faible pouvoir explicatif du gradient d’urbanité, qui n’explique que 2% des différences de vote entre communes). Les résultats de Mélenchon et de Zemmour constituent clairement le premier élément d’invalidation de la théorie des gradients d’urbanité.

Deuxième temps de l’analyse, l’examen de la deuxième proposition, qui consiste à étudier le jeu d’une autre variable explicative considérée comme moins déterminante par Jacques Lévy que le jeu du gradient d’urbanité. J’ai retenu la part communale des diplômés du supérieur, qui exerce une influence certaine sur les votes. Je compare simplement la part des différences expliquées par le gradient d’urbanité, d’un côté, et la part expliquée par la part des diplômés du supérieur, de l’autre.

Variance expliquée par le gradient d’urbanité et par la part des diplômés du supérieur en pourcentage de la variance totale, dans les votes au 1er de tour de 2022. Pour la variable “part des diplômés du supérieur”, l’analyse a été faite en retenant la valeur continue de la variable, et également en constituant huit groupes de communes (1/8 des communes à plus faible part, puis 1/8 des suivantes, etc.), pour avoir un nombre de classes équivalent au nombre de gradient d’urbanité.

On constate que pour sept des douze candidats, la part des diplômés explique mieux les différences communales de score que le gradient d’urbanité, pour deux l’explication est équivalente (Hidalgo et Poutou), et c’est seulement pour 3 qu’elle est moins explicative que le gradient d’urbanité (Mélenchon, Lassalle et Dupont-Aignan), mais dans un sens contraire à l’attendu pour Mélenchon rappelons-le. L’écart est particulièrement fort pour Macron (+24 points de pourcentage d’explication) et pour Jadot (+32 points). Ces résultats constituent le deuxième élément d’invalidation de la théorie.

Dernier temps essentiel de la démonstration, l’analyse intégrée des deux effets. L’erreur principale de Jacques Lévy consiste en effet à étudier gradient d’urbanité, CSP, âge et diplôme séparément, en les considérant comme indépendants. Or, la composition sociale des territoires varie fortement selon le gradient d’urbanité. De ce fait, les différences de scores par gradient peuvent résulter non pas de sa théorie (on est plus tolérant quand on vit dans un environnement urbain, donc on vote moins pour les partis protestataires), mais de différences de caractéristiques sociales (on est plus diplômés, donc on vote moins pour les partis protestataires, qu’on habite dans l’urbain ou dans le rural). C’est à cette condition qu’on pourra éventuellement identifier le jeu d’un effet géographique « pur ».

Ecarts au score de gradient 1 pour les gradients 2 à 8 à part des diplômés du supérieur égale par ailleurs. Les valeurs soulignées sont non significativement différentes de 0 au seuil de 1%.

On constate que, quand on neutralise l’effet “part des diplômés du supérieur”, les résultats pour tous les candidats des partis de gouvernement sont contraires à la théorie : leur score est supérieur dans les communes hors Paris, il est même continument croissant pour Macron quand on passe du gradient 1 au gradient 8 d’urbanité (c’est le cas également pour Pécresse).

S’agissant des candidats protestataires, les résultats de Roussel sont maintenant contraires à la théorie (coefficients tous négatifs, mais leurs valeurs sont faibles), et ceux de Mélenchon le restent. A l’inverse, quand on neutralise l’effet de diplôme, le score de Zemmour devient un peu plus conforme à la théorie, il améliore ses scores quand l’urbanité diminue, mais la part des différences expliquées reste faible (7%).

Cette troisième série d’éléments va dans le même sens que les deux séries précédentes. Dès lors, il nous semble possible de conclure que la théorie du gradient d’urbanité, qui veut que vivre dans l’urbain incite à voter pour des partis de gouvernement et que s’éloigner de l’urbain le plus dense (Paris intra-muros) conduise à voter pour des partis protestataires, d’autant plus qu’on s’en éloigne, est invalidée empiriquement.