Panne chez SFR – Rappel d’une autre panne en 2012

Le 6 juillet 2012, Orange était affecté par une panne nationale, l’équioement en défaut avait été identifié : le HLR/HSS  lors de la mise à jour de ce dernier via Alcatel Lucent. Se référer à l’article : http://4glte.over-blog.com/article-panne-chez-orange-107869233.htm

Dans cet article, un ensemble d’hypothèse avait été faite pour lancer des pistes sur les pannes possible.

Aujourd’hui, jeudi 24 juillet, SFR fait façe à une panne nationale, les résultats de l’enquète incrime à nouveau la mise à jour du (d’un?) HLR par Alcatel Lucent,.

On peut alors se poser la question sur les procédures de mises à jour du HLR et pourquoi l’équipe Alcatel-Lucent est prise à défaut 2 ans près sur la mise à jour du HLR, d’autant plus  que chaque HLR dispose d’un système de backup comme solution de secours. C’est ce qui avait d’ailleurs été fait en 2012 par Orange : Le logiciel NG HLR (Lew Generation HLR) avait été mis à jour la veille. Vers 17h30, le réseau a rebasculer sur des bases non mises à jour mais sans effet et pourtant, il s’agissait bien de l’équipement défectueux. Le NG-HLR contient une base de données définissant le type d’abonnement de tous les clients de l’opérateur et qui contient aussi la localisation des abonnés. Ces éléments sont stockés dans la partie Back End du NG-HLR et mise à jour chaque fois qu’un client se déplace dans une nouvelle zone de localisation (LAC). La mémoire de cette base de données était saturée. Pour résoudre ce problème, il a néanmoins fallu d’un grande concertation entre Orange et Alcatal Lucentet un travail remarquable de toutes les équipes.

Malgré l’analogie entre ces deux pannes, est ce la même panne?

Orange avait publié une vidéo didactique présentant la panne : http://www.dailymotion.com/video/xs4bs8_resolution-de-l-incident-reseau-le-deroule-en-details_tech

A priori il y a deux ans la panne touchait tous les abonnés, hors l’opérateur possède plusieurs HLR. Pour SFR, un ensemble de clients sont affectés (les nouveaux clients 3G et 4G). Un HLR peut on être incriminé par contre en 2012, un seul HLR ne pouvait pas être responsable de la panne des 26 millions de clients. Une autre hypothèse était de supposer que le HLR en question était le V-HLR, un HLR virtualisé jouant le rôle d’administration et d’interconnexion des HLR. Mais, cela n’a pas été évoqué ni par Orange, ni par Alcatel.

Pour anecdote, le site Presse-citron terminait l’article en relatant la vidéo par cette conclusion « Reste à savoir si Orange et ses concurrents sauront tirer toutes les conséquences de ce dysfonctionnement pour faire en sorte que cela n’arrive plus. »

 

NG HLR est l’équipement ayant provoqué la panne

Les informations arrivent, on apprend maintenant qu’il s’agit d’un NG HLR – Next Generation HLR.

Depuis plusieurs articles, je parle du NGN – Next Generation Network, vous expliquant l’évolution du réseau mobile, on aura appris que toute évolution est sujette aux pannes.

Au niveau des articles précédents, vous pourrez retrouver l’évolution du réseau fixe, mobile et multimédia (IMS) :

Article 1 : NGN – Première évolution du réseau pour préparer l’IMS

Article 2 NGN 2ème partie – Première évolution du réseau pour préparer l’IMS

Article 3 : Evolution du réseau pour préparer l’IMS (Partie 3)

Article 4 : Evolution du réseau pour préparer l’IMS (Partie 4)

Article 5 : Evolution du réseau pour préparer l’IMS (Partie 5)

Je devais encore diffuser quelques articles sur l’évolution du réseau dont notamment le HLR et le HSS

Je rappelle que le HLR c’est :

  •  Une base de données contenant les informations sur les abonnements de tous les clients, et la localisation des clients sur le réseau
  • Un serveur d’authentification et de requêtes pour accéder à la base de données
  • Un système de connexion vers le MSC fonctionnant sur le protocole MAP (SS7)

 Avec la 4G, le HLR est réutilisé avec une amélioration pour être compatible avec l’IMS et le réseau 4G. A la différence de la2G et de la 3G où l’interface vers le HLR est supportée par le protocole du monde SS7/MAP, l’interface S6 vers le HSS s’appuie sur le protocole du monde IP, DIAMETER.

Le HSS est une base de données qui est utilisée simultanément par les réseaux 2G, 3G, LTE/SAE et IMS appartenant au même opérateur. Il supporte donc les protocoles MAP (2G, 3G) et DIAMETER (LTE/SAE, IMS). Je vous renvoie aux commentaires de l’article sur la panne d’Orange.

Le NG HLR est un HLR évolué de manière à faciliter l’interconnexion avec les fournisseurs de contenus/service en proposant une interconnexion avec le réseau IP. Le NG HLR est composé d’un front end, d’un back end et d’une base de données.

  1. Le Front end ou frontaux permet l’interconnexion du HLR, HSS, le réseau intelligent (portabilité des numéros), le serveur AAA.
  2. Le Back end ou serveurs centraux est une architectures distribes
  3. Une base de données LDAP interagissant avec le Front end et le Back end.

Je remercie les nombreux lecteurs d’avoir pris le temps de lire l’article sur la panne d’orange ou j’avais pour ma part avancé la piste du HSS/HLR avec le CSCF via le protocole Diameter, en m’appuyant sur les propos du PDG sur la signalisation. On s’orienterait donc maintenant vers une panne entre les différentes interfaces du NG HLR

 

 

 

Diameter ou HLR, Orange confirme que le problème viendrait du HLR

Alors que dans les articles précédents, nous avions évoqués deux éléments essentiels, le HLR et Diameter, il s’avère selon les dernières informations que l’équipement incriminé serait effectivement le HLR. Certaines sources évoquent même qu’Orange aurait confirmé cette panne.

Le HLR est le seul composant qu’on ne peut pas remplacer par un autre en quelques minutes ». « Quand le HLR revient, il y a un rush de demandes depuis les mobiles pour se réenregistrer. […] D’où probablement une remise en route partielle, par morceaux, d’abord 2G… » explique enfin le message sur la liste.

Opération de maintenance deux jours avant

Sur un autre site, on apprend que le HLR avait fait l’objet d’une opération de maintenance deux jours auparavant. Le suédois Ericsson et le français Alcatel-Lucent, les deux fournisseurs de ce type d’équipement pour France Télécom, ont travaillé en coopération étroite avec l’opérateur. «Une centaine de personnes d’Alcatel-Lucent sont mobilisées, dont une dizaine chez l’opérateur», précise l’industriel.

Nous allons donc abandonner la piste du protocole Diameter pour ne retenir plus que le HLR (à moins que le problème vient du protocole d’échange entre le HLR et les autres équipement du réseau). J’ai donc perdu mon pari du post précédent, en focalisant surtout sur la piste lié à la signalisation (selon les propos de Stéphane Richard :  » La panne est lié à un «dysfonctionnement logiciel» dans des équipements gérant «la signalisation des appels. « .

Rectification étant faîtes, nous connaissons maintenant la cause (sauf rebondissement …)

 

 

 

 

Diameter : La panne d’Orange?

Les explications techniques d’Orange

Après avoir émis des hypothèses élémentaires (lors d’un précédent article) sur des raisons de la panne, nous avons eu quelques éléments de réponses ces derniers jours.

La première communication portait sur l’évocation de panne logicielle. Une panne logicielle ne permet pas de positionner le moindre problème, il ne s’agit qu’un argumentaire commercial pour rassurer les investisseurs et les clients : L’opérateur souhaite communiquer sur le fait que son réseau est correctement dimensionné et que le problème peut se résoudre sans aucun investissement supplémentaire et qu’en même temps la panne (logicielle) est arrivée sans pouvoir anticiper (sans alarme sur son réseau de supervision, alors qu’une panne matérielle peut être rapidement identifiée). C’est un peu comme si je vous disais que votre voiture à une panne logicielle, ce n’est ni une pièce mécanique, ni un problème électrique, c’est presque comme si c’était un soft qu’il « faudrait remettre à jour ».Rassurant non? Pas convaincant.

Seulement, on est curieux et on ne pouvait pas se contenter de cette explication. Sur RTL, le PDG d’Orange a détaillé la cause de ce problème :

 » La panne est lié à un «dysfonctionnement logiciel» dans des équipements gérant «la signalisation des appels.

Cet incident inédit par son ampleur est «lié à un dysfonctionnement logiciel ayant affecté un type d’équipement très particulier qui a eu cet effet très important parce que c’est un équipement du coeur de réseau», selon M. Richard. Il écarte toute idée de saturation du réseau mobile d’Orange due à un trafic trop important. »

 

Avant d’expliquer cette réponse, selon les sources indépendantes, il semble juste d’affirmer que  le réseau d’Orange est suffisamment dimensionné à ce jour pour gérer le trafic de tous ses utilisateurs malgré l’augmentation régulière de ce trafic (1).

 

Dysfonctionnement logiciel» dans des équipements gérant «la signalisation des appels

Le réseau mobile se divise en plusieurs sous réseaux :

  • BSS : le sous système radio constitué de la partie visible du réseau  pour l’utilisateur (Téléphone, carte SIM, Antennes relais – station de base) et d’un controleur (BSC ou RNC)
  • NSS : Sous sytème réseaux ou coeur réseau (CN) est composé de commutateur circuit pour la voix (MSC) et de commutateur paquet (SGSN) pour les données et des passerelles (GMSC/GGSN)

Pour revoir les éléments du réseau, je vous invite à consulter la page traitant de l’évolution technique de la 2G à la 4G ou à récupérer ma présentation pour Les journées du Numériques – 5 juillet 2012.

 

Les MSCs dans le coeur réseau ont/avaient pour rôle

  • l’interconnexion avec les autres réseaux (réseau téléphonique classique par exemple)
  • la coordination des appels
  • le choix du routage et de la communtation

GSM_R99.jpg

 

Depuis cette première configuration, la release R4 a été proposée comme amélioration du réseau GSM et 3G. L’objectif est de faire évoluer le rôle du MSC en deux sous partie, un commutateur matériel soumis au contrôle d’un serveur.

 

GSM_R4.jpg

 

Ce concept est développé dans les articles traitant du NGN. Il peut y avoir une panne logicielle sur les MCS-S (Serveur de MCS nommé softswitch) seulement si tel est le cas la panne reste régionale et non nationale.

 

En effet, pour bien comprendre le principe prenons l’exemple du réseau ferroviaire avec des TGV (3G+, H+), des TER (GSM, GPRS). Le guidage des trains (commutation) s’effectue via l’aiguillage des voies. Supposons un contrôleur sur chaque aiguilleur, on est dans la configuration ou le MSC fait le routage. Centralisons maintenant la commande des aiguilleurs sur un PC central, le PC ne fait que commander les aiguilleurs. C’est le rôle du MSC-S.

 

Vous achetez votre billet, un billet electronique. Le contrôleur arrive et supposons que l’accès à la base de données n’est plus accessible, le contrôleur ne peut plus vérifier votre billet. Pourtant l’aiguillage fonctionne, on vous dirige vers le bon endroit mais votre ticket n’étant pas validé, on vous refuse l’accès au train. Si le HLR ou le AuC n’est pas accessible, le réseau refuse votre mobile.

 

Reprenons maintenant les propos du PDG Stephane RICHARD

 » La panne est lié à un «dysfonctionnement logiciel» dans des équipements gérant «la signalisation des appels.

Cet incident inédit par son ampleur est «lié à un dysfonctionnement logiciel ayant affecté un type d’équipement très particulier qui a eu cet effet très important parce que c’est un équipement du coeur de réseau», selon M. Richard. Il écarte toute idée de saturation du réseau mobile d’Orange due à un trafic trop important. »

Les équipements gérant la signalisation des appels (c’est à dire informe le réseau que vous souhaitez passer un appel sont le BSC (accès radio), le MSC, le VLR (HLR local), le HLR et des éléments du réseau intelligent (IN CAMEL).

Nous éliminons le problème du BSC (local et situé dans le sous système radio), du MSC (régional), le VLR (associé au MSC) et le centre AuC associé au HLR. Ce dernier (AuC) ne gère pas la signalisation. Il semblerait donc qu’on s’achemine sur un problème logiciel avec le HLR? Il s’agit effectivement d’un équipement particulier du coeur du réseau (CN).

En fait, je ne vous ai pas tout dit ici. Si on reprend le précédent article, je parlais aussi de la taxation (repensez au controleur). Dans le réseau, il existe un équipement chargé de la taxation et de la QoS.

 

Diameter

Après réflexion, il est fort à parier que la panne vient de ce serveur et l’évolution du réseau vers la 4G. Diameter est non seulement chargé de la gestion de la taxation et de la QoS mais est aussi le remplacement de la fonction MAP, c’est à dire de la gestion de la mobilité par un réseau IP. Dans ce cas, il est nécessaire de mettre en place une évolution des protocoles SS7/MAP vers Diameter (panne logicielle ou incompatibilité logicielle)? Ce petit paragraphe nécessite des explications

Un autre chapitre sera prochainement dédié à Diameter, un élément clé vous l’aurez compris dans l’évolution du réseau NGN.

 

(1) Rapport de l’ARCEP :

Les clients des opérateurs mobiles affichent, ce premier trimestre 2012, des niveaux de consommation en forte progression : +5,2 % en un an pour la  » voix « , un taux rarement atteint depuis 2007, +30,6 % pour le volume de SMS et +73,4 % pour le volume de données. Cette tendance est soutenue par une croissance annuelle des forfaits mobiles  » voix-data  » (+7,0 % en un an) très dynamique, progressant de trois points en un trimestre. Le nombre de clients des services sur réseaux mobiles en France (cartes SIM en service) s’élève ainsi à 69,5 millions à fin mars 2012 (+4,0 millions de cartes), soit un taux de pénétration de 106,5 % en augmentation de six points en un an.

Fin de la panne chez Orange

Le réseau semble se rétablir progressivement, un gros coup de stress pour Orange et ses employés, une journée difficile pour les utilisateurs. On se rend compte de notre dépendance au réseau mobile… non seulement pour informer nos proches d’être bien arrivé, non seulement pour les réservations, mais aussi pour les QRcodes de billet de train, l’accès à notre agenda en mobilité, l’accès aux informations stockées sur notre boite mail qu’on pensait récupérer au bon moment (un numéro de téléphone, une adresse), et tous les systèmes utilisés par les professionnels pour remplir par exemple les distributeurs.

Normalement les appels d’urgence peuvent passer sur tous les opérateurs, encore une chance. Maintenant contacter une salarié pour une astreinte n’a pas été possible.

Ces prochains jours, l’analyse de l’impact de cette coupure nous permettra d’analyser la situation.

 

Origine de la panne chez Orange : Des hypothèses

Suite à la panne d’Orange depuis 15h00 (officielle), il semblerait que les difficultés ait commencé dès 14h15, je reçois quelques mails pour connaitre l’origine de la panne et malheureusement je serai incapable de vous expliquer, par simple lecture des communiqués de presse, ou se situe la panne. L’équipe d’intervention mis en place par orange sauront nous l’expliquer.

Cependant, je profite de cette panne pour donner quelques pistes et revoir ainsi la structure du réseau mobile.Le premier indice est un réseau en panne au niveau national, le premier élément concerné est soit le AuC, soit le HLR, la base de donnée qui contient l’enregistrement de tous les abonnements.

Cependant, il y a plusieurs HLR, est ce que tous les abonnés d’Orange sont affectés?

Si non, on peut supposer qu’un HLR soit tombé en panne et qu’il n’y donc pas de répartition de charges ni de duplication active entre HLR (sauf si la duplication est elle aussi en panne, mais cette probabilité est plus faible).

Une autre panne possible est l’AuC, le centre d’authentification qui opère en amont du HLR. Mais dans cette hypothèse, ce n’est pas en soit l’authentification qui serait la cause car les abonnés enregistrés restent reconnus dans le réseau si celui tombe en panne ( sur une durée de 12h à 24h) mais ce serait la partie cryptage qui est utilisée dans la sécurisation via une clé (Ki et Kc) des appels. Sans ce procédé de décryptage/cryptage, impossible pour le réseau de récupérer de rendre les sessions claires (chiffrement). Le processus de chiffrement s’appuie sur plusieurs algorithmes, A3 et A8 au niveau de ll’AuC (lequel communique avec le HLR) et de l’algorithme A5 au niveau du mobile et de la station de base. Si l’AuC est injoignable, la clé de chiffrement n’est pas émise au mobile.

D’autres sources peuvent aussi être évoquées :

Est ce les serveurs DNS d’Orange qui ont été attaqué, serveurs qui permettaient aux équipements de joindre le/les HLR?

Est ce une Fibre Optique coupée ou déconnectée (toujours au niveau du HLR)?

Lorsqu’une panne importante affecte les abonnés au niveau national, il est préférable de mettre l’équipement en route la nuit afin d’éviter une masse critique de signalisation correspondant à la mise sous tension d’un nombre important de mobile. Ce n’est pas une raison suffisante néanmoins pour expliquer le fonctionnement normal du réseau, mais …

Est ce le réseau 4G, avec le basculement d’un HLR vers le HSS, d’une configuration d’un routeur avec le nouvel équipement HSS, la création d’une boucle (spanning tree) ne permettant plus l’accès au HSS ou HLR?

Espérons avoir des informations sur l’origine de la panne, par simple curiosité, je n’y crois cependant pas trop.