Panne chez SFR – Rappel d’une autre panne en 2012

Le 6 juillet 2012, Orange était affecté par une panne nationale, l’équioement en défaut avait été identifié : le HLR/HSS  lors de la mise à jour de ce dernier via Alcatel Lucent. Se référer à l’article : http://4glte.over-blog.com/article-panne-chez-orange-107869233.htm

Dans cet article, un ensemble d’hypothèse avait été faite pour lancer des pistes sur les pannes possible.

Aujourd’hui, jeudi 24 juillet, SFR fait façe à une panne nationale, les résultats de l’enquète incrime à nouveau la mise à jour du (d’un?) HLR par Alcatel Lucent,.

On peut alors se poser la question sur les procédures de mises à jour du HLR et pourquoi l’équipe Alcatel-Lucent est prise à défaut 2 ans près sur la mise à jour du HLR, d’autant plus  que chaque HLR dispose d’un système de backup comme solution de secours. C’est ce qui avait d’ailleurs été fait en 2012 par Orange : Le logiciel NG HLR (Lew Generation HLR) avait été mis à jour la veille. Vers 17h30, le réseau a rebasculer sur des bases non mises à jour mais sans effet et pourtant, il s’agissait bien de l’équipement défectueux. Le NG-HLR contient une base de données définissant le type d’abonnement de tous les clients de l’opérateur et qui contient aussi la localisation des abonnés. Ces éléments sont stockés dans la partie Back End du NG-HLR et mise à jour chaque fois qu’un client se déplace dans une nouvelle zone de localisation (LAC). La mémoire de cette base de données était saturée. Pour résoudre ce problème, il a néanmoins fallu d’un grande concertation entre Orange et Alcatal Lucentet un travail remarquable de toutes les équipes.

Malgré l’analogie entre ces deux pannes, est ce la même panne?

Orange avait publié une vidéo didactique présentant la panne : http://www.dailymotion.com/video/xs4bs8_resolution-de-l-incident-reseau-le-deroule-en-details_tech

A priori il y a deux ans la panne touchait tous les abonnés, hors l’opérateur possède plusieurs HLR. Pour SFR, un ensemble de clients sont affectés (les nouveaux clients 3G et 4G). Un HLR peut on être incriminé par contre en 2012, un seul HLR ne pouvait pas être responsable de la panne des 26 millions de clients. Une autre hypothèse était de supposer que le HLR en question était le V-HLR, un HLR virtualisé jouant le rôle d’administration et d’interconnexion des HLR. Mais, cela n’a pas été évoqué ni par Orange, ni par Alcatel.

Pour anecdote, le site Presse-citron terminait l’article en relatant la vidéo par cette conclusion « Reste à savoir si Orange et ses concurrents sauront tirer toutes les conséquences de ce dysfonctionnement pour faire en sorte que cela n’arrive plus. »

 

Diameter ou HLR, Orange confirme que le problème viendrait du HLR

Alors que dans les articles précédents, nous avions évoqués deux éléments essentiels, le HLR et Diameter, il s’avère selon les dernières informations que l’équipement incriminé serait effectivement le HLR. Certaines sources évoquent même qu’Orange aurait confirmé cette panne.

Le HLR est le seul composant qu’on ne peut pas remplacer par un autre en quelques minutes ». « Quand le HLR revient, il y a un rush de demandes depuis les mobiles pour se réenregistrer. […] D’où probablement une remise en route partielle, par morceaux, d’abord 2G… » explique enfin le message sur la liste.

Opération de maintenance deux jours avant

Sur un autre site, on apprend que le HLR avait fait l’objet d’une opération de maintenance deux jours auparavant. Le suédois Ericsson et le français Alcatel-Lucent, les deux fournisseurs de ce type d’équipement pour France Télécom, ont travaillé en coopération étroite avec l’opérateur. «Une centaine de personnes d’Alcatel-Lucent sont mobilisées, dont une dizaine chez l’opérateur», précise l’industriel.

Nous allons donc abandonner la piste du protocole Diameter pour ne retenir plus que le HLR (à moins que le problème vient du protocole d’échange entre le HLR et les autres équipement du réseau). J’ai donc perdu mon pari du post précédent, en focalisant surtout sur la piste lié à la signalisation (selon les propos de Stéphane Richard :  » La panne est lié à un «dysfonctionnement logiciel» dans des équipements gérant «la signalisation des appels. « .

Rectification étant faîtes, nous connaissons maintenant la cause (sauf rebondissement …)

 

 

 

 

Origine de la panne chez Orange : Des hypothèses

Suite à la panne d’Orange depuis 15h00 (officielle), il semblerait que les difficultés ait commencé dès 14h15, je reçois quelques mails pour connaitre l’origine de la panne et malheureusement je serai incapable de vous expliquer, par simple lecture des communiqués de presse, ou se situe la panne. L’équipe d’intervention mis en place par orange sauront nous l’expliquer.

Cependant, je profite de cette panne pour donner quelques pistes et revoir ainsi la structure du réseau mobile.Le premier indice est un réseau en panne au niveau national, le premier élément concerné est soit le AuC, soit le HLR, la base de donnée qui contient l’enregistrement de tous les abonnements.

Cependant, il y a plusieurs HLR, est ce que tous les abonnés d’Orange sont affectés?

Si non, on peut supposer qu’un HLR soit tombé en panne et qu’il n’y donc pas de répartition de charges ni de duplication active entre HLR (sauf si la duplication est elle aussi en panne, mais cette probabilité est plus faible).

Une autre panne possible est l’AuC, le centre d’authentification qui opère en amont du HLR. Mais dans cette hypothèse, ce n’est pas en soit l’authentification qui serait la cause car les abonnés enregistrés restent reconnus dans le réseau si celui tombe en panne ( sur une durée de 12h à 24h) mais ce serait la partie cryptage qui est utilisée dans la sécurisation via une clé (Ki et Kc) des appels. Sans ce procédé de décryptage/cryptage, impossible pour le réseau de récupérer de rendre les sessions claires (chiffrement). Le processus de chiffrement s’appuie sur plusieurs algorithmes, A3 et A8 au niveau de ll’AuC (lequel communique avec le HLR) et de l’algorithme A5 au niveau du mobile et de la station de base. Si l’AuC est injoignable, la clé de chiffrement n’est pas émise au mobile.

D’autres sources peuvent aussi être évoquées :

Est ce les serveurs DNS d’Orange qui ont été attaqué, serveurs qui permettaient aux équipements de joindre le/les HLR?

Est ce une Fibre Optique coupée ou déconnectée (toujours au niveau du HLR)?

Lorsqu’une panne importante affecte les abonnés au niveau national, il est préférable de mettre l’équipement en route la nuit afin d’éviter une masse critique de signalisation correspondant à la mise sous tension d’un nombre important de mobile. Ce n’est pas une raison suffisante néanmoins pour expliquer le fonctionnement normal du réseau, mais …

Est ce le réseau 4G, avec le basculement d’un HLR vers le HSS, d’une configuration d’un routeur avec le nouvel équipement HSS, la création d’une boucle (spanning tree) ne permettant plus l’accès au HSS ou HLR?

Espérons avoir des informations sur l’origine de la panne, par simple curiosité, je n’y crois cependant pas trop.