Le Rôle du NSACF dans l’Architecture 5G et 6G

Introduction

En s’appuyant sur la virtualisation du réseau, la technologie 5G permet un découpage réseau (network slicing) pour créer des réseaux virtuels personnalisés sur une infrastructure physique commune.

La 4G peut également proposer la virtualisation par le concept DCN dans la R.13 (nommé DECOR – Dedicated Core Network puis eDECOR en R.14 mais seul le coeur de réseau est dédié aux UE et le choix du coeur du réseau est basé sur l’IMSI (statique).

La 5G est Cloud Native. L’architecture SBA facilite l’approche d’un coeur de réseau et d’un RAN dédiés de manière dynamique pour les UE. Le Network Slicing apparait dès la R.15.

Dans la spécification R.17, une fonction spécifique est ajoutée pour gérer les ressources des slices : le Network Slice Admission Control Function (NSACF). Cette fonctiot, permet de garantir l’efficacité et l’équité d’accès aux tranches de réseau dans un environnement où les ressources, bien qu’importantes, demeurent finies.

Nous allons décrire le rôle du NSACF, son évolution au sein des normes 5G, et analyser comment le réseau fonctionnaient avant son introduction (R.15 et R.16). Nous explorerons également les mécanismes alternatifs qui permettent à un équipement utilisateur (UE) d’accéder à ses services même lorsque le NSACF refuse temporairement l’accès à une tranche spécifique

Contexte Historique et Évolution des Normes

L’Émergence du Network Slicing dans les Standards 5G

Le concept de découpage réseau, ou network slicing est l’une des caractéristiques différenciatrices majeures de la 5G afin de supporter une multitude de cas d’usage avec des exigences très différentes : de l’Internet des objets massif (mMTC) nécessitant de faibles débits mais une grande densité de connexions, aux communications ultra-fiables à faible latence (URLLC) pour les applications critiques, en passant par le haut débit mobile amélioré (eMBB) pour la consommation multimédia..

Introduction Progressive du Contrôle d’Admission

La Release 15 avait posé les bases architecturales du network slicing, mais les mécanismes de contrôle d’admission n’étaient pas encore définis. Initialement, la sélection des tranches et l’allocation des UE à ces tranches reposaient principalement sur le Network Slice Selection Function (NSSF) et sur des politiques relativement statiques.

La Release 16 a apporté des améliorations sur la gestion des tranches de réseau comme la surveillance et le reporting des tranches, et le support multi-opérateur. Mais la R.16 n’avait pas encore formalisé une fonction dédiée spécifiquement au contrôle d’admission basé sur la charge et les ressources.

Définition Formelle du NSACF

Le NSACF a été formellement défini dans la Release 17 du 3GPP.pour répondre à un besoin d’optimisation en temps réel des ressources entre les différentes tranches de réseau.

Le 3GPP TR 23.700-91 « Study on enablers for Network Automation for 5G » et les spécifications TS 23.501 « System Architecture for the 5G System » constituent les documents de référence qui définissent le NSACF et son intégration dans l’architecture 5G. Ces documents décrivent le NSACF comme une fonction réseau chargée de déterminer si un UE peut être admis dans une tranche particulière en fonction de facteurs tels que la charge actuelle, les ressources disponibles et les politiques établies.

L’introduction du NSACF s’inscrit dans une évolution plus large vers l’automatisation des réseaux et les réseaux auto-optimisants, où les décisions d’allocation de ressources sont prises de manière dynamique en fonction des conditions en temps réel plutôt que sur la base de configurations statiques.

Architecture et Fonctionnement du NSACF

Positionnement dans l’Architecture 5G

Dans l’architecture de référence, le NSACF communique directement avec :

  • Le Network Slice Selection Function (NSSF) qui identifie initialement la tranche appropriée pour un UE
  • Le Network Data Analytics Function (NWDAF) qui fournit des analyses sur l’état du réseau et la charge des tranches
  • Le Policy Control Function (PCF) qui définit les politiques générales d’allocation de ressources
  • Le Network Repository Function (NRF) pour la découverte et l’enregistrement des services

Cette interconnexion permet au NSACF d’avoir une vision globale de l’état du réseau tout en restant focalisé sur sa mission principale : le contrôle d’admission aux tranches.

Fonctionnalités Clés du NSACF

Les principales fonctionnalités du NSACF sont :

  1. Évaluation des demandes d’admission : Analyser chaque demande d’accès à une tranche en fonction des caractéristiques demandées et des ressources requises.
  2. Monitoring de la charge des tranches : Maintenir une vision à jour de l’utilisation des ressources par chaque tranche de réseau.
  3. Application des politiques d’admission : Implémenter les règles et politiques définies par l’opérateur concernant les priorités entre différents types de services ou d’abonnés.
  4. Décision d’admission : Déterminer si une demande d’accès à une tranche doit être acceptée, refusée ou redirigée.
  5. Coordination multi-domaines : Dans les scénarios impliquant plusieurs opérateurs ou domaines, coordonner les décisions d’admission entre ces différentes entités.
  6. Génération de métriques et rapports : Fournir des statistiques et des données sur les décisions d’admission et l’état des tranches pour alimenter les systèmes d’analyse et d’automatisation du réseau.

Call FLOW

Voici un exemple de call flow impliquant le NSACF  :

  1. Un UE envoie une demande de connectivité sur un slice, incluant ses besoins en termes de service.
  2. L’AMF (Access and Mobility Management Function) traite cette demande et consulte le NSSF pour identifier la tranche de réseau appropriée.
  3. Le NSSF détermine la tranche candidate et consulte le NSACF pour vérifier si cette tranche peut accepter une nouvelle connexion.
  4. Le NSACF évalue la demande en fonction de :
    • La charge actuelle de la tranche
    • Les ressources disponibles
    • Les politiques d’admission en vigueur
    • La priorité de la demande
  5. Le NSACF renvoie sa décision : acceptation, refus, ou suggestion d’une tranche alternative.
  6. En fonction de cette décision, l’UE est soit connecté à la tranche demandée, soit redirigé vers une tranche alternative, soit informé de l’impossibilité temporaire d’accéder au service.

Méthodes d’Évaluation et Critères de Décision

Les décisions du NSACF reposent sur plusieurs critères et méthodes d’évaluation sophistiqués :

  1. Modèles de charge prédictifs : Utilisation d’algorithmes pour anticiper l’évolution de la charge des tranches en fonction des tendances historiques.
  2. Seuils dynamiques : Définition de seuils d’utilisation adaptés à chaque type de tranche et ajustés en fonction du contexte (heure de la journée, événements spéciaux, etc.).
  3. Évaluation multi-paramètres : Prise en compte simultanée de plusieurs métriques comme la bande passante disponible, la capacité de traitement, la latence attendue, etc.
  4. Politiques de priorité et préemption : Application de règles permettant à certains services critiques ou utilisateurs prioritaires d’accéder aux tranches même en situation de congestion.
  5. Optimisation globale du réseau : Décisions visant à maximiser l’efficacité globale du réseau plutôt que simplement satisfaire des demandes individuelles.

Ces mesures permettent au NSACF de prendre des décisions qui équilibrent les besoins immédiats des utilisateurs avec l’optimisation des ressources réseau à plus long terme.

Différences Fonctionnelles : Avant et Après le NSACF

Gestion des Tranches Avant le NSACF

Avant l’introduction formelle du NSACF dans la Release 17, le contrôle d’admission aux tranches de réseau existait sous des formes moins centralisées et moins sophistiquées. Dans les premières implémentations du network slicing (Release 15 et Release 16), plusieurs mécanismes et fonctions coopéraient pour assurer un rôle similaire :

  1. Approche par politiques statiques : Les décisions d’allocation étaient principalement basées sur des politiques prédéfinies et relativement rigides, configurées par l’opérateur.
  2. Rôle central du NSSF : Le Network Slice Selection Function jouait un rôle prépondérant dans la sélection des tranches, mais ses décisions étaient davantage fondées sur les caractéristiques du service demandé que sur l’état de charge des tranches.
  3. Limitations du PCF : Le Policy Control Function contribuait à l’application des politiques, mais n’avait pas la visibilité spécifique sur l’utilisation des ressources par tranche.
  4. Absence de vision globale : Sans fonction centralisée, il était difficile d’avoir une vision d’ensemble de l’utilisation des ressources par les différentes tranches.
  5. Gestion réactive plutôt que proactive : Les problèmes de congestion étaient souvent traités après leur apparition plutôt qu’anticipés.
  6. Dimensionnement par surcapacité : Pour pallier l’absence de contrôle d’admission dynamique, les opérateurs tendaient à surdimensionner les ressources allouées à chaque tranche, réduisant l’efficacité globale.

Cette approche présentait plusieurs défis :

  • Risque de congestion de certaines tranches tandis que d’autres étaient sous-utilisées
  • Difficulté à réagir rapidement aux variations de demande
  • Efficacité limitée dans l’utilisation des ressources réseau
  • Complexité accrue dans la gestion des priorités entre services

Améliorations Apportées par le NSACF

L’introduction du NSACF a apporté des améliorations significatives sur plusieurs aspects :

  1. Centralisation des décisions : Une fonction unique et spécialisée traite désormais toutes les décisions d’admission, garantissant une cohérence globale.
  2. Décisions basées sur l’état réel : Le NSACF prend ses décisions en fonction de l’état actuel et prévu des tranches, plutôt que sur des règles statiques.
  3. Optimisation dynamique : Les ressources peuvent être allouées de manière plus fluide entre les tranches en fonction des besoins réels.
  4. Gestion proactive : La capacité à anticiper les congestions permet d’agir avant que les problèmes n’affectent les utilisateurs.
  5. Équilibrage charge/qualité : Meilleur équilibre entre maximisation du nombre d’utilisateurs et maintien de la qualité de service.
  6. Intégration avec l’analytique réseau : Le NSACF peut exploiter les données d’analytique du réseau pour des décisions plus informées.
  7. Support des SLA différenciés : Capacité accrue à respecter différents niveaux de service pour diverses catégories d’utilisateurs ou applications.

Ces améliorations ont des impacts concrets :

  • Meilleure utilisation des ressources réseau, permettant de servir plus d’utilisateurs avec la même infrastructure
  • Réduction des incidents liés à la congestion des tranches
  • Amélioration de l’expérience utilisateur grâce à une qualité de service plus stable
  • Support plus efficace de la diversification des services sur le réseau 5G

Alternatives et Mécanismes de Continuité de Service

Scénarios de Refus d’Admission

Lorsqu’un UE se voit refuser l’accès à une tranche de réseau par le NSACF, plusieurs scénarios peuvent se présenter, chacun avec ses propres implications :

  1. Refus temporaire : La tranche est momentanément surchargée mais devrait redevenir disponible rapidement.
  2. Refus persistant : La tranche est confrontée à une congestion de longue durée ou à des limitations de ressources structurelles.
  3. Refus partiel : L’accès est accordé mais avec des limitations de service (bande passante réduite, priorité moindre, etc.).
  4. Refus sélectif : Certains types de services au sein d’une tranche sont limités tandis que d’autres restent accessibles.

Ces différents scénarios nécessitent des approches distinctes pour assurer la continuité du service pour l’utilisateur.

Mécanismes de Redirection vers des Tranches Alternatives

L’un des principaux mécanismes permettant de maintenir le service malgré un refus d’admission est la redirection vers des tranches alternatives :

  1. Tranches équivalentes : Redirection vers une autre tranche offrant des caractéristiques similaires mais moins chargée.
  2. Tranches de repli (fallback) : Utilisation de tranches spécifiquement conçues pour absorber le trop-plein des tranches principales.
  3. Tranches hiérarchisées : Système où les tranches sont organisées en niveaux de priorité, permettant un « débordement » structuré.
  4. Tranches dynamiques : Création à la volée de nouvelles instances de tranches pour répondre aux pics de demande.

Le processus de redirection est généralement transparent pour l’utilisateur, qui continue à bénéficier du service sans percevoir le changement de tranche sous-jacent. Cette transparence est essentielle pour maintenir une expérience utilisateur.

Politiques de Priorité et Préemption

Les mécanismes de priorité et préemption constituent une autre approche importante :

  1. Niveaux de priorité des UE : Attribution de niveaux de priorité différents aux utilisateurs en fonction de leur type d’abonnement ou de leur rôle (services d’urgence, infrastructures critiques, etc.).
  2. Préemption contrôlée : Possibilité de libérer des ressources en réduisant le service alloué à des connexions de moindre priorité.
  3. Dégradation gracieuse : Réduction progressive de la qualité de service pour accommoder plus d’utilisateurs plutôt que de refuser totalement l’accès.
  4. Quotas garantis : Réservation de ressources minimales pour chaque niveau de priorité, assurant qu’un service de base reste disponible même en cas de congestion.

Ces mécanismes permettent d’assurer que les services les plus critiques restent disponibles même dans des conditions de ressources limitées, tout en maximisant le nombre d’utilisateurs pouvant accéder au réseau.

Stratégies de Partage de Ressources

Le partage intelligent des ressources entre tranches constitue également une stratégie efficace :

  1. Partage dynamique : Allocation flexible des ressources entre tranches en fonction de l’utilisation réelle plutôt que de réservations statiques.
  2. Mutualisation conditionnelle : Possibilité pour une tranche d’utiliser temporairement les ressources inutilisées d’une autre tranche.
  3. Isolation garantie avec débordement : Maintien d’un niveau d’isolation entre tranches pour la qualité de service, tout en permettant un débordement contrôlé en cas de besoin.
  4. Adaptation temporelle : Modification des allocations de ressources en fonction des variations prévisibles de la demande (heures de pointe, événements spéciaux, etc.).

Ces stratégies permettent d’optimiser l’utilisation globale des ressources du réseau tout en préservant les caractéristiques essentielles de chaque tranche.

Défis et Perspectives d’Évolution

Défis Actuels dans l’Implémentation du NSACF

Malgré ses avantages significatifs, le NSACF et les mécanismes associés font face à plusieurs défis :

  1. Complexité algorithmique : Développer des algorithmes de décision efficaces qui équilibrent multiples facteurs tout en prenant des décisions en temps réel.
  2. Cohérence multi-domaines : Assurer une cohérence des décisions d’admission lorsque les services traversent plusieurs domaines ou opérateurs.
  3. Prédiction de charge précise : Améliorer la précision des prévisions de charge pour des décisions proactives plutôt que réactives.
  4. Équité vs optimisation : Trouver le juste équilibre entre l’optimisation des ressources et l’équité d’accès entre différentes catégories d’utilisateurs.
  5. Diversité des métriques : Intégrer une multitude de métriques hétérogènes dans le processus de décision (bande passante, latence, fiabilité, etc.).
  6. Transparence pour l’utilisateur : Gérer les redirections et adaptations de service de manière transparente pour préserver l’expérience utilisateur.
  7. Conformité aux SLA : Garantir que les décisions d’admission respectent les engagements contractuels pris envers les clients.

Évolutions Attendues dans les Futures Releases

Les prochaines évolutions du 3GPP devraient apporter des améliorations significatives au NSACF et aux mécanismes associés :

  1. Intégration accrue avec l’IA et le ML : Utilisation d’algorithmes d’intelligence artificielle et de machine learning pour optimiser dynamiquement les décisions d’admission.
  2. Automatisation avancée : Évolution vers des réseaux auto-optimisants où les paramètres du NSACF s’ajustent automatiquement en fonction des conditions.
  3. Harmonisation inter-opérateurs : Standardisation accrue des interfaces permettant une meilleure coordination entre NSACF de différents opérateurs.
  4. Granularité plus fine : Passage d’une gestion au niveau des tranches à une gestion au niveau des flux ou des sessions individuelles.
  5. Intégration MEC (Multi-access Edge Computing) : Prise en compte de la localisation des ressources de computing edge dans les décisions d’admission.
  6. Mécanismes de réservation anticipée : Possibilité de réserver des ressources pour des événements planifiés ou des services critiques.
  7. Différenciation contextuelle : Adaptation des critères d’admission en fonction du contexte (localisation, type d’appareil, application, etc.).

Impact sur les Futurs Services et Applications

Ces évolutions du NSACF auront un impact significatif sur le développement des services  6G :

  1. Support de garanties de QoS plus strictes : Permettra l’émergence d’applications critiques nécessitant des garanties de service très strictes.
  2. Personnalisation accrue des services : Facilitera la création de services hautement personnalisés avec des caractéristiques réseau sur mesure.
  3. Efficacité énergétique : Contribuera à l’optimisation de la consommation énergétique des réseaux par une allocation plus efficiente des ressources.
  4. Extension aux environnements non-terrestres : Adaptation des mécanismes pour les réseaux satellitaires et autres environnements non-terrestres.
  5. Convergence fixe-mobile : Facilitation de l’intégration transparente entre réseaux fixes et mobiles grâce à des mécanismes d’admission harmonisés.
  6. Virtualisation extrême : Support de modèles où presque toutes les fonctions réseau sont virtualisées et dynamiquement reconfigurables.
  7. Applications distribuées complexes : Facilitation du déploiement d’applications distribuées utilisant simultanément plusieurs tranches avec différentes caractéristiques.

Ces évolutions ouvrent la voie à une nouvelle génération de services numériques où les caractéristiques réseau deviennent une ressource flexible et programmable, s’adaptant dynamiquement aux besoins spécifiques de chaque application.

Conclusion

En passant d’une allocation relativement statique des ressources à une approche dynamique et contextuelle, le NSACF apporte de la flexibilités et de l’adaptabilité sur l’allocation des ressources afin de garantir :

  • une optimisation de l’utilisation des ressources
  • une meilleure garantie de la qualité de service
  • un support plus efficace de la diversification des services
  • une capacité à gérer des pics de demande sans dégradation majeure de l’expérience utilisateur.

Même lorsqu’un équipement utilisateur se voit refuser l’accès à une tranche spécifique, les mécanismes de redirection, priorisation et adaptation permettent dans la plupart des cas de maintenir la continuité du service. Cette capacité à équilibrer l’admission aux tranches tout en préservant l’expérience utilisateur est le rôle principal de cette fonction.

Les défis actuels et les évolutions futures du NSACF s’inscrivent dans une tendance plus large vers des réseaux toujours plus intelligents, automatisés et adaptables. L’intégration progressive de l’intelligence artificielle, de l’analyse prédictive et de mécanismes d’auto-optimisation ouvre la voie à des réseaux capables de s’adapter en temps réel à des besoins en constante évolution pour transformer les réseaux de simples canaux de communication en plateformes de services intelligentes où les caractéristiques réseau deviennent des ressources programmables au service de l’innovation numérique.

 

Références

 

  • 3GPP TR 23.700-91, « Study on enablers for Network Automation for 5G », 2020-2021
  • 3GPP TS 23.501, « System Architecture for the 5G System; Stage 2 », v17.0.0, 2021
  • 3GPP TS 28.552, « Management and orchestration; 5G performance measurements », v17.2.0, 2021
  • Ericsson, « 5G Network Slicing: Ensuring end-to-end performances », Ericsson Technology Review, 2020
  • Nokia Bell Labs, « Dynamic Resource Allocation in 5G Network Slicing », Nokia White Paper, 2019
  • Huawei, « 5G Network Slicing Whitepaper », 2020
  • ZTE, « Network Slicing and Resource Management in 5G Networks », ZTE Communications, vol. 17, no. 2, 2019

 

Comprendre le concept du modèle ML/IA – Le cycle de vie (TR28.908)

Le cycle de vie d’un modèle IA en 5G

À partir du document 3GPP TR 28.908 version 18.0.0 Release 18 « Study on Artificial Intelligence/Machine Learning (AI/ ML) management », cet article présente le cycle de vie d’un modèle IA.

Après avoir traduit le document TR 28.908, je propose une explication de quelques lignes.

Entraînement du modèle ML

Traduction : L’entraînement d’un modèle ML ou d’un groupe de modèles ML en phase de production a pour objectif d’évaluer ses performances lorsqu’il traite les données d’entraînement et les données de validation. Si le résultat de validation ne répond pas aux attentes (par exemple, si la variance n’est pas acceptable), le modèle ML doit être réentraîné.

C’est la première phase où l’on nourrit le modèle avec des données pour qu’il apprenne des motifs et des relations. La validation intervient pendant cette phase pour vérifier si le modèle apprend correctement, sans surapprentissage ni sous-apprentissage.

Test du modèle ML

Traduction : test d’un modèle ML validé pour évaluer les performances du modèle entraîné lorsqu’il traite des données de test. Si le résultat du test répond aux attentes, le modèle ML peut passer à l’étape suivante. Si le résultat du test ne répond pas aux attentes, le modèle ML doit être ré-entraîné.

Explication : après l’entraînement et la validation, on teste le modèle avec des données qu’il n’a jamais vues pour confirmer qu’il généralise bien ses apprentissages. Cette phase détermine si le modèle est prêt pour le déploiement réel.

Émulation d’inférence IA/ML

Traduction : Exécution d’un modèle ML pour l’inférence dans un environnement d’émulation. L’objectif est d’évaluer les performances d’inférence du modèle ML dans cet environnement avant de l’appliquer au réseau ou système cible. Si le résultat de l’émulation ne répond pas aux attentes (par exemple, si les performances d’inférence n’atteignent pas l’objectif, ou si le modèle ML impacte négativement les performances d’autres fonctionnalités existantes), le modèle ML doit être ré-entraîné.

NOTE : L’émulation d’inférence IA/ML est considérée comme optionnelle et peut être ignorée dans le cycle de vie du modèle ML.

Explication : cette étape simule l’utilisation du modèle dans des conditions réelles, mais dans un environnement contrôlé. On vérifie la vitesse, la fiabilité et l’impact du modèle sur les systèmes existants avant de risquer un déploiement en production.

Déploiement du modèle ML

Traduction : le déploiement du modèle ML comprend le processus de chargement du modèle ML (également appelé séquence d’actions atomiques) pour rendre un modèle ML entraîné disponible pour utilisation par la fonction d’inférence IA/ML cible.

Le déploiement du modèle ML peut ne pas être nécessaire dans certains cas, par exemple lorsque la fonction d’entraînement et la fonction d’inférence sont co-localisées.

Explication : C’est l’étape où le modèle est installé dans l’environnement de production. Cela peut impliquer des transformations du modèle, des optimisations ou des intégrations avec d’autres systèmes.

Inférence IA/ML

Traduction : Réalisation d’inférences en utilisant un modèle ML entraîné par la fonction d’inférence IA/ML. L’inférence IA/ML peut également déclencher un réentraînement ou une mise à jour du modèle basée, par exemple, sur la surveillance et l’évaluation des performances.

NOTE : Selon l’implémentation du système et les arrangements de fonctionnalités IA/ML, les étapes d’émulation d’inférence IA/ML et de déploiement ML peuvent être ignorées.

Explication : C’est l’utilisation proprement dite du modèle en production pour générer des prédictions ou des décisions sur de nouvelles données. À cette étape, le modèle peut être configuré pour signaler quand ses performances se dégradent, ce qui déclencherait un nouveau cycle d’entraînement.

En résumé, ces étapes décrivent le cycle de vie complet d’un modèle d’apprentissage automatique, de sa création à son déploiement en production, avec des points de contrôle et de validation à différentes étapes pour garantir sa qualité et son efficacité.

Figure 1 : extraite de Sharetechnote https://www.sharetechnote.com/html/5G/5G_AI_ML.html

 

 

 

 

 

 

 

MSISDN-less MO SMS

Introduction

MSISDN-less MO SMS est un service qui permet à un appareil sans numéro de téléphone classique (MSISDN-less), comme un objet connecté, d’envoyer un SMS vers un serveur applicatif via le NEF, en utilisant des identifiants alternatifs comme le GPSI. Il faut que cet appareil ait un abonnement spécifique, et le réseau ne stocke pas le SMS s’il ne peut pas être délivré immédiatement.

Description

Nous allons commencer par expliquer les termes de ce service :

  • MO SMS signifie Mobile Originated SMS, c’est-à-dire un SMS envoyé depuis le terminal mobile (UE – User Equipment).
  • MSISDN-less veut dire qu’il n’y a pas de numéro de téléphone classique (le MSISDN) associé à l’envoi du SMS. Ça veut dire que l’UE (le terminal) envoie un SMS sans s’identifier avec un numéro de téléphone mobile, mais plutôt via d’autres identifiants, comme le GPSI ou l’IMSI.

👉 Ce service est souvent utile pour des objets IoT (Internet of Things) ou des appareils qui n’ont pas de numéro de téléphone traditionnel.

La souscription au service :

  • Avant de pouvoir envoyer ce genre de SMS, l’UE doit avoir un abonnement spécifique (subscription) dans le réseau.
  • Ce sous-service indique au réseau si l’UE est autorisé ou non à envoyer ce type de SMS MSISDN-less.

Service Centre Address & SMS-SC :

  • L’UE est préconfiguré avec l’adresse d’un Service Centre (SC) spécifique.
  • Ce SC est en fait un SMS-SC (Short Message Service – Service Centre), qui s’occupe de prendre en charge et d’acheminer le SMS envoyé par l’UE.
  • Ici, ce SMS-SC travaille avec le NEF pour délivrer le SMS.

NEF & AF :

  • NEF (Network Exposure Function) est une passerelle dans l’architecture du réseau 5G. C’est lui qui expose des services réseau aux applications externes (AF – Application Function).
  • Dans ce cas, le NEF sert à transporter le SMS vers une destination prédéfinie, qui est une Application Function (AF).

👉 L’adresse du destinataire du SMS (SME – Short Message Entity) est pré-configurée dans le terminal.

Les identifiants GPSI et IMSI 

  • Le GPSI (Generic Public Subscription Identifier) est une identité publique, un peu comme le MSISDN, mais qui peut prendre différentes formes (adresse e-mail, identifiant SIP…).
  • Si l’UE a plusieurs GPSI associés au même IMSI (l’identité internationale d’abonné), alors on utilise une valeur spécifique (Application Port ID) présente dans le SMS pour savoir quel GPSI est concerné.
  • Le NEF peut interroger le UDM (User Data Management) avec l’IMSI + le port d’application pour retrouver le bon GPSI.

Delivery & Reporting :

  • Le terminal (UE) sait si son SMS est délivré ou pas, grâce à un rapport de livraison qui lui est renvoyé par le SMS-SC.
  • Par contre, il n’y a pas de fonction de « store and forward » pour ces SMS.

👉 Ça veut dire que si l’AF n’est pas dispo pour recevoir le message au moment de l’envoi, le réseau ne le stocke pas pour le retenter plus tard.

Pour aller plus loin : TS 23.502 :

Le TS 23.502 décrit les services du réseau 5G, on trouve une description plus complète du fonctionnement du NEF, de ses services et opérations, notamment comment il expose les SMS aux AF.

 

Comprendre le concept du modèle ML/IA – Sur le CN

Cet article reprend une partie des fonctionnalités déjà détaillées pour le NWDAF

Intégration de l’IA/ML dans le cœur 5G

La nouveauté majeure introduite dans la Release 15 du 3GPP est le Network Data Analytics Function (NWDAF), qui fournit divers résultats d’analyse pour soutenir un ensemble de cas d’utilisation.

Le NWDAF héberge différents algorithmes d’IA/ML alimentés par des données provenant de diverses fonctions réseau NF (Network Function). Il produit des résultats d’analyse spécifiques qui peuvent être consommés (en référence à l’architecture SBA ou les fonctions sont productrives ou consommatrices) par différentes fonctions réseau. Les exemples d’applications incluent:

  • La prédiction des modèles de trafic pour optimiser le nombre d’instances UPF déployées
  • La prévision de la mobilité des utilisateurs
  • L’optimisation dynamique des ressources réseau

Les capacités IA/ML du NWDAF incluent des algorithmes de prédiction, des capacités d’IA générative, et des techniques de clustering.

Approches d’apprentissage pour les modèles IA/ML

Avec la disponibilité de volumes importants de données provenant de différentes sources à différents endroits, l’entraînement des modèles IA/ML peut adopter diverses approches:

  1. Apprentissage centralisé: Les modèles sont entraînés dans un emplacement centralisé avec des données agrégées.
  2. Apprentissage fédéré: L’entraînement se produit en continu dans différentes parties du réseau. Les modèles sont entraînés sur des nœuds locaux avec des sources de données locales et mis à jour par un modèle global entraîné dans un emplacement centralisé avec des sources de données agrégées. On distingue l’apprentissage fédéré horizontal et verticale (R.19)
  3. Approches alternatives: D’autres méthodes d’apprentissage distribuées peuvent être employées selon les cas d’utilisation spécifiques.

L’apprentissage fédéré améliore l’évolutivité, la sécurité et la précision en adaptant le modèle IA/ML aux données uniques spécifiques à chaque emplacement.

On distingue l’apprentissage fédéré horizontal (gauche Figure 1) et l’apprentissage fédérée verticale (droite Figure 1)

Figure 1 : Horizontal Federated Learning HFL (gauche) et Vertical Federated Learning  VFL (droite)

Dans le cas du HFL, on alimente deux ML qui ont les mêmes caractéristiques avec des données complémentaires. Par exemple, deux opérateurs peuvent apporter un profil de leurs clients pour augmenter les données;

Dans le cas du VFL, on alimente deux ML avec des données complémentaires. Par exemple, on peut s’intéresser pour un client donnée de ses états MM et on complète par les états CM

Gestion de réseau assistée par IA pour le cœur du réseau

Orchestration et provisionnement automatisés

  • Orchestration: L’IA/ML peut aider à automatiser les processus de provisionnement et à optimiser l’allocation des ressources pour diverses fonctions réseau.
  • Détection d’erreurs de provisionnement: Les algorithmes d’IA/ML peuvent détecter les erreurs de provisionnement de manière automatisée, permettant des corrections proactives.
  • Analyse des journaux de trafic: L’analyse GenAI des journaux de trafic, qui comprend un mélange de données non structurées et structurées, peut indiquer des défaillances potentielles, y compris la prédiction des défaillances et aider à identifier les causes profondes.
  • Détection des failles de sécurité: Les violations de sécurité potentielles peuvent être détectées via des algorithmes d’IA/ML, aidant à décider de manière proactive de l’atténuation appropriée.

Amélioration de l’efficacité opérationnelle

Dans l’OSS/BSS, l’IA/ML et l’IA générative peuvent améliorer considérablement l’efficacité opérationnelle et l’expérience client:

  • Gestion de l’expérience client: Les chatbots pilotés par l’IA peuvent gérer les requêtes courantes des clients.
  • Facturation et assurance des revenus: La prédiction du taux d’abandon (churn predicting) basée sur l’IA/ML peut grandement bénéficier à ces domaines pour estimer à quel moment un client arrête le service demandé..
  • Planification réseau: La planification réseau peut être soutenue par des techniques de prévision de trafic basées sur l’IA/ML.

En cas de défaillance, la gestion centralisée de plusieurs agents permet d’analyser différentes pistes afin de trouver la cause réelle de la panne. Par exemple, un appel VoNR qui s’arrête peut provenir de plusieurs causes : coupure radio, restauration du P-CSCF, TAS en erreur, routage erroné, … Les outils comme Agentic.ia va explorer les différents log et si un prestataire doit être contacté, l’outil peut générer le ticket client.

Network Data Analytics Function (NWDAF)

Introduction et évolution du NWDAF

Le NWDAF a été introduit à l’origine dans la Release 15 du 3GPP comme mécanisme pour rapporter des insights sur le fonctionnement du réseau. Ces insights peuvent ensuite être utilisés par d’autres fonctions pour réaliser une automatisation en boucle fermée afin d’améliorer le fonctionnement du réseau.

On appelle insight des connaissances exploitables ou des résultats d’analyse dérivés des données du réseau. Ces insights peuvent concerner par exemple les modèles de trafic, le comportement des utilisateurs, ou les performances du réseau, et sont utilisés par d’autres fonctions du réseau pour optimiser leur fonctionnement.

Le NWDAF réalise cela en:

  • Collectant et agrégeant des données de différentes parties du réseau cœur
  • Analysant ces données pour identifier des modèles et générer des prédictions via des algorithmes statistiques et basés sur le ML (y compris le DL)
  • Respectant la confidentialité lors de la collecte de données, permettant aux utilisateurs de choisir de participer ou non à la collecte de données

Intégration avec d’autres fonctions réseau

Le NWDAF s’intègre avec d’autres fonctions réseau via une interface basée sur les services (SBI). Cette intégration permet à d’autres fonctions réseau de devenir des abonnés aux événements générés par le NWDAF et d’influencer le fonctionnement du réseau cœur en consommant ces événements.

Toute fonction réseau conforme au 3GPP, fonction d’application (AF) ou opération, administration et maintenance (OAM) devrait pouvoir utiliser les services d’analyse activés par le NWDAF en tant que consommateur pour prendre des décisions basées sur l’analyse dans le cadre de leurs procédures réseau.

Cas d’utilisation et services d’analyse

Différents cas d’utilisation ont été implémentés et pris en charge dans le NWDAF dans un environnement multi-fournisseurs. Le NWDAF de la version 16 de la spécification technique 29.520 [2] du 3GPP prend en charge les services d’analyse définis dans la TS 23.288 [1]:

  1. Analytique de charge de tranche réseau
  2. Analytique d’expérience de service
  3. Analytique de charge de fonction réseau
  4. Analytique de performance réseau
  5. Analytique de comportement anormal/attendu de l’UE
  6. Analytique de mobilité de l’UE
  7. Analytique de communication de l’UE
  8. Analytique de congestion des données utilisateur
  9. Analytique de durabilité de la QoS

Apprentissage fédéré dans le NWDAF

Le document détaille comment le NWDAF a évolué pour inclure des capacités d’apprentissage fédéré:

  • Release 17: Le NWDAF a acquis la capacité d’effectuer un apprentissage fédéré horizontal (HFL), souvent simplement appelé apprentissage fédéré. Le HFL est une technique de ML préservant la confidentialité qui permet un entraînement de modèle collaboratif entre différentes zones d’intérêt.
  • Fonctionnement du HFL: Chaque zone d’intérêt entraîne son modèle localement en utilisant le NWDAF le plus proche, et l’apprentissage collectif de plusieurs zones est ensuite agrégé via une fonction centrale sur le serveur NWDAF. Le processus est qualifié d' »horizontal » car chaque participant a le même espace de caractéristiques mais des échantillons différents.
  • Avantages du HFL: Cette approche réduit le volume de données transférées sur le SBI, car seuls les paramètres neuronaux—améliorés par des protocoles préservant la confidentialité comme l’agrégation sécurisée—sont transmis, plutôt que les données brutes. La réduction du volume de données peut être encore améliorée via l’utilisation de techniques comme la distillation de connaissances, la quantification et l’élagage des paramètres neuronaux.
  • Release 18: La Release 18 a introduit l’apprentissage fédéré et le transfert de modèle de machine learning entre différents domaines administratifs, comme les réseaux mobiles connectés par des accords d’itinérance, étendant davantage le cycle de vie des modèles initialement déployés dans le NWDAF.
  • Release 19: La Release 19 introduit l’apprentissage fédéré vertical (VFL) dans le NWDAF entre les NWDAF et les fonctions d’application. Le VFL offre plusieurs améliorations par rapport au HFL:
    • Chaque participant peut avoir sa propre architecture de réseau neuronal
    • Chaque participant peut avoir son propre espace de caractéristiques
    • Les nouvelles données, comme celles collectées dans les fonctions d’application, peuvent être utilisées en combinaison avec le réseau cœur pour entraîner de meilleurs modèles ML
  • Applications du VFL: Des cas d’utilisation comme la prédiction de QoS utilisant l’entrée des fonctions d’application sont en cours de développement et bénéficient du VFL. Notamment, le VFL est introduit comme une extension de l’apprentissage fédéré, ce qui signifie que les cas d’utilisation existants peuvent également bénéficier de cette nouvelle fonctionnalité.

Fonctionnement du VFL vs HFL

Dans le VFL, le modèle ML est divisé en modèle de tête et modèle de queue. Le processus d’entraînement VFL implique:

  1. La propagation vers l’avant commence sur les modèles des Clients A et B
  2. Leurs activations sont communiquées au modèle de queue où elles sont concaténées
  3. Le modèle de queue effectue une propagation vers l’avant et calcule la perte en utilisant des étiquettes locales
  4. La rétropropagation commence et les dérivées partielles sont envoyées aux modèles de tête correspondants
  5. Chaque client effectue sa propre rétropropagation
  6. Le processus se poursuit avec plusieurs itérations jusqu’à ce que toutes les données aient été traitées

Du point de vue du 3GPP, HFL et VFL sont deux approches pour apprendre un modèle collaborativement sans partager de données. Ils sont spécifiés de manière agnostique au processus de HFL ou VFL, considérant plutôt une architecture client-serveur et la capacité de chaque nœud à prendre en charge HFL ou VFL et potentiellement d’autres techniques qui pourraient être introduites à l’avenir.

Gestion du cycle de vie et flux de travail dans le NWDAF

Les procédures introduites dans le NWDAF pour prendre en charge l’apprentissage automatique permettent la gestion du cycle de vie des modèles IA/ML dans le réseau cœur. La gestion du cycle de vie des modèles IA/ML est le processus ou l’ensemble de tâches nécessaires pour entraîner, mettre à jour et maintenir un modèle d’apprentissage automatique.

En raison de la nature basée sur les données des modèles d’apprentissage automatique, la gestion du cycle de vie des modèles IA/ML est essentielle car elle assure la reproductibilité de l’apprentissage automatique lorsqu’ils quittent l’environnement de science des données et passent en production.

La gestion du cycle de vie des modèles aborde des problèmes tels que:

  • Comment entraîner et déployer un modèle à grande échelle
  • La gouvernance, la qualité et la conformité des données
  • La supervision du processus d’entraînement via des pipelines de traitement de données
  • Les mécanismes pour se connecter aux sources de données et prétraiter les données

Le rôle de l’IA générative dans le cœur du paquet et les systèmes BSS/OSS

Amélioration du traitement des données

Le document explique que l’IA générative peut améliorer significativement le traitement et l’analyse des données dans les réseaux cœur et le NWDAF, ainsi que les systèmes OSS/BSS:

  • Génération de données synthétiques: L’IA générative peut générer des données synthétiques pour compenser les lacunes ou enrichir les ensembles de données avec des informations limitées. Cela réduit le besoin de collecte extensive de données, ce qui diminue les coûts de communication et améliore la confidentialité lors du traitement de données sensibles.
  • Jumeaux numériques: Dans le contexte du NWDAF, l’IA générative peut aider à créer des jumeaux numériques de fonctions réseau NF, permettant la simulation de divers scénarios. Par exemple, elle peut modéliser des conditions futures potentielles comme l’augmentation du trafic réseau et prédire leur impact sur des KPI comme la latence, le débit et la consommation d’énergie, tout en tenant compte de la durabilité.

Transformation des systèmes BSS/OSS

Les systèmes BSS/OSS, cruciaux pour soutenir les opérations et les fonctions commerciales d’un opérateur de télécommunications, peuvent grandement bénéficier de l’IA générative:

  • Évolution des systèmes: Traditionnellement, les systèmes BSS/OSS s’appuyaient sur des requêtes SQL pour récupérer des données des bases de données. Cependant, avec l’avènement du big data, ces systèmes ont évolué pour incorporer l’IA et l’analytique avancée pour des insights plus profonds dans les opérations réseau.
  • Capacités des LLM: L’IA générative, particulièrement les grands modèles de langage (LLM), offre de nouvelles capacités. Par exemple, les LLM peuvent traduire le langage naturel en requêtes SQL, rendant l’accès à l’information plus intuitif et éliminant le besoin d’une connaissance intriquée des schémas de base de données.
  • Analyse de données améliorée: Les LLM peuvent améliorer l’analyse de données au sein des systèmes BSS/OSS grâce à des techniques comme la génération augmentée par récupération ou le fine-tuning, leur permettant d’intégrer les résultats avec des connaissances supplémentaires et de fournir des insights plus complets.

Applications pratiques

L’intégration des LLM dans les systèmes BSS/OSS promet des avantages significatifs pour les réseaux mobiles:

  • Automatisation du dépannage: Les LLM peuvent être utilisés pour automatiser les processus de dépannage en exploitant les informations des tickets précédemment résolus pour la gestion du réseau.
  • Service client: Les LLM peuvent agir comme un assistant virtuel infatigable fournissant une aide directe aux abonnés, améliorant l’expérience utilisateur et réduisant la charge sur le support client humain.
  • Cybersécurité: Les LLM peuvent être utilisés pour générer de nouvelles attaques dans les réseaux mobiles, qui peuvent ensuite être utilisées pour développer des mécanismes de défense qui préviennent de telles attaques, renforçant la posture de sécurité globale.

Ces applications démontrent le potentiel transformateur de l’IA générative dans les opérations de réseau cœur et les systèmes BSS/OSS, conduisant à une efficacité opérationnelle accrue, une meilleure expérience client et une sécurité renforcée.

Processus de bout en bout pour le déploiement de l’IA dans les réseaux

Le document souligne que l’IA/ML peut être utilisée pour optimiser le fonctionnement de divers segments des réseaux cellulaires. Pour y parvenir, les processus d’entraînement de l’IA/ML et les moteurs d’inférence doivent être intégrés dans les différents segments des réseaux cellulaires et pris en charge pour la gestion de leur cycle de vie.

Réseaux pilotés par l’intention et IA

L’IA joue un rôle crucial dans les réseaux pilotés par l’intention, où elle et l’approche basée sur l’intention se renforcent mutuellement:

  • L’IA aide à éliminer les goulets d’étranglement dans l’implémentation des intentions, tandis que les réseaux basés sur l’intention simplifient l’exécution des politiques d’IA, réduisant le besoin d’API traditionnelles.
  • Les réseaux pilotés par l’intention représentent un changement de paradigme vers une approche de gestion de réseau plus dynamique et adaptative. Ils se concentrent sur la traduction d’objectifs commerciaux de haut niveau en politiques et configurations réseau exploitables.

L’IA améliore les réseaux pilotés par l’intention de plusieurs façons:

  1. Décisions contextuelles: L’IA améliore les réseaux pilotés par l’intention en permettant une prise de décision contextuelle. Elle aide à traduire les intentions commerciales en actions réseau en analysant les données en temps réel et en adaptant les politiques réseau pour s’aligner avec des objectifs spécifiques.
  2. Automatisation et optimisation: L’automatisation pilotée par l’IA facilite l’implémentation de politiques basées sur l’intention à travers le réseau. Elle optimise les ressources et la performance réseau basées sur des intentions commerciales prédéfinies, réduisant l’intervention manuelle et améliorant l’efficacité opérationnelle.
  3. Évolutivité et flexibilité: L’évolutivité de l’IA lui permet de s’adapter à divers environnements et intentions réseau. Que ce soit dans le Cloud RAN, l’Open RAN ou le RAN traditionnel, l’IA peut être exploitée pour interpréter et exécuter les intentions réseau, assurant que le réseau évolue en réponse aux besoins commerciaux et conditions opérationnelles changeants.

Gestion du cycle de vie (LCM) des modèles d’IA

Une gestion efficace du cycle de vie des modèles d’IA est cruciale pour assurer la performance optimale des modèles d’IA/ML afin d’apporter plus d’adaptabilité dans les architectures réseau modernes. Cela implique plusieurs processus et méthodologies clés.

Collecte et préparation des données

Les modèles d’IA sont fondamentalement pilotés par les données, faisant de la collecte de données une première étape critique dans leur développement:

  • Pour créer des modèles d’IA efficaces, il est essentiel de recueillir des données extensives de divers éléments réseau, y compris RAN, le coeur du réseaux et les applications.
  • Ces données englobent le comportement utilisateur, les modèles de trafic et les métriques de performance réseau.
  • La qualité et l’efficacité des résultats de l’IA dépendent de l’accès à des données amples, à jour et anonymisées pour l’entraînement.
  • Les données brutes contiennent souvent des erreurs ou des valeurs manquantes qui doivent être nettoyées et formatées pour permettre aux modèles d’IA d’apprendre avec précision et efficacité.

Sélection et entraînement des modèles

Après la phase de préparation des données, la sélection d’un modèle d’IA approprié est cruciale:

  • Le choix du modèle influence significativement la performance dans la reconnaissance de modèles et la précision de prédiction.
  • Le modèle doit s’aligner avec le problème spécifique à adresser.
  • Une fois le modèle et les données préparés, le processus d’entraînement peut commencer en utilisant les données traitées.
  • Les algorithmes d’IA/ML doivent être entraînés pour comprendre les comportements sous-jacents du réseau ou d’environnements similaires.
  • Des barrières de protection et des mécanismes de surveillance adéquats assurent que le réseau opère dans les paramètres attendus, maintenant la stabilité et la performance.

Évaluation, validation et déploiement

Après l’entraînement, le modèle subit une évaluation et une validation:

  • Cette étape détermine si un développement supplémentaire est nécessaire, pouvant impliquer l’ajustement fin du modèle, l’optimisation des paramètres et le réentraînement pour améliorer la précision.
  • Ce processus itératif est essentiel pour affiner le modèle et améliorer sa performance.
  • Les modèles d’IA sont développés en utilisant à la fois des données historiques et en temps réel pour aborder des tâches spécifiques comme la gestion du trafic, l’équilibrage de charge ou la maintenance prédictive.
  • Les ressources basées sur le cloud sont communément utilisées pour l’entraînement en raison de leur évolutivité et puissance de calcul, cruciales pour gérer de larges ensembles de données et des modèles complexes.
  • Une fois le développement du modèle terminé, il est déployé et utilisé pour l’inférence, où le modèle est appliqué aux données réseau actuelles pour effectuer des tâches comme la détection d’anomalies ou l’optimisation du trafic.
  • Une allocation efficace des ressources est vitale pour les tâches d’inférence, exploitant les ressources distribuées dans le Cloud RAN ou l’architecture modulaire de l’Open RAN pour assurer un traitement efficace des tâches d’inférence, réduisant la latence et améliorant la performance globale.

 

Conclusion et perspectives futures

La section 3 conclut en soulignant l’importance croissante de l’IA dans les réseaux cœur, OSS/BSS et la gestion réseau. Elle suggère que l’avenir verra une intégration encore plus profonde de l’IA, particulièrement de l’IA générative, dans ces systèmes.

Références

[1] TS 23.288 : Architecture enhancements for 5G System (5GS) to support network data analytics services : https://www.3gpp.org/ftp/Specs/archive/23_series/23.288/23288-j10.zip

[2] TS 29.520 : 5G System; Network Data Analytics Service, https://www.3gpp.org/ftp/Specs/archive/29_series/29.520/29520-j10.zips; Stage 3

Comprendre le concept du modèle ML/IA – Sur le RAN – Partie 3

L’IA dans les différentes architectures RAN (D-RAN/C-RAN/O-RAN)

Nous allons dans cet article présenter plus spécifiquement le rôle de l’IA dans trois architectures RAN principales: le RAN traditionnel, le Cloud RAN et l’Open RAN.

L’intégration et l’impact de l’IA dans ces différentes architectures réseau présentent des potentiels variables pour améliorer les performances, l’évolutivité et l’adaptabilité des réseaux. Chaque architecture offre des opportunités et des contraintes distinctes pour l’utilisation de l’IA.

L’IA dans le RAN traditionnel

Caractéristiques et avantages

  • Les architectures RAN traditionnelles sont dites de conception monolithique. L’environnement est  stable et optimisé pour l’IA
  • Cette architecture répond efficacement aux exigences strictes de latence

Limitations

  • La structure rigide rend difficile l’adaptation rapide aux nouvelles innovations en IA
  • Les contraintes liées aux systèmes propriétaires d’un seul fournisseur peuvent limiter l’intégration et la mise à jour des modèles d’IA
  • L’adaptabilité aux technologies émergentes est restreinte.

L’intégration ciblée du RAN traditionnel permet d’apporter des améliorations réseau, mais le manque de flexibilité conduit à des limitations.

L’IA dans le Cloud RAN

Architecture

  • Le Cloud RAN (C-RAN) désagrège le matériel et le logiciel
  • Il déploie les fonctions réseau sous forme de fonctions réseau virtualisées (VNF) dans un environnement COTS (Commercial Off-The-Shelf)
  • Cette configuration permet un traitement centralisé et une gestion flexible des ressources
  • Cette architecture est particulièrement adaptée à l’intégration de l’IA

Capacités d’IA

  • Inférence en temps réel et quasi-temps réel: L’architecture centralisée permet une inférence IA efficace, supportant l’optimisation et la gestion du réseau basées sur l’analyse de données extensives
  • Adaptation dynamique: La virtualisation des modèles d’IA et leur allocation dans des schémas centralisés ou distribués selon la couche ou le cas d’utilisation améliorent le comportement dynamique du réseau
  • Capture de modèles localisés: Les unités distribuées permettent de capturer des modèles et comportements plus localisés dans le réseau

Cette flexibilité du Cloud RAN offre de nombreuses possibilités d’optimisation et d’amélioration des performances en réponse aux données et prédictions en temps réel, améliorant l’allocation des ressources et l’expérience utilisateur.

L’IA dans l’Open RAN

Architecture

  • L’Open RAN (O-RAN) présente également une désagrégation matériel-logiciel comme le Cloud RAN
  • Il se distingue par ses interfaces ouvertes et ses composants standardisés permettant une plus grande interopérabilité
  • Le Contrôleur Intelligent RAN (RIC) sert de plateforme centralisée pour la gestion et l’optimisation des performances réseau via l’IA
  • Il supporte des applications en temps réel et non-temps réel, améliorant l’adaptabilité du réseau

Organisation et contrôle dans l’O-RAN

  • Le RIC non-RT fait partie du framework SMO (Session Management and Orchestration) et supporte les rAPPs contenant des algorithmes IA/ML
  • Le RIC near-RT réside dans le cloud télécoms régional ou de périphérie et active l’optimisation réseau via les xAPPs
  • La release « Cherry » de l’alliance O-RAN (janvier 2021) standardise les frameworks IA/ML dans l’écosystème O-RAN
  • L’architecture SMO découplée supporte une entité de gestion de flux de travail IA/ML pour assister les fonctions RIC

Capacités d’IA

  • Interopérabilité accrue: La conception modulaire et ouverte facilite les capacités d’IA natives
  • Déploiement d’IA évolutif: L’architecture flexible permet d’appliquer l’IA à des fonctionnalités individuelles, des systèmes ou l’ensemble du réseau

Illustration de l’interaction de l’IA dans les architectures RAN

  • Dans le RAN intégré: Application de l’IA directement aux fonctions critiques comme la formation de faisceaux, l’ordonnancement, et la gestion du spectre
  • Dans le Cloud et Open RAN: Utilisation de l’IA à travers des couches multiples avec différents types de boucles de contrôle (temps réel, proche temps réel, et non-temps réel)

Conclusion

  • Le RAN traditionnel offre stabilité et performances optimisées mais avec une flexibilité limitée
  • Le Cloud RAN permet une centralisation et une flexibilité accrues, idéales pour l’inférence IA en temps réel sur de grandes quantités de données
  • L’Open RAN, avec ses interfaces ouvertes et son architecture modulaire, facilite particulièrement l’interopérabilité et le déploiement évolutif de solutions basées sur l’IA

La tendance générale montre une évolution vers des architectures qui supportent une intégration plus profonde et plus native de l’IA, permettant des réseaux plus intelligents, adaptatifs et efficaces.

Comprendre le concept du modèle ML/IA – Sur le RAN – Partie 2 —

AI appliquée à la couche liaison de données (Link Layer L2) et réseau (Network Layer L3): Une analyse approfondie

Introduction

Ces couches jouent un rôle crucial dans le fonctionnement des réseaux cellulaires modernes. La couche de liaison de données (L2) gère l’allocation des ressources, la fiabilité du transfert de données entre deux dispositifs sur un lien physique, comprenant des fonctions comme la détection d’erreurs, la correction d’erreurs et le contrôle du trafic. La couche réseau (L3) est responsable du routage des paquets à travers le réseau et de la gestion de la mobilité, faisant d’elle un élément essentiel pour maintenir une connectivité transparente lorsque les utilisateurs se déplacent.

Cette analyse approfondie explorera comment l’IA transforme ces couches, en examinant les défis existants, les solutions proposées, et l’impact potentiel sur les performances globales du réseau et l’expérience utilisateur.

Distinction entre l’IA à la couche physique et aux couches supérieures

Différence de portée

L’IA à la couche physique (L1) opère dans un cadre plus localisé, se concentrant sur l’amélioration de l’efficacité de la transmission et de la réception des signaux au niveau du dispositif et de la cellule. Son champ d’action est relativement restreint, bien que fondamental pour la performance du réseau.

En revanche, l’IA dans les couches L2 et L3 opère dans un cadre plus large, influençant les politiques et stratégies à l’échelle du réseau qui affectent de multiples dispositifs, cellules, et potentiellement l’ensemble du réseau. Cette différence de portée est essentielle pour comprendre l’impact potentiel de l’IA à ces niveaux.

Différence d’impact

L’impact de l’IA à la couche physique est souvent immédiat, améliorant en temps réel la qualité de la communication. Les algorithmes d’IA à ce niveau contribuent directement à optimiser des paramètres comme la modulation, le codage, ou la formation de faisceaux, avec des effets quasi instantanés sur la qualité du signal.

Par contre, l’IA dans les couches L2 et L3 a un impact plus stratégique et à plus long terme. Elle façonne la manière dont le réseau répond aux conditions changeantes, gère les ressources sur la durée, et assure la performance et la fiabilité du réseau à long terme. Ces décisions peuvent avoir des effets durables sur la santé du réseau et la qualité de service fournie aux utilisateurs.

L’IA dans la couche de liaison de données (L2)

La couche de liaison de données (L2) est responsable de la gestion des ressources, de la fiabilité du transfert de données entre deux dispositifs sur un lien physique, et englobe des fonctions comme la détection d’erreurs, la correction d’erreurs et le contrôle du trafic. L’intégration de l’IA à ce niveau transforme fondamentalement ces processus.

Allocation dynamique des ressources

L’un des apports majeurs de l’IA à la couche L2 concerne l’allocation dynamique des ressources:

Prédiction des modèles de trafic

Les algorithmes d’IA peuvent analyser les historiques de trafic et le comportement des utilisateurs pour prévoir les futures demandes en bande passante. Cette capacité prédictive permet au réseau d’anticiper les congestions potentielles et d’allouer proactivement les ressources nécessaires.

Par exemple, un modèle d’IA peut apprendre que certaines zones géographiques connaissent des pics de trafic à des moments spécifiques de la journée ou lors d’événements particuliers. En utilisant ces informations, le réseau peut réserver la bande passante appropriée et ajuster les paramètres d’ordonnancement avant même que la demande n’augmente.

Ordonnancement intelligent

L’IA permet un ordonnancement (scheduling) plus sophistiqué des ressources entre différents dispositifs en fonction de multiples facteurs contextuels:

  • Les conditions du canal pour chaque dispositif
  • La priorité et la sensibilité à la latence de chaque type de trafic
  • Les accords de niveau de service (SLA) pour différents clients
  • L’état de la batterie des dispositifs mobiles
  • Les modèles d’utilisation historiques

Cet ordonnancement intelligent garantit que les ressources limitées sont allouées de manière à optimiser l’expérience utilisateur globale tout en respectant diverses contraintes opérationnelles.

Gestion proactive de la congestion

Les techniques d’IA peuvent identifier les signes avant-coureurs de congestion réseau et prendre des mesures préventives pour l’éviter:

  • Redirection du trafic vers des chemins alternatifs
  • Modification temporaire des priorités de certains flux de données
  • Ajustement adaptatif des algorithmes de contrôle de flux
  • Allocation préemptive de ressources supplémentaires dans les zones à risque

Cette approche proactive de la gestion de la congestion permet d’éviter les dégradations de service qui surviendraient avec des méthodes réactives traditionnelles.

Prédiction et correction d’erreurs

Un autre domaine où l’IA apporte une valeur significative à la couche L2 est la prédiction et la correction d’erreurs:

Anticipation des erreurs de transmission

Les modèles d’IA peuvent anticiper les erreurs potentielles dans la transmission de données en analysant:

  • Les modèles de bruit et d’interférence dans différents environnements
  • Les caractéristiques de propagation du signal à différentes fréquences
  • L’historique des performances de transmission dans des conditions similaires
  • Les défaillances récurrentes ou systémiques dans certaines parties du réseau

Cette capacité d’anticipation permet au système de prendre des mesures préventives avant que les erreurs ne se produisent, réduisant ainsi le besoin de retransmissions.

Mécanismes de correction préemptifs

Au lieu de simplement réagir aux erreurs détectées, l’IA permet la mise en œuvre de mécanismes de correction préemptifs:

  • Ajustement dynamique des schémas de codage correcteurs d’erreurs
  • Adaptation du niveau de redondance en fonction des conditions prévues du canal
  • Mise en œuvre de techniques de diversité spécifiques au contexte
  • Priorisation stratégique des paquets ayant une plus forte probabilité de transmission réussie

Ces approches proactives réduisent considérablement le taux d’erreur global et améliorent l’efficacité des ressources réseau en minimisant les retransmissions.

Gestion adaptative de la qualité de service (QoS)

La gestion de la qualité de service à la couche L2 bénéficie considérablement de l’intégration de l’IA:

Prédiction des conditions réseau

L’IA permet de prévoir l’évolution des conditions du réseau à court et moyen terme, ce qui est crucial pour maintenir la QoS:

  • Prédiction des fluctuations de charge sur différentes cellules
  • Anticipation des interférences basée sur l’utilisation historique du spectre
  • Prévision des effets des conditions météorologiques sur les performances du réseau
  • Modélisation de l’impact des grands événements sur la demande de ressources

Ces prédictions permettent une gestion proactive des ressources pour maintenir la QoS même dans des conditions changeantes.

Priorisation contextuelle du trafic

L’IA permet une priorisation plus nuancée et contextuelle du trafic par rapport aux approches basées sur des règles statiques:

  • Les applications à faible latence (comme le gaming en ligne ou la réalité virtuelle) peuvent recevoir une priorité plus élevée lorsque les utilisateurs sont activement engagés.
  • Les applications critiques (comme la télémédecine ou les communications d’urgence) peuvent être identifiées et priorisées dynamiquement.
  • Les flux de données susceptibles de contribuer significativement à l’expérience utilisateur peuvent être favorisés en fonction du contexte d’utilisation.

Cette priorisation intelligente garantit que les ressources limitées sont allouées de manière à maximiser la valeur perçue par les utilisateurs.

Équilibrage dynamique des exigences contradictoires

L’IA excelle dans l’équilibrage de multiples objectifs contradictoires, ce qui est particulièrement utile pour la gestion de la QoS:

  • Équilibrer la latence et le débit pour différents types d’applications
  • Concilier l’équité entre les utilisateurs et l’optimisation des performances globales
  • Trouver le compromis optimal entre l’efficacité énergétique et la performance
  • Pondérer les besoins des applications en temps réel par rapport au trafic en arrière-plan

Cet équilibrage dynamique permet d’offrir la meilleure expérience possible à tous les utilisateurs malgré des ressources limitées et des demandes variées.

L’IA dans la couche réseau (L3)

La couche réseau (L3) est responsable du routage des paquets à travers le réseau et de la gestion de la mobilité, faisant d’elle un élément essentiel pour maintenir une connectivité transparente lorsque les utilisateurs se déplacent entre différentes cellules du réseau.

Gestion intelligente de la mobilité

L’un des apports majeurs de l’IA à la couche L3 concerne la gestion de la mobilité:

Prédiction des modèles de mobilité

Les algorithmes d’IA peuvent analyser les historiques de déplacement des utilisateurs et prédire leurs mouvements futurs avec une précision remarquable:

  • Identification des trajets réguliers (domicile-travail, par exemple)
  • Reconnaissance des modèles de déplacement spécifiques à certaines heures ou jours
  • Prédiction des zones de congestion en fonction des événements programmés
  • Anticipation des changements de vitesse de déplacement basée sur les infrastructures de transport

Ces prédictions permettent au réseau d’anticiper les besoins de handover plutôt que d’y réagir.

Optimisation proactive des handovers

Sur la base des prédictions de mobilité, l’IA peut optimiser le processus de handover de plusieurs façons:

  • Préparation anticipée des ressources dans les cellules cibles probables
  • Détermination du moment optimal pour initier le handover, minimisant les risques de déconnexion
  • Sélection intelligente de la cellule cible optimale parmi plusieurs candidates
  • Adaptation des paramètres de handover en fonction du profil de mobilité spécifique de chaque utilisateur

Cette approche proactive réduit considérablement les risques de déconnexions, les handovers inutiles, et les effets « ping-pong » où un utilisateur est transféré de manière répétée entre deux cellules.

Réduction des interruptions de service

L’IA contribue significativement à réduire les interruptions de service lors des transitions entre cellules:

  • Coordination des handovers avec les moments de faible activité dans les sessions de l’utilisateur
  • Mise en place préemptive de tunnels de données entre cellules source et cible
  • Ajustement dynamique des priorités de trafic pendant les phases critiques du handover
  • Optimisation des paramètres de reconnexion en fonction du type de service utilisé

Ces optimisations garantissent une expérience plus fluide aux utilisateurs, particulièrement pour les applications sensibles à la latence comme les appels vidéo ou les jeux en ligne.

Équilibrage de charge entre cellules

Un autre domaine clé où l’IA transforme la couche L3 est l’équilibrage de charge entre cellules:

Analyse en temps réel de la charge réseau

L’IA permet une analyse sophistiquée et en temps réel de la charge sur différentes cellules:

  • Évaluation multidimensionnelle de la charge (nombre d’utilisateurs, demande de bande passante, profils de trafic)
  • Détection des déséquilibres émergents avant qu’ils n’affectent la performance
  • Identification des cellules sous-utilisées pouvant absorber du trafic supplémentaire
  • Prévision de l’évolution de la charge à court terme pour guider les décisions d’équilibrage

Cette analyse en temps réel fournit une base solide pour des décisions d’équilibrage de charge optimales.

Distribution intelligente du trafic

Sur la base de cette analyse, l’IA peut orchestrer une distribution plus intelligente du trafic:

  • Ajustement dynamique des paramètres de sélection de cellule pour influencer les décisions de connexion des nouveaux utilisateurs
  • Modification contrôlée des seuils de handover pour encourager la migration d’utilisateurs vers des cellules moins chargées
  • Adaptation des puissances d’émission pour modifier les zones de couverture effective des cellules
  • Priorisation stratégique de certains utilisateurs pour le transfert vers d’autres cellules

Cette distribution intelligente permet de maximiser l’utilisation des ressources disponibles tout en maintenant une bonne qualité de service pour tous les utilisateurs.

Prévention proactive des congestions

L’IA excelle également dans la prévention proactive des congestions au niveau cellulaire:

  • Identification précoce des tendances de trafic susceptibles de conduire à une congestion
  • Déclenchement préemptif de mécanismes d’équilibrage avant l’apparition de problèmes de performance
  • Coordination des équilibrages de charge avec d’autres optimisations réseau pour éviter les effets secondaires indésirables
  • Ajustement progressif des paramètres pour éviter les changements brusques qui pourraient perturber les utilisateurs

Cette approche proactive permet d’éviter les dégradations de service qui surviendraient avec des méthodes réactives traditionnelles.

Économie d’énergie réseau

L’IA contribue de manière significative à l’optimisation de la consommation énergétique au niveau de la couche réseau:

Prédiction des périodes de faible trafic

Les algorithmes d’IA peuvent analyser les modèles historiques de trafic pour prédire avec précision les périodes de faible utilisation:

  • Identification des cycles quotidiens, hebdomadaires et saisonniers dans l’utilisation du réseau
  • Reconnaissance des modèles spécifiques liés aux événements locaux, jours fériés, ou conditions exceptionnelles
  • Prévision des fluctuations à court terme dans la demande de trafic
  • Détection des zones géographiques connaissant des périodes d’inactivité prolongées

Ces prédictions permettent une planification optimale des économies d’énergie sans compromettre la qualité du service.

Désactivation dynamique des ressources sous-utilisées

Sur la base de ces prédictions, l’IA peut orchestrer la désactivation intelligente des ressources réseau:

  • Mise en veille sélective de certaines cellules pendant les heures creuses
  • Réduction contrôlée de la bande passante disponible lorsque la demande est faible
  • Désactivation temporaire de certaines bandes de fréquence ou composants RF
  • Coordination des cycles de veille entre cellules voisines pour maintenir une couverture minimale

Cette désactivation dynamique permet de réaliser des économies d’énergie substantielles tout en maintenant la disponibilité du réseau.

Réactivation préemptive basée sur les prévisions

L’aspect le plus innovant de cette approche est la capacité à réactiver les ressources de manière préemptive:

  • Anticipation des augmentations de trafic avant qu’elles ne se produisent
  • Réactivation progressive des ressources pour éviter les pics de consommation
  • Priorisation de la réactivation des cellules en fonction des prévisions de demande spécifiques à chaque zone
  • Coordination de la réactivation avec d’autres optimisations réseau pour une transition fluide

Cette réactivation préemptive garantit que les utilisateurs ne subissent aucune dégradation de service malgré les économies d’énergie réalisées.

Le rôle du 3GPP dans la standardisation de l’IA/ML pour L2 et L3

Développements des Releases 17 et 18

Les efforts initiaux d’intégration de l’IA/ML dans le 3GPP ont commencé avec la Release 17, qui s’est concentrée sur l’amélioration des fonctions SON (Self-Organizing Networks) telles que:

  • L’économie d’énergie du réseau, permettant une réduction significative de la consommation énergétique des stations de base sans compromettre l’expérience utilisateur
  • L’équilibrage de charge, visant à distribuer efficacement le trafic entre les cellules pour éviter la congestion et optimiser l’utilisation des ressources
  • L’optimisation de la mobilité, améliorant la gestion des handovers pour réduire les interruptions de service lors des déplacements des utilisateurs

Ces efforts se sont poursuivis et amplifiés dans la Release 18, avec un accent particulier sur:

  • L’affinement des méthodes d’entraînement des modèles d’IA
  • L’amélioration des techniques de déploiement dans le réseau
  • L’élaboration de standards pour assurer l’interopérabilité des solutions basées sur l’IA entre différents fournisseurs
  • La définition de métriques communes pour évaluer les performances des systèmes basés sur l’IA

Cas d’utilisation pratiques

Le 3GPP a identifié plusieurs cas d’utilisation pratiques pour l’IA/ML dans les couches L2 et L3, notamment:

  1. Économie d’énergie du réseau: L’IA/ML est utilisée pour prédire les périodes de faible trafic et optimiser l’activation/désactivation des composants du réseau, permettant des économies d’énergie substantielles tout en maintenant la qualité de service.
  2. Équilibrage de charge: Les algorithmes d’IA analysent les modèles de trafic, l’utilisation des ressources et les conditions du réseau pour répartir intelligemment les utilisateurs entre les cellules, évitant ainsi les congestions localisées.
  3. Optimisation de la mobilité: L’IA/ML améliore la gestion des handovers en prédisant les mouvements des utilisateurs et en adaptant dynamiquement les paramètres de handover en fonction des conditions spécifiques, réduisant ainsi les interruptions de service lors des déplacements.

Ces cas d’utilisation démontrent la valeur pratique de l’IA/ML dans les couches L2 et L3 et fournissent un cadre pour le développement de solutions standardisées.

Synergies entre l’IA dans les différentes couches du réseau

Coordination entre les couches physique et liaison de données

L’IA appliquée à la couche physique (L1) et à la couche de liaison de données (L2) peut fonctionner de manière coordonnée pour maximiser les performances du réseau:

  1. Adaptation conjointe: Les algorithmes d’IA à la couche L1 peuvent optimiser les paramètres de transmission (modulation, codage, formation de faisceaux) en fonction des décisions d’allocation de ressources prises au niveau L2, et vice versa.
  2. Partage d’informations contextuelles: Les insights générés par l’IA à une couche peuvent enrichir les modèles utilisés à l’autre couche, permettant des décisions plus informées et cohérentes.
  3. Optimisation multi-objectifs: Les objectifs d’optimisation peuvent être coordonnés entre les couches pour éviter les optimisations locales qui pourraient être globalement sous-optimales.
  4. Adaptation aux conditions dynamiques: L’IA peut faciliter l’adaptation rapide des deux couches aux conditions changeantes du réseau, maintenant des performances optimales dans des environnements complexes et dynamiques.

Intégration avec la gestion de réseau de bout en bout

L’IA dans les couches L2 et L3 s’intègre également avec les systèmes de gestion de réseau de bout en bout:

  1. Alignement avec les objectifs commerciaux: Les optimisations au niveau L2/L3 peuvent être guidées par des objectifs commerciaux et des KPIs définis au niveau de la gestion du réseau.
  2. Orchestration globale: Les capacités d’IA au niveau L2/L3 peuvent être orchestrées dans le cadre d’une stratégie d’optimisation plus large qui englobe tous les aspects du réseau.
  3. Feedback bidirectionnel: Les informations circulent dans les deux sens, avec les systèmes de gestion de réseau fournissant du contexte aux modèles d’IA L2/L3, et ces derniers remontant des insights détaillés pour informer les décisions stratégiques.
  4. Évolution coordonnée: Les capacités d’IA à tous les niveaux peuvent évoluer de manière coordonnée, assurant que les améliorations sont cohérentes et complémentaires.

Interaction avec les couches applicatives

L’IA dans les couches L2 et L3 interagit également avec les couches applicatives supérieures:

  1. Optimisations spécifiques aux applications: Les modèles d’IA peuvent adapter les paramètres L2/L3 en fonction des besoins spécifiques des applications en cours d’exécution.
  2. Feedback de qualité d’expérience: Les informations sur la qualité d’expérience perçue au niveau applicatif peuvent être utilisées pour guider les optimisations L2/L3.
  3. Prédiction des besoins applicatifs: L’IA peut anticiper les besoins des applications avant même qu’ils ne soient explicitement communiqués, permettant une allocation proactive des ressources.
  4. Adaptation conjointe: Dans certains cas, les applications et les couches réseau peuvent s’adapter mutuellement de manière coordonnée pour optimiser l’expérience utilisateur globale.

Impact sur les performances du réseau et l’expérience utilisateur

L’intégration de l’IA dans les couches L2 et L3 a un impact significatif sur les performances globales du réseau et l’expérience utilisateur.

Amélioration de l’efficacité des ressources

L’IA permet une utilisation nettement plus efficace des ressources réseau limitées:

  1. Allocation optimisée: Les ressources sont allouées avec une précision inégalée, en tenant compte de multiples facteurs contextuels pour maximiser l’utilité globale.
  2. Réduction du gaspillage: L’IA minimise le gaspillage de ressources en adaptant finement l’allocation aux besoins réels plutôt qu’à des estimations grossières.
  3. Anticipation des besoins: La capacité à prédire les besoins futurs permet une planification plus efficace de l’utilisation des ressources sur différentes échelles de temps.
  4. Équilibrage dynamique: Les ressources peuvent être réallouées dynamiquement en fonction de l’évolution des conditions du réseau et des priorités.

Ces améliorations d’efficacité se traduisent par une capacité accrue du réseau à servir plus d’utilisateurs avec une meilleure qualité de service, sans nécessiter d’investissements proportionnels dans l’infrastructure.

Réduction de la latence et des interruptions

L’IA dans les couches L2 et L3 contribue significativement à réduire la latence et les interruptions:

  1. Handovers optimisés: La prédiction des mouvements des utilisateurs permet des handovers plus fluides et moins susceptibles de causer des interruptions.
  2. Prévention des congestions: L’anticipation et la prévention proactive des congestions réseau réduisent les pics de latence qui affectent négativement l’expérience utilisateur.
  3. Routage intelligent: L’IA peut identifier les chemins optimaux à travers le réseau pour minimiser la latence pour les applications sensibles au temps.
  4. Allocation prioritaire: Les ressources peuvent être allouées prioritairement aux flux de données sensibles à la latence, garantissant une performance constante même en cas de charge réseau élevée.

Ces réductions de latence et d’interruptions sont particulièrement critiques pour les applications émergentes comme la réalité augmentée/virtuelle, les véhicules autonomes, et la télémédecine, qui dépendent d’une connectivité fiable et à faible latence.

Adaptation aux besoins diversifiés des utilisateurs

L’un des avantages majeurs de l’IA dans les couches L2 et L3 est sa capacité à adapter le comportement du réseau aux besoins diversifiés des utilisateurs:

  1. Personnalisation implicite: Le réseau peut s’adapter aux modèles d’utilisation spécifiques de chaque utilisateur sans configuration explicite.
  2. Différenciation contextuelle: Les ressources peuvent être allouées différemment en fonction du contexte d’utilisation (professionnel vs. loisir, critique vs. non-critique, etc.).
  3. Support des cas d’usage émergents: L’IA facilite l’adaptation du réseau à de nouveaux cas d’usage aux exigences inédites, sans nécessiter une refonte complète des systèmes.
  4. Équilibre entre équité et optimisation: L’IA peut trouver des équilibres sophistiqués entre l’équité dans l’allocation des ressources et l’optimisation des performances globales.

Cette adaptabilité accrue permet aux opérateurs de proposer une expérience plus personnalisée et satisfaisante à leurs utilisateurs, renforçant ainsi la valeur perçue de leurs services.

Amélioration de la fiabilité et de la résilience

L’IA dans les couches L2 et L3 contribue également à améliorer la fiabilité et la résilience du réseau:

  1. Détection précoce des anomalies: Les modèles d’IA peuvent identifier des schémas subtils indiquant des problèmes émergents avant qu’ils n’affectent visiblement les performances.
  2. Adaptation proactive: Le réseau peut s’adapter proactivement aux changements de conditions ou aux défaillances partielles, maintenant la continuité du service.
  3. Récupération intelligente: En cas de défaillance, l’IA peut orchestrer des processus de récupération optimisés qui minimisent l’impact sur les utilisateurs et restaurent rapidement les services normaux.
  4. Apprentissage continu: Les systèmes d’IA peuvent apprendre continuellement des incidents passés pour améliorer leur réponse aux événements futurs similaires.

Cette amélioration de la fiabilité et de la résilience est particulièrement importante à mesure que les réseaux cellulaires deviennent une infrastructure critique supportant des services essentiels dans de nombreux secteurs.

Défis et considérations pour l’implémentation

Malgré ses nombreux avantages, l’intégration de l’IA dans les couches L2 et L3 présente plusieurs défis et considérations importantes.

Complexité des modèles et exigences de calcul

L’implémentation de modèles d’IA sophistiqués dans les couches L2 et L3 soulève des préoccupations concernant la complexité et les ressources de calcul:

  1. Équilibre performance-complexité: Il est nécessaire de trouver un équilibre entre la sophistication des modèles d’IA et leur viabilité pratique dans des environnements aux ressources limitées.
  2. Exigences en temps réel: De nombreuses décisions au niveau L2/L3 doivent être prises en temps réel, imposant des contraintes strictes sur la latence d’inférence des modèles d’IA.
  3. Efficacité énergétique: L’exécution de modèles d’IA complexes consomme de l’énergie, ce qui peut contre

Comprendre le concept du modèle ML/IA – Sur le RAN – Partie 1

L’apport de l’IA sur la couche L1

Introduction

 

Le RAN est un système complexe nécessitant la configuration précise de centaines de paramètres. L’optimisation manuelle était historiquement laborieuse et coûteuse surtout en 2G avec l’ingénierie cellulaire.

Les réseaux auto-organisés (SON – Self Optimized Networks) ont émergé pour automatiser la planification, la configuration et l’optimisation. Les premiers SON utilisaient des approches heuristiques avec des règles prédéfinies. Mais ces méthodes sont limitées face à la complexité croissante des réseaux modernes.

L’IA/ML offre une opportunité de dépasser ces limitations grâce à l’apprentissage dynamique. L’architecture 6G sera Native-IA.

L’AI native est définie [2] comme « le concept d’avoir des capacités d’IA intrinsèquement fiables, où l’IA est une partie naturelle de la fonctionnalité, en termes de conception, déploiement, opération et maintenance ».

Une implémentation AI native s’appuie sur un écosystème basé sur les données et la connaissance, où les données et connaissances sont consommées et produites pour réaliser de nouvelles fonctionnalités basées sur l’IA ou pour remplacer des mécanismes statiques basés sur des règles par une IA adaptative et apprenante selon les besoins.

II) IA Native

 

L’architecture AI native comporte quatre aspects principaux:

1. Intelligence partout (Intelligence everywhere)

  • L’IA doit pouvoir être exécutée partout où cela a du sens selon une analyse coût-bénéfice
  • Cela inclut tous les domaines du réseau, toutes les couches de la pile, tous les sites physiques (du central à la périphérie), et potentiellement même sur les appareils mobiles
  • Des environnements d’exécution IA doivent être disponibles partout, et des environnements d’entraînement peuvent être co-localisés si nécessaire.

2. Infrastructure de données distribuée

  • L’exécution et l’entraînement des modèles d’IA nécessitent que les données et ressources de calcul (comme les GPU) soient disponibles partout
  • Les données disponibles partout permettent aux modèles de s’étendre au-delà des frontières actuelles des couches et domaines
  • L’infrastructure doit gérer les contraintes temporelles des données (date de péremption, contraintes légales, volume)
  • Les infrastructures de données et les orchestrateurs de modèles doivent interagir: parfois les données sont transportées vers l’intelligence, et parfois l’intelligence doit être rapprochée des données

3. Zero-touch

  • La gestion de l’intelligence et de l’infrastructure de données doit être automatisée
  • Plutôt que d’introduire de nouvelles opérations manuelles ou automatisées, l’objectif est d’atteindre des opérations entièrement autonomes
  • Les humains restent en contrôle en exprimant des exigences au système et en supervisant leur réalisation, mais sans dicter les actions spécifiques à prendre
  • Cette approche permet un réseau autonome avec des capacités d’auto-configuration, auto-guérison, auto-optimisation et auto-protection

4. IA en tant que service (AIaaS)

  • Les fonctions liées à l’IA et à la gestion des données peuvent être exposées comme services à des parties externes
  • Exemples: gestion du cycle de vie des modèles d’IA (entraînement, environnement d’exécution) ou aspects de manipulation des données (exposition de données)
  • Cette exposition transforme le réseau en plateforme d’innovation
  • Les utilisateurs de ces services peuvent être le fournisseur de services lui-même ou ses clients

Structure de l’architecture AI native

L’architecture AI native peut être représentée comme un système où l’intelligence et l’infrastructure de données traversent toutes les couches traditionnelles du réseau:

  • Applications
  • Gestion, Orchestration, Monétisation
  • Accès, Mobilité, Applications réseau
  • Infrastructure cloud
  • Transport

 

III) IA sur la couche Physique

Les applications clés sont décrites sur la figure 1 [1] : gestion des non-linéarités des émetteurs/récepteurs, adaptation de liaison, estimation de canal (CSF : Channal State Feedback).

 

 

Figure 1 : Cas d’usage de l’IA sur la couche physique RAN [1]

Introduction à l’IA dans la couche physique

Les applications de l’IA dans la couche physique se concentrent principalement sur:

  • La gestion des non-linéarités des émetteurs et récepteurs
  • L’amélioration de l’adaptation de liaison au niveau de la station de base et des équipements utilisateurs
  • L’optimisation de l’estimation de canal et des signaux de référence
  • L’exploration du codage de canal piloté par l’IA

Les travaux des groupes 3GPP dans les Release 18 et 19 ont également exploré la prédiction de canal, la compression pour des retours d’information plus efficaces, et les avancées dans la gestion de faisceau et le positionnement.

Le retour d’information sur l’état du canal (CSF) amélioré par l’IA

Importance et défis du CSI

La technologie TDD (Time Division Duplex) permet d’obtenir, dans le cas d’un canal quasi-stationnaire, une réciprocité parfaite entre la liaison montante et la liaison descendante. Ainsi la connaissnce du canal, via le CSI de la liaison descendante est disponible à la station de base à partir de la mesure du signal de sondage en liaison montante. Cependant, dans un système FDD (Frequency Division Duplex) ou un système TDD avec réciprocité non idéale, le CSI de la liaison descendante est acquis par rapport de l’UE.

Dans ce cas, les défis principaux incluent:

  • La dimensionnalité élevée du CSI dans les systèmes MIMO massifs à large bande (le nombre de CSI étant de 32 du R.15 au R.18 et 128 à partir de la R.19).
  • La surcharge associée à l’acquisition du CSI réduit les ressources radio disponibles
  • Les contraintes liées aux périodes de cohérence de canal limitées

Approches traditionnelles et leurs limites

A partir de la 4G, l’utilisation de mots de codes( codebooks CSI) permet de comprimer le CSI à remonter (dans le domaine spatial MIMO et fréquentiel CA). Le nombre d’informations étant élevée, cela nécéssite :

  • Demandes élevées de bande passante en liaison montante
  • Précision réduite dans la reconstruction de canal à la station de base
  • Structure CSI prédéfinie qui manque d’adaptabilité

Solutions basées sur l’IA/ML

L’IA/ML offre une approche pilotée par les données qui détermine dynamiquement le contenu du message de retour d’information. Cette approche est avantageuse car:

  • Les modèles IA/ML sont entraînés sur des réalisations de canal réelles
  • Ils peuvent s’adapter à différents scénarios
  • Ils permettent une compression plus efficace
  • Ils améliorent l’équilibre entre surcharge de feedback et précision de reconstruction

Un modèle IA/ML à deux faces pour le retour CSI est proposé pour réduire la charge des informations :

  • L’encodeur basé sur un réseau neuronal au niveau de l’émetteur (UE) compresse et quantifie les caractéristiques du canal
  • Le décodeur basé sur un réseau neuronal au niveau du récepteur (station de base) reconstruit les caractéristiques du canal
  • La paire encodeur-décodeur est entraînée ensemble pour une optimisation de bout en bout

Travaux 3GPP et jalons importants pour le CSF

Les cadres à l’étude pour l’amélioration du retour CSI par l’IA incluent:

  • Des modèles à face unique pour la prédiction CSI
  • Des modèles à deux faces pour la compression CSI

Le groupe de travail 3GPP RAN1 a étudié l’évaluation de la compression en fréquence et spatiale dans la Release 18, puis a exploré des sous-cas d’utilisation avec compression temporelle dans la Release 19. Des évaluations approfondies ont été menées sur la généralisation à divers scénarios, l’évolutivité à diverses configurations, et les aspects de collaboration multi-fournisseurs.

Pour les modèles à deux faces, diverses architectures ont été envisagées, comme les réseaux de neurones convolutifs (CNN), les mémoires à court et long terme (LSTM), et les transformers. Les approches d’entraînement incluent:

  • L’entraînement conjoint du modèle à deux faces d’un seul côté
  • L’entraînement conjoint du modèle à deux faces du côté réseau et du côté UE respectivement
  • L’entraînement séparé du côté réseau et du côté UE

Un défi majeur dans le déploiement du modèle à deux faces est la complexité de la collaboration inter-fournisseurs.

Des modèles hyper-locaux ont également été étudiés pour exploiter la cohérence spatiale, permettant une meilleure compression des échantillons de canal collectés dans une région locale par rapport aux données globales.

La gestion de faisceau (BM) améliorée par l’IA

Importance et défis du MIMO massif

Si le MIMO massif est une technique clé dans les systèmes 5G, elle utilise d’un nombre élevé de réseaux d’antennes pour réaliser des gains de formation dans une direction donnée. La gestion de faisceau est cruciale pour établir et maintenir la connexion entre la station de base et l’UE dans des conditions de canal dynamiques.

Les défis principaux incluent:

  • Inefficacité du protocole de balayage de faisceau, particulièrement pour les bandes de fréquences plus élevées
  • Surcharge de messagerie
  • Codebooks sous-optimaux avec une approche « taille unique »
  • Nouveaux cas d’utilisation nécessitant des performances ciblées sous conditions de mobilité

Solutions basées sur l’IA/ML

Face aux défis des cadres de gestion de faisceau avec recherche exhaustive, les techniques d’IA/ML sont explorées pour:

  • Réduire le temps de réponse et la charge de calcul
  • Améliorer la sélection de faisceau basée sur des informations contextuelles
  • Optimiser la performance réseau sous différentes conditions

Les solutions de gestion de faisceau basées sur l’IA/ML se répartissent principalement en:

  • Apprentissage supervisé: utilisant des relations préétablies entre entrées et sorties pour prédire les meilleurs faisceaux
  • Apprentissage par renforcement: déployant un apprentissage par essai-erreur et basé sur les récompenses sans nécessiter de connaissances préalables des canaux

Travaux 3GPP et standardisation

L’interface air IA-native supportant des algorithmes IA/ML pour la gestion de faisceau a été étudiée dans la Rel-18 et spécifiée dans la Rel-19. Les objectifs incluent:

  • Réduire la consommation d’énergie de l’UE en mesurant moins
  • Améliorer l’efficacité énergétique du réseau en transmettant moins de signaux de référence

La prédiction de faisceau s’effectue dans les domaines spatial et/ou temporel, avec des prédictions côté UE et côté réseau. Pour la prédiction temporelle de faisceau, les mesures de puissance des signaux de référence (RSRP) passées sont utilisées pour prédire les meilleurs faisceaux à des instances futures, améliorant ainsi la performance sous conditions de mobilité.

Le document discute également de la généralisation des modèles IA/ML à travers différents scénarios et de la surveillance des performances des modèles pendant l’inférence.

Le positionnement amélioré par l’IA

Importance et limitations des méthodes traditionnelles

Le positionnement est présenté comme un facilitateur clé pour diverses applications, notamment la sécurité, la conduite autonome et l’IoT industriel. Les signaux sans fil peuvent être échangés entre un UE et des points de transmission et de réception (TRP) pour estimer la distance et/ou l’angle en ligne de vue (LOS).

Les méthodes de positionnement 5G NR standard incluent:

  • Différence de temps d’arrivée en liaison descendante/montante (TDoA)
  • Méthodes basées sur l’angle comme l’angle de départ en liaison descendante (AoD)
  • Angle d’arrivée en liaison montante (AoA)
  • Temps d’aller-retour multiple

Ces méthodes supposent une condition LOS entre l’UE et le TRP, ce qui peut conduire à des erreurs lorsque l’UE est en condition de non-ligne de vue (NLOS).

Solutions basées sur l’IA/ML

L’IA/ML est présentée comme une solution pour améliorer la précision du positionnement en conditions NLOS en:

  • Analysant les chemins de propagation de l’environnement sans fil
  • Apprenant leur correspondance avec les informations de localisation
  • Créant un modèle qui fait correspondre les mesures de canal dans le domaine temporel à la localisation de l’UE

Travaux 3GPP et résultats

Dans l’étude de la Release 18, le groupe 3GPP RAN1 a démontré:

  • Une précision au niveau sous-métrique du positionnement IA/ML dans des conditions NLOS extrêmes
  • Une amélioration significative par rapport aux approches de positionnement classiques (plus de 10 mètres d’erreur)

Deux cas d’utilisation ont été identifiés:

  • Positionnement IA/ML direct: le modèle produit les coordonnées de localisation de l’UE
  • Positionnement assisté par IA/ML: le modèle produit une information de mesure de positionnement intermédiaire

Des évaluations approfondies ont été menées pour comprendre:

  • La généralisation et la sensibilité des modèles
  • L’impact des erreurs de synchronisation
  • Les variations temporelles du canal
  • Les déploiements avec différents encombrements

Pour le déploiement réseau, cinq cas ont été identifiés selon:

  • Le type de sortie du modèle
  • L’endroit où s’exécute le modèle (UE, LMF, station de base)

Dans la Release 19, 3GPP RAN1, a spécifié le support pour le positionnement IA/ML, priorisant certains cas et se concentrant sur l’identification de mesures améliorées pour l’entrée du modèle et la sortie du modèle.

Conclusion

L’IA transforme la couche physique des réseaux cellulaires en apportant des améliorations significatives dans:

  • Le retour d’information sur l’état du canal, permettant une compression plus efficace et une meilleure reconstruction
  • La gestion de faisceau, optimisant la sélection de faisceau et réduisant la surcharge de signalisation
  • Le positionnement, atteignant une précision sous-métrique même dans des conditions défavorables

La progression vers des réseaux « IA-natifs » où l’intelligence artificielle est intégrée dès la conception promet d’améliorer considérablement les performances, la fiabilité et l’efficacité des systèmes de communication sans fil.

 

 

Références

[1] 5G America : Artificial Intelligence in Cellular Networks – Dec 2024 https://www.5gamericas.org/wp-content/uploads/2024/12/AI-Cell-Networks-Id-.pdf

[2] Ericcson : Defining AI native: A key enabler for advanced intelligent telecom network, https://www.ericsson.com/en/reports-and-papers/white-papers/ai-native

Comprendre le concept du modèle ML/IA – Des cas d’usages TR 28.908

Les uses-case IA en 5G

A partir du document 3GPP TR 28.908 version 18.0.0 Release 18 « Study on Artificial Intelligence/Machine Learning (AI/ ML) management », cet article résume les cas d’usages.

Données d’événements pour l’entraînement ML (5.1.1)

Ce cas d’usage concerne la préparation de données prétraitées pour l’entraînement des modèles ML. Plutôt que d’utiliser toutes les données brutes (qui peuvent contenir des informations redondantes ou biaisées), le système identifie et stocke des événements réseau riches en information. Cela permet de réduire les coûts de stockage et de traitement tout en maintenant des données historiques pertinentes pour l’entraînement des modèles ML.

Validation de modèle ML (5.1.2)

Durant le processus d’entraînement ML, le modèle généré doit être validé. L’objectif est d’évaluer la performance du modèle sur des données de validation et d’identifier les écarts de performance entre les données d’entraînement et de validation. Si l’écart n’est pas acceptable, le modèle doit être réajusté avant d’être mis à disposition du consommateur pour l’inférence.

Test de modèle ML (5.1.3)

Après l’entraînement et la validation d’un modèle, il est nécessaire de le tester pour vérifier son fonctionnement correct dans certains contextes d’exécution ou avec des jeux de données spécifiques. Les tests peuvent impliquer des interactions avec des tiers. Le cas d’usage permet au consommateur d’évaluer la performance du modèle via un processus de test avec des données fournies par le consommateur avant de l’appliquer à la fonction d’inférence cible.

Ré-entraînement de modèle ML (5.1.4)

Un modèle ML entraîné peut nécessiter un ré-entraînement lorsque sa performance se dégrade ou lorsque le contexte d’exécution change. Ce cas d’usage décrit le processus de ré-entraînement du modèle avec de nouvelles données sans changer le type d’inférence (entrées/sorties). Le producteur peut initier le ré-entraînement basé sur des seuils de performance ou extraire les échantillons de données les plus pertinents pour optimiser le processus.

Entraînement conjoint de modèles ML (5.1.5)

Une fonction d’inférence AI/ML peut utiliser plusieurs entités ML pour effectuer des inférences. Ces entités peuvent opérer de manière coordonnée (en séquence ou structure plus complexe). Ce cas d’usage permet d’entraîner ou ré-entraîner conjointement ces entités ML coordonnées, afin que l’ensemble puisse accomplir une tâche plus complexe avec une meilleure performance.

Rapports et analyses sur l’efficacité des données d’entraînement (5.1.6)

Pour l’entraînement des modèles ML, une grande quantité de données n’ajoute pas nécessairement de valeur. Ce cas d’usage permet d’évaluer la contribution de chaque instance de données ou type de données d’entrée au processus d’entraînement, d’analyser les modèles de données les plus efficaces, et de corréler les données de mesure pour optimiser l’entraînement ML.

Contexte ML (5.1.7)

Le cas d’usage 5.1.7 traite du contexte ML (MLContext), qui représente l’ensemble des statuts et conditions liés à un modèle ML. Ce contexte peut inclure les caractéristiques du réseau telles que définies dans 3GPP TS 28.104, mais aussi d’autres conditions applicables au modèle ML qui ne font pas partie des caractéristiques réseau, comme l’heure de la journée ou la saison de l’année.

Les différences dans le contexte réseau, c’est-à-dire l’état du réseau sous lequel les données sont collectées pour produire des analyses, affectent significativement les analyses produites. De même, les changements dans le contexte ML, comme les caractéristiques des données liées à l’état du réseau et aux conditions utilisées pour l’entraînement, les tests et le déploiement du modèle ML, peuvent affecter les performances du modèle. Ces changements peuvent représenter un problème pour le modèle ML et nécessitent donc des capacités de gestion spécifiques.

Le cas d’usage comporte trois sous-cas principaux:

  1. Surveillance et signalement du contexte ML: Le contexte ML doit être identifié en caractérisant les données d’entrée pour lesquelles le modèle ML est conçu. La surveillance de ce contexte permet de détecter les changements et anomalies qui pourraient dégrader les performances du modèle. Le consommateur du service AI/ML doit être informé de ces changements de contexte observés.
  2. Mobilité du contexte ML: Dans de nombreux cas d’automatisation réseau, une fonction d’inférence AI/ML ne peut pas couvrir l’ensemble du réseau avec une seule instance de modèle ML. Un modèle ML peut être entraîné pour un contexte local spécifique, et de même, un contexte différent peut s’appliquer pour l’inférence. Le contexte des entités ML doit donc distinguer entre le contexte de génération de décisions, le contexte de collecte de mesures ou de données, et le contexte de préparation avant activation pour l’inférence.
  3. Mode veille pour le modèle ML: Lorsque plusieurs instances d’entités ML sont nécessaires pour couvrir différentes parties du réseau, des transferts de contexte d’apprentissage automatique, ou « transferts », entre les entités ML couvrant différentes zones de validité sont nécessaires. Un exemple concret est celui d’un modèle ML prédictif pour le transfert intercellulaire, où le modèle doit être déployé dans l’équipement utilisateur (UE) et mis à jour lorsque l’UE change de cellule. Pour minimiser les délais de déploiement et d’initialisation du nouveau modèle, un « champ de préparation » peut être défini pour chaque modèle ML, indiquant la zone dans laquelle le modèle est déployé et initialisé mais pas encore activé pour l’inférence.

Ce cas d’usage met en évidence l’importance de la gestion du contexte ML pour assurer des performances optimales des modèles ML dans des environnements réseau dynamiques et complexes. Il souligne également la nécessité de définir et gérer différents types de contextes (surveillance, validité, préparation) pour faciliter les transitions fluides entre modèles ML dans des scénarios de mobilité.

Découverte et cartographie des capacités du modèle ML (5.1.8)

Une fonction réseau ou de gestion qui applique l’IA/ML peut avoir une ou plusieurs entités ML, chacune avec des capacités spécifiques. Ce cas d’usage permet d’identifier les capacités des entités ML existantes (capacités de prise de décision ou d’analyse) et de les associer à des logiques d’exécution spécifiques, facilitant leur utilisation pour répondre aux besoins d’automatisation.

Gestion des mises à jour AI/ML (5.1.9)

En raison de la complexité et de la nature changeante du réseau, les entités ML déployées peuvent ne plus être applicables après une période de fonctionnement. Ce cas d’usage permet au producteur de mettre à jour les entités ML et d’informer le consommateur autorisé du statut de mise à jour, assurant ainsi une performance d’inférence optimale dans le réseau ou système.

Évaluation de performance pour l’entraînement ML (5.1.10)

Ce cas d’usage concerne l’évaluation de la performance durant l’entraînement ML, permettant au consommateur de sélectionner les indicateurs de performance appropriés, de comprendre et configurer le comportement du modèle ML, et d’appliquer des politiques basées sur la performance pour l’entraînement et les tests ML.

Gestion de configuration pour la phase d’entraînement ML (5.1.11)

L’entraînement ML peut être initié par le consommateur ou le producteur, et peut consommer des ressources significatives. Ce cas d’usage permet au consommateur de contrôler l’entraînement ML initié par le producteur via des configurations, notamment des politiques pour déclencher l’entraînement et des mécanismes d’activation/désactivation de la fonction d’entraînement ML.

Transfert de connaissances ML (5.1.12)

Ce cas d’usage permet d’utiliser les connaissances contenues dans un ou plusieurs modèles ML existants pour produire ou améliorer une nouvelle capacité ML. Il comprend la découverte des connaissances partageables et le partage de connaissances pour le transfert d’apprentissage, sans nécessairement transférer le modèle ML lui-même.

Historique d’inférence AI/ML (5.2.1)

Pour différents besoins d’automatisation, les fonctions réseau et de gestion peuvent appliquer des fonctionnalités ML pour faire des inférences dans différents contextes. Ce cas d’usage permet de suivre l’historique des décisions d’inférence et du contexte dans lequel elles sont prises, permettant d’évaluer la pertinence des décisions ou de détecter des dégradations dans la capacité de prise de décision du modèle.

Orchestration de l’inférence AI/ML (5.2.2)

Un système d’automatisation réseau peut impliquer plusieurs fonctions d’inférence AI/ML, chacune ayant une vue limitée du réseau. Ce cas d’usage facilite l’orchestration de leur fonctionnement et de l’exécution des actions recommandées, incluant le partage de connaissances sur les actions exécutées et leurs impacts, ainsi que le déclenchement et la coordination des fonctions d’inférence AI/ML.

Coordination entre les capacités ML (5.2.3)

Pour le ML dans le 5GC ou RAN, les capacités ML peuvent nécessiter une coordination avec les analyses de gestion 3GPP pour améliorer la performance globale. Ce cas d’usage permet l’alignement des capacités ML entre 5GC/RAN et le système de gestion 3GPP, combinant leurs résultats d’analyse pour améliorer la précision des prédictions globales.

Chargement de modèle ML (5.2.4)

Ce cas d’usage concerne le processus de mise à disposition d’un modèle ML dans les environnements opérationnels. Après qu’un modèle ML répond aux critères de performance, il peut être chargé dans une fonction d’inférence cible, que ce soit à la demande du consommateur ou sur initiative du producteur selon une politique de chargement prédéfinie.

Émulation d’inférence ML (5.2.5)

Après la validation d’un modèle ML durant son développement, l’émulation d’inférence est nécessaire pour vérifier son fonctionnement correct dans des contextes d’exécution spécifiques. Ce cas d’usage permet au consommateur de demander l’exécution d’une capacité AI/ML dans un environnement d’émulation et de gérer le processus d’émulation, y compris dans différents environnements selon le niveau de confiance.

Évaluation de performance pour l’inférence AI/ML (5.2.6)

En phase d’inférence, la performance de la fonction d’inférence et du modèle ML doit être évaluée par rapport aux attentes du consommateur. Ce cas d’usage permet la sélection et l’application d’indicateurs de performance basés sur les politiques du consommateur, ainsi que l’abstraction des métriques de performance pour faciliter leur interprétation.

Gestion de configuration pour la phase d’inférence AI/ML (5.2.7)

La fonction d’inférence AI/ML doit être configurée pour conduire l’inférence conformément aux attentes du consommateur. Ce cas d’usage permet la configuration de la fonction d’inférence et l’activation/désactivation des modèles ML, y compris l’activation partielle ou progressive des capacités d’inférence AI/ML selon des politiques prédéfinies.

Contrôle de mise à jour AI/ML (5.2.8)

Lorsque les capacités d’un modèle ML se dégradent, le consommateur doit pouvoir déclencher des mises à jour. Ce cas d’usage permet au producteur d’informer le consommateur de la disponibilité de nouvelles capacités et au consommateur de demander la mise à jour des modèles ML avec des exigences de performance spécifiques.

Apprentissage machine fiable (5.3.1)

Ce cas d’usage concerne la gestion de la fiabilité AI/ML pendant l’entraînement, les tests et l’inférence. Il vise à garantir que le modèle est explicable, équitable et robuste à travers la définition d’indicateurs de fiabilité, le prétraitement des données selon des mesures de fiabilité, et l’application de techniques de fiabilité pendant l’entraînement, l’inférence et l’évaluation.

Comprendre le concept du modèle ML/IA – Partie 3

Cet article est destiné à présenter un exemple concrent d’ agents IA (agentic AI) dans le contexte de la 6G et un scénario détaillé.

L’IA agentique (ou agentic AI) désigne des systèmes d’intelligence artificielle capables de réaliser des tâches, de prendre des décisions et d’interagir avec d’autres systèmes de façon autonome ou partiellement autonome.

Exemple sur la gestion intelligente d’événements urbains

Contexte

Imaginons une grande ville intelligente équipée d’une infrastructure 6G avancée. Cette ville accueille régulièrement des événements de grande envergure (concerts, événements sportifs, manifestations culturelles) qui créent des défis significatifs pour les réseaux de télécommunications.

Architecture des agents IA

  1. Agent Orchestrateur Central
    • Coordonne l’ensemble du système
    • Prend des décisions de haut niveau
    • Délègue les tâches spécifiques à des agents spécialisés
  2. Agents Spécialisés
    • Agent Trafic Réseau
    • Agent Gestion Énergétique
    • Agent Sécurité
    • Agent Communication d’Urgence
    • Agent Expérience Utilisateur

Fonctionnement détaillé du système

Phase 1: Planification proactive (J-7 avant l’événement)

  1. L’Agent Orchestrateur reçoit l’information qu’un concert majeur aura lieu dans 7 jours, avec 50 000 participants attendus
  2. Il active l’Agent Trafic Réseau qui:
    • Analyse les données historiques d’événements similaires
    • Prédit les besoins en bande passante par zone géographique
    • Identifie les potentiels points de congestion
    • Recommande une topologie de réseau optimisée
  3. L’Agent Gestion Énergétique:
    • Calcule les besoins énergétiques additionnels
    • Programme l’activation/désactivation des antennes supplémentaires
    • Optimise la consommation pour maximiser l’autonomie des batteries de secours
  4. L’Agent Sécurité:
    • Établit des protocoles de détection d’intrusion renforcés
    • Prépare des mécanismes d’isolation rapide en cas d’attaque
    • Configure des canaux sécurisés pour les communications prioritaires

Phase 2: Déploiement (Jour J – 6 heures)

  1. L’Agent Orchestrateur lance le plan de déploiement
  2. L’Agent Communication crée dynamiquement trois « network slices » 6G distincts:
    • Un slice haute priorité pour services d’urgence (police, ambulances)
    • Un slice haute capacité pour médias et streaming
    • Un slice faible latence pour IoT critique
  3. Le système active les ressources additionnelles:
    • Déploiement de small cells temporaires
    • Activation des antennes directionnelles programmables
    • Reconfiguration des paramètres de Quality of Service (QoS)

Phase 3: Opération en temps réel (pendant l’événement)

  1. Les capteurs IoT détectent une concentration inattendue de personnes dans une zone spécifique
  2. L’Agent Trafic analyse la situation et détecte un risque de congestion réseau
  3. L’Agent Orchestrateur prend une décision autonome:
    • Redirection de 30% de capacité supplémentaire vers cette zone
    • Reconfiguration des antennes directionnelles
    • Ajustement des priorités de trafic
  4. L’Agent Expérience Utilisateur:
    • Surveille les indicateurs de qualité perçue (latence, débit)
    • Détecte des problèmes d’expérience utilisateur dans certaines applications
    • Négocie des compromis entre applications pour maintenir la satisfaction globale

Phase 4: Adaptation aux incidents

  1. Les capteurs détectent un incident de sécurité (panne d’électricité locale)
  2. L’Agent Sécurité:
    • Isole la section affectée du réseau
    • Active les protocoles de résilience
    • Redirige le trafic critique
  3. L’Agent Communication d’Urgence:
    • Reconfigure automatiquement les ressources pour services d’urgence
    • Établit des liaisons directes D2D (Device-to-Device) pour communications locales
    • Priorise les messages d’alerte aux participants

Capacités clés démontrées par ce système agentic IA en 6G

  1. Perception contextuelle
    • Intégration de données multi-sources (IoT, réseaux sociaux, capteurs)
    • Compréhension des modèles d’utilisation et de déplacement
    • Détection d’anomalies en temps réel
  2. Raisonnement et planification
    • Prise de décisions autonome basée sur objectifs multiples
    • Planification à court et moyen terme
    • Adaptation dynamique aux changements environnementaux
  3. Action et contrôle
    • Reconfiguration autonome des paramètres réseau
    • Déploiement ciblé de ressources additionnelles
    • Gestion des priorités en fonction du contexte
  4. Apprentissage continu
    • Amélioration itérative des modèles prédictifs
    • Adaptation aux nouveaux cas d’usage
    • Partage de connaissances entre agents

Ce scénario montre que l’outil Agentic.ia fait une pré-étude, analyse la situation, prépare l’évènement et coordonne différents service en passant au stade de l’action.

Ainsi, en exploitant les capacités uniques de la 6G (ultra-faible latence, capacité massive, fiabilité extrême), Agentic.ia transforme la gestion des réseaux de télécommunication en les rendant intelligents, proactifs et adaptables.

Comprendre le concept du modèle ML/IA – Partie 2

Dans l’article précédent nous avions présenté 3 d’apprentissages IA. Nous allons maintenant revenir plus particulièrement sur l’apprentissage fédéré horizontal (HFL) et vertical (VLF)

Le fonctionnement du HFL et VFL pour l’IA dans les réseaux de télécommunications

Introduction à l’apprentissage fédéré

L’apprentissage fédéré est une approche d’entraînement de modèles d’IA qui permet de développer des modèles à partir de données distribuées sur différents appareils ou serveurs, sans nécessiter le transfert des données brutes vers un serveur central. Cette approche est particulièrement pertinente dans le contexte des télécommunications où la confidentialité des données, la réduction de la bande passante et la distribution géographique sont des considérations importantes.

Deux principales variantes d’apprentissage fédéré sont mentionnées dans le document de 5G Americas et développées dans la littérature scientifique: l’apprentissage fédéré horizontal (HFL) et l’apprentissage fédéré vertical (VFL).

Figure 1 : HFL (gauche) et VFL (droite)

Apprentissage Fédéré Horizontal (HFL)

Principe fondamental

Selon le document, le HFL (souvent simplement appelé « apprentissage fédéré ») est une technique où le modèle d’apprentissage automatique est entraîné sur différents « clients » (nœuds, appareils ou serveurs) qui possèdent des données avec les mêmes caractéristiques mais concernant des échantillons différents.

En termes plus simples, dans le HFL:

  • Chaque participant dispose du même type de données (mêmes features/variables)
  • Mais chacun a des exemples/échantillons différents (différentes instances)

Fonctionnement détaillé

  1. Initialisation: Un modèle global initial est créé sur le serveur central (NWDAF serveur dans le contexte des télécommunications).
  2. Distribution du modèle: Ce modèle est envoyé à plusieurs clients (par exemple, différents NWDAF locaux dans différentes zones géographiques).
  3. Entraînement local: Chaque client entraîne le modèle sur ses données locales pendant plusieurs itérations.
  4. Agrégation des paramètres: Les clients renvoient uniquement les paramètres du modèle mis à jour (pas les données) au serveur central.
  5. Mise à jour du modèle global: Le serveur central agrège ces paramètres (typiquement par une forme de moyenne pondérée) pour créer une version améliorée du modèle global.
  6. Itération: Les étapes 2-5 sont répétées à travers plusieurs cycles jusqu’à ce que le modèle converge ou atteigne des performances satisfaisantes.

Avantages dans le contexte des télécommunications

  • Confidentialité: Les données sensibles restent sur leurs appareils/serveurs d’origine.
  • Efficacité de communication: Seuls les paramètres du modèle sont transmis, pas les données brutes, réduisant considérablement la charge du réseau.
  • Adaptation locale: Le modèle peut capturer les spécificités locales tout en bénéficiant de l’apprentissage collectif.

Application dans le NWDAF (3GPP)

Dans les réseaux 5G, comme mentionné dans le document, le HFL a été introduit dans la Release 17 du 3GPP pour le NWDAF. Il permet:

  • L’entraînement collaboratif entre différentes zones d’intérêt (parties du réseau)
  • Chaque zone utilise le NWDAF le plus proche pour entraîner localement
  • L’apprentissage collectif est agrégé par une fonction centrale sur le NWDAF serveur
  • Des protocoles préservant la confidentialité comme l’agrégation sécurisée peuvent être appliqués

Apprentissage Fédéré Vertical (VFL)

Principe fondamental

Le VFL, introduit dans la Release 19 pour le NWDAF selon le document, est conçu pour des scénarios où différents participants possèdent différentes caractéristiques/features pour les mêmes échantillons (ou un chevauchement significatif des échantillons).

En termes simplifiés, dans le VFL:

  • Chaque participant a des types de données différents (features différentes)
  • Mais ils concernent le même ensemble d’utilisateurs ou d’entités (mêmes échantillons)

Fonctionnement détaillé

  1. Division du modèle: Dans le VFL, le modèle d’apprentissage est divisé en « modèle de tête » et « modèle de queue »:
    • Les modèles de tête sont déployés chez les participants (par exemple, Client A et Client B)
    • Le modèle de queue est hébergé sur un serveur central
  2. Processus d’entraînement:
    • Propagation avant: Les clients traitent leurs données locales à travers leurs modèles de tête
    • Transfert d’activations: Les résultats intermédiaires (activations) sont envoyés au serveur central
    • Concaténation: Le serveur central concatène ces activations
    • Calcul de perte: Le modèle de queue calcule une perte en utilisant les étiquettes disponibles sur le serveur
    • Rétropropagation: Les gradients sont calculés et les dérivées partielles correspondantes sont renvoyées aux clients
    • Mise à jour locale: Chaque client met à jour son modèle de tête en fonction des gradients reçus
  3. Alignement des échantillons: Pour que le VFL fonctionne, il est crucial d’aligner les échantillons entre les participants, généralement à l’aide d’identifiants uniques comme des horodatages ou des identifiants d’utilisateur (SUPI dans le contexte 5G).

Avantages spécifiques au VFL

  • Enrichissement des caractéristiques : Permet de combiner différentes perspectives ou types de données sans les partager directement
  • Architecture personnalisée: Chaque participant peut avoir sa propre architecture de réseau neural
  • Complémentarité des données: Permet d’exploiter des données complémentaires détenues par différentes entités

Application dans les réseaux 5G (NWDAF)

Selon le document, dans la Release 19 du 3GPP, le VFL est introduit pour permettre la collaboration entre:

  • Les NWDAF dans le réseau cœur
  • Les fonctions d’application (AF) qui peuvent détenir d’autres types de données

Cette approche permet notamment:

  • La prédiction de QoS en utilisant à la fois des données réseau et des données applicatives
  • Une meilleure adaptation aux besoins spécifiques grâce à des architectures de modèle personnalisées
  • L’extension des fonctionnalités existantes développées pour le HFL

Différences clés entre HFL et VFL

En synthétisant les informations du document et la littérature sur le sujet:

Aspect HFL (Horizontal) VFL (Vertical)
Partitionnement des données Même espace de features, échantillons différents Features différentes, mêmes échantillons
Architecture du modèle Modèles identiques sur tous les clients Division tête/queue avec architectures potentiellement différentes
Communication Paramètres du modèle complet Activations et gradients partiels
Confidentialité Protège la confidentialité des échantillons Protège la confidentialité des features
Cas d’usage typique dans 5G Apprentissage entre différentes zones géographiques Collaboration entre réseau cœur et applications
Complexité d’implémentation Plus simple (agrégation directe des modèles) Plus complexe (coordination entre sous-modèles)

Protection de la confidentialité dans HFL et VFL

Les deux approches intègrent des mécanismes pour renforcer la confidentialité:

Dans le HFL:

  • Agrégation sécurisée: Techniques cryptographiques pour agréger les mises à jour de modèle sans révéler les contributions individuelles
  • Distillation de connaissances: Transfert de connaissances sans partager les paramètres exacts du modèle
  • Quantification et élagage: Réduction de la précision ou de la taille des modèles pour limiter les fuites d’information

Dans le VFL:

  • Calcul multi-parties: Techniques permettant des calculs conjoints sans partager les données sous-jacentes
  • Chiffrement homomorphe: Opérations sur des données chiffrées sans les déchiffrer
  • Perturbation différentielle: Ajout de bruit aux activations partagées pour protéger la confidentialité

Implémentation dans un réseau de télécommunications

Dans le contexte spécifique des réseaux de télécommunications, le document de 5G Americas décrit l’implémentation de ces approches:

Pour le HFL:

  • Déployé entre différentes zones géographiques du réseau
  • Les NWDAF clients sont situés près des zones qu’ils desservent
  • Un NWDAF serveur central coordonne l’agrégation
  • Les modèles peuvent prédire des comportements comme la charge du réseau ou la mobilité des utilisateurs

Pour le VFL:

  • Permet la collaboration entre le réseau cœur et les applications externes
  • Les prédictions peuvent combiner des données réseau (comme les conditions du signal) avec des données applicatives (comme les exigences des applications)
  • Permet de préserver la séparation entre domaines administratifs tout en bénéficiant du partage de connaissances

Conclusion: évolution et tendances futures

L’évolution de l’apprentissage fédéré dans les réseaux de télécommunications, comme le montre le document 5G Americas, suit une progression naturelle:

  1. D’abord introduction du HFL dans la Release 17, permettant la collaboration entre différentes parties du réseau
  2. Extension au transfert de modèles entre domaines administratifs dans la Release 18
  3. Introduction du VFL dans la Release 19, permettant la collaboration entre le réseau et les applications

Cette évolution reflète une tendance plus large vers:

  • Des réseaux de plus en plus intelligents et adaptatifs
  • Une intégration plus profonde entre les réseaux et les applications qu’ils supportent
  • Une attention croissante à la confidentialité et à l’efficacité des communications

Le HFL et le VFL représentent deux approches complémentaires d’apprentissage fédéré qui, ensemble, permettent une collaboration plus riche et plus flexible entre les différentes entités d’un écosystème de télécommunications, tout en respectant les contraintes de confidentialité et d’efficacité.