La fusion de modèles d’apprentissage, un grand potentiel – illustration par la détection automatique de poteaux de caténaire

Data Science - R&D
13 févr. 2024
8 min de lecture

Contexte

Au centre de la stratégie d’une mobilité durable, sure et responsable, les trains à traction électrique sont généralement alimentés par une caténaire. Le maintien dans l’espace des fils de contacts repose sur un réseau complexe de poteaux. Ils participent activement à l’intégrité de l’alimentation des locomotives électriques le long de parcours pouvant excéder des centaines de kilomètres. Installé par milliers aux abords des voies, la localisation précise de ces poteaux est cruciale au suivi de l’infrastructure ferroviaire. Cet effort de localisation participe à la prédiction de la position exacte des wagons d’inspection au cours de leur enregistrement et donc du lieu précis1 d’un défaut observé, utile à la réalisation d’une maintenance proactive.

De nombreuses sources de données participent à la tâche de détection des poteaux caténaires. Elles sont dépendantes du type de capteurs d’inspections utilisés. L’une des plus communes sont les données « Radars ». Ces systèmes fonctionnent par émission de signaux de radiofréquence et l'analyse de leur réflexion -- ou de l'écho -- qui revient après avoir touché des objets sur leur trajectoire. Dans cette lignée, les signaux radio peuvent être remplacés par des faisceaux laser où le déphasage du signal renvoyé diffère de celui du signal émis et fournit donc un moyen efficace de détecter la distance de l'objet intercepté. Par ailleurs, les capteurs LiDAR (Light Detection and Ranging) capturent des informations détaillées en 3D de l'environnement. Les données LiDAR peuvent donc constituer une bonne ressource pour la cartographie et l'identification précise des poteaux caténaires. Aussi, les images à haute résolution fournissent des données visuelles qui peuvent être traitées par des algorithmes de traitement d'image et des modèles de vision (CV) pour identifier et analyser les poteaux caténaires. La valeur ajoutée du traitement des flux d'images au niveau du sol est de fournir une perspective visuelle pour le processus de détection. De nombreuses autres sources de données pourraient être utilisées pour la détection des poteaux caténaires, par exemple, mais sans s'y limiter, l'imagerie satellite, la photographie aérienne, la surveillance électrique des signaux d'entrée/sortie, les capteurs de vibrations, les images infrarouges, etc.

Ces sources de données variées peuvent impliquer différents types de traitements et nécessiter leurs combinaisons. Ce concept est bien connu dans la littérature scientifique en Science des Données (DS) et en Intelligence Artificielle (IA). Il s’agit de la fusion de modèles, ou l’apprentissage ensembliste : de multiples sources de données et des modèles hétérogènes travaillent en collaboration pour obtenir des prédictions plus robustes. L'objectif est de tirer profit des points forts de chacun des modèles impliqués et dans le même temps compenser leurs limites.

Compte tenu de l’énorme volume et de la versatilité des sources de données existantes dans le milieu ferroviaire de nos jours, RAILwAI accorde une attention toute particulière à l’application de ce type de modélisations innovantes qui pourrait révolutionner l’inspection ferroviaire et être utile au suivi de phénomènes de dégradation. Nous présentons par la suite un de nos récents travaux de recherche qui utilise la fusion de modèles pour la détection de poteaux caténaires.

Fusion de modèles

Nous supposons que nous voulons prédire l’état d’un objet (e.g. sa position) à partir de plusieurs mesures. Ces mesures peuvent provenir de différentes sources de données/capteurs, chacune reflétant une partie des informations nécessaires à l'estimation de l'état de l'objet.

Nous pouvons considérer chaque mesure pour un objet donné comme une vue partielle de l’état de ce dernier. Chacune de ses vues peut être complémentaire (e.g. dans le cas de la multimodalité) ou fournir des informations redondantes sur son état (e.g. différentes mesures candidates de la même quantité). Dans ce cas, il est intéressant de les combiner pour obtenir une estimation robuste de l'état de l'objet.

Une stratégie courante consiste à considérer plusieurs modèles (entraînables ou déterministes) pour extraire les informations pertinentes de chaque vue partielle (ou instance) de l'objet. Ensuite, nous fusionnons ces informations extraites pour produire l'estimation finale de l'état de ce dernier.

Figure 1: Représentation de la fusion tardive « late fusion » (a) et de la fusion précoce « early fusion » (b).

Il existe deux principaux paradigmes de fusion de modèles : la fusion tardive et la fusion précoce.

La fusion tardive, illustrée en Figure 1.a, est le plus évident car il consiste généralement à entraîner chacun des modèles de l'ensemble à prédire l'état estimé de l'objet, puis à combiner ces prédictions pour obtenir une estimation robuste. Par exemple, si l'état à estimer est la position d'un objet donné, nous pouvons simplement renvoyer la position moyenne prédite par tous les membres du groupe de modèles. Cela aura un impact positif sur la confiance de l'estimation.
La fusion précoce, illustrée en Figure 1.b, diffère dans le sens où nous utilisons un ensemble de modèles « d’encodage », chacun formé respectivement à une source de données, afin de produire des vecteurs de caractéristiques pour l'instance correspondante à l'objet. Un vecteur de représentation général est produit à partir de tous les vecteurs de caractéristiques par le biais d'un module de fusion et enfin un modèle de classification est formé sur la base des représentations de toutes les instances de ces vecteurs généraux.

L'avantage de la fusion précoce est qu'elle permet d'apprendre comment combiner les informations contenues dans les différentes mesures, ce qui est bien adapté en cas de complémentarité entre ces dernières. Au contraire, la fusion tardive est mieux adaptée pour fournir des estimations robustes (i.e. avec une incertitude de prédiction réduite) à partir d'informations redondantes contenues dans les différentes mesures. Ces informations peuvent provenir de modalités différentes, mais chacune contient intrinsèquement les mêmes informations sur l'état de l'objet.

Application : Détection de Poteaux Caténaires

Nous présentons ici un module développé chez RAILwAI concernant la détection des poteaux caténaires. Ce module exploite les données provenant de deux capteurs différents et utilise la fusion de modèles pour une meilleure fiabilité de la prédiction. La première source de données est constituée d’images au niveau du sol provenant de caméras embarquées à l’avant de la locomotive et qui capturent des images en continu. Nous utilisons deux vues différentes provenant de deux caméras différentes. Dans ce cas, nous utilisons des modèles basés sur la CV. L'autre source utilise les flux de données numériques de séries temporelles provenant de capteurs laser qui mesurent conjointement la hauteur des câbles caténaires et le décalage de l'alignement des rails. Nous traitons ces données par des algorithmes et des modèles de traitement numérique du signal (DSP).

Examinons de plus près les deux typologies de modèles !

Modèle-I (CV Modèles)

Pour le premier modèle, nous utilisons une combinaison de segmentation sémantique à l’état de l’art et basée sur l'apprentissage profond, puis un module de classification des caractéristiques géométriques extraites à l'étape précédente. Les modèles de segmentation basés sur l'apprentissage profond fournissent aujourd'hui des résultats remarquables pour la localisation d'objets visuels génériques dans une image. Ils permettent généralement d'obtenir d’excellents résultats d'apprentissage dès le premier échantillon. Autrement dit il est généralement non nécessaire de les réentraîner pour une tâche spécifique.

Figure 2 : Exemple d’une segmentation sémantique appliquée à une image de capture depuis le toit d’un wagon.

Pour notre exemple, un tel modèle peut cependant manquer certaines détections de poteaux en raison des conditions d’observations variables (e.g. une surexposition, les conditions météorologiques, etc). Étant donné que l'entraînement de tels modèles nécessite une quantité considérable de données (même dans le cas d’un ajustement des paramètres par transfert d’apprentissage), nous avons décidé d'affiner la précision de la détection en entraînant un modèle de classification par-dessus. Le modèle de segmentation est alors utilisé comme un extracteur générique de caractéristiques géométriques sur lequel un modèle de classification simple peut être entraîné. L'intégration de ces connaissances préalables dans le processus d'apprentissage nous permet de réduire considérablement le nombre d'exemples d'apprentissage nécessaires pour obtenir de bonnes performances tout en économisant les ressources informatiques (plus efficace et plus sobre).

Figure 3 : Un extrait de résultat de la classification complète pour détecter l'emplacement du poteau caténaire. Nous voyons ici que nous avons encore quelques erreurs dues à l'ambiguïté entre la détection des fils verticaux et celle des poteaux caténaires.

Figure 4 : Un extrait de résultat du pipeline de classification complet à partir d'un point de vue différent de la caméra pour le même segment de rail. Nous voyons ici que ce point de vue ne contient pas les mêmes informations ambiguës que le point de vue précédent (Figure 3).

Les Figures 3 et 4 montrent des extraits de résultats de ce pipeline de vision appliqué à différentes caméras du train. Ces différents résultats vont permettre de fournir une meilleure estimation de leur emplacement précis. Par exemple, les mauvaises détections de poteaux pour les fils verticaux seront éliminées lors de la fusion des différentes détections provenant des autres points de vue.

Dans la section suivante, nous décrivons un autre estimateur issu d'une modalité de mesure différente qui nous permet d'être encore plus robustes si l'une des estimations du modèle est inexacte ou manque simplement la détection d’un poteau.

Modèle-II (DSP Modèle)

Pour le second modèle et pour identifier l'emplacement des poteaux, nous utilisons les points les plus haut du signal de hauteur du fil de contact caténaire ainsi que le signal de désaxement correspondant. À cette fin, nous extrayons des caractéristiques des séries à partir d’algorithmes de traitement du signal après avoir soumis les signaux bruts à des étapes de prétraitements approfondis : lissage, suppression de valeurs aberrantes, etc. Pour l'extraction des caractéristiques, nous utilisons un ensemble complet de caractéristiques qui représentent les signaux dans les domaines temporel et fréquentiel. Nous divisons les signaux en courtes fenêtres glissantes, non seulement pour extraire les caractéristiques locales appropriées, mais aussi pour optimiser les ressources informatiques nécessaires. La Figure 5 montre l'un de ces segments mettant en évidence le résultat du modèle qui représente l'emplacement suggéré des poteaux caténaires.

Figure 5 : Localisation des poteaux caténaires en fonction du signal de hauteur (a) et du signal de désaxement (b).

Fusion des modèles

Nous appliquons différentes typologies de fusion de modèles au regard des stratégies tardives et précoces. L'utilisation d'ensembles de modèles permet de relever les principaux défis liés à la détection des poteaux de caténaires, notamment les changements environnementaux (conditions météorologiques défavorables), les terrains complexes (courbes, pentes et zones à forte végétation) et la nature dynamique des opérations ferroviaires (vitesse variable). Les performances des modèles individuels varient en fonction de ces facteurs et conditions, ce qui permet de créer des ensembles de modèles plus diversifiés et plus performants. Néanmoins, l'intégration des données et la fusion des modèles posent d'autres problèmes. Il s'agit notamment de la synchronisation (spatiale) entre diverses sources de données, ainsi que de l'utilisation efficace et de l'optimisation des ressources informatiques. Chez RAILwAI, nous proposons différentes solutions pour tous ces défis et une fusion adaptative des modèles prédictifs afin de garantir des opérations plus durables et continues.

Implications industrielles

Dans les méthodologies d'apprentissage automatique contemporaines, le processus d'apprentissage lui-même est sans fin. Ainsi les modèles prédictifs peuvent être conçus pour intégrer d'autres sources d'information qui garantissent l'évolution fiable de leurs performances. L'une des sources les plus importantes est l'expert humain. Par conséquent, l'intégration de l'homme dans la boucle d’apprentissage par le biais de l'apprentissage automatique interactif (IML) est considérée comme le paradigme à l’état de l’art pour la coopération de l'intelligence humaine et de l'intelligence machine, afin qu’elles s’enrichissent mutuellement.

Figure 6 : Itérations d’apprentissage automatique interactif.

Du point de vue des experts, des interactions avec les modèles d'IA peuvent constituer un bon moyen d'observer les performances de ces modèles et de visualiser non seulement leurs prédictions finales, mais aussi les résultats intermédiaires des sous-systèmes qui les composent. L'apprentissage automatique étant principalement critiqué pour sa difficulté d'interprétation, l'apprentissage automatique interactif peut révéler des informations approfondies sur ces modèles et donc fournir des modèles plus explicables, plus faciles à interpréter. D'autre part, l'intégration du retour d'information des experts dans les modèles dans le cadre du processus d'apprentissage améliore les capacités de généralisation de ces modèles et permet d'obtenir des versions plus robustes et plus fiables.

Grâce aux progrès récents des modèles de vision, RAILwAI a l'intention d'impliquer des modules de prédiction visuelle dans le processus de fusion. Cela permet et facilite l'interaction des experts humains avec le modèle. Étant donné que les tâches visuelles sont généralement plus faciles que d'autres tâches (prédictions à partir de signaux), cela nécessitera moins d'expertise pour réaliser la boucle de rétroaction avec le modèle. Selon la loi européenne sur l'intelligence artificielle (AI-ACT), il est fortement conseillé de faire adhérer les modèles d'apprentissage automatique et d’IA à certaines conditions pour un déploiement sûr dans des applications et des industries critiques. Cela implique de prendre en compte la traçabilité, la transparence, la surveillance humaine, la précision et la robustesse des systèmes basés sur l'IA. La loi sur l'IA accorde une grande attention à l'IA centrée sur l'humain (HCAI) et à la création de boucles de rétroaction humaine pour traiter les résultats éventuellement biaisés (article 15, paragraphe 3). Par conséquent, il est fortement recommandé de prendre en compte l'importance du retour d'information pour maintenir et améliorer le niveau de sécurité des applications d'IA déployées dans le secteur ferroviaire. L'objectif est d'améliorer l'interprétabilité et l'explicabilité des modèles d'IA qui sont souvent considérés comme des boîtes noires. Toutefois, cela soulève de nombreuses questions quant à la possibilité de reproduire ces modèles et de suivre leur évolution.

Si vous souhaitez en savoir plus et obtenir des informations approfondies sur nos solutions et services de pointe, contactez-nous chez RAILwAI pour explorer un monde de possibilités et mettre vos données sur la voie intelligente.