Modèles régressifs pour données longitudinales

Les données longitudinales, généralement issues de mesures répétées au cours du temps sur des entités (individu, composant, système, autre), deviennent de plus en plus fréquentes dans les domaines de l’ingénierie et plus particulièrement en diagnostic, où des systèmes d’acquisition de plus en plus performants sont capables de fournir assez rapidement de grandes quantités de données. Une bonne caractérisation de ces données devient essentielle à la mise en place d’outils performants de diagnostic par reconnaissance des formes. Un modèle théorique baptisé RHLP (Regression with Hidden Logistic Process), permettant de modéliser des données longitudinales à changements de régimes a été développé au sein de l’équipe diagnostic et maintenance du GRETTIA [1] [2]. Ce modèle constitue une alternative aux modèles de markov cachés régressifs ou aux modèles de régression affines par morceaux, qui permet de mieux gérer la qualité des changements de régime (du plus brusque au plus lent) et d’obtenir ainsi une bonne modélisation de données longitudinales non linéaires. Si l’on désigne par (y1…yt…yT) une séquence d’observations, ce modèle suppose que :

 

où :

  • P(t,B) est un polynôme d’ordre p et de vecteur de coefficients B.
  • la variable latente zt, à valeurs dans {1,…,K} permet de spécifier le régime le mieux adapté à la séquence, à l’instant t. Elle est issue d’une loi multinomiale dont les paramètres sont des transformations logistiques de fonctions linéaires du temps :

Les transformations logistiques utilisées dans ce modèle permettent de modéliser aussi bien les changements de régimes brusques que les changements de régimes doux. On peut montrer qu’à chaque instant t, la variable yt est distribuée suivant un modèle de mélange de régressions où les proportions sont les probabilités logistiques qui, dans ce cas particulier, sont des fonctions du temps. L’estimation du modèle s’effectue ainsi grâce à un algorithme Expectation-Maximization (EM) spécifique.

 


Figure 1. Exemple d’une séquence simulée avec les polynômes estimés et les probabilités logistiques associées

Publications

F. Chamroukhi (2010). Hidden process regression for curve modeling, classification and tracking. Thèse de doctorat, Université de Technologie de Compiègne.

F. Chamroukhi, A. Samé, G. Govaert, P. aknin (2009). Time series modeling by a regression approach based on a latent process. Neural Network, 22, pp 593-602.