Return to site

Clustering de données fonctionnelles

By Matthieu SAUMARD

· AllAboutData,ToolsAndTech

La théorie des données fonctionnelles (FDA en anglais) est de plus en plus courante et les applications des données fonctionnelles sont de plus en plus nombreuses: biologie, médecine, économétrie, astronomie, météo; et ceci grâce à l’accroissement exponentiel des capacités de stockage et de mémoire des appareils de mesure et de traitement. Mais de quoi s’agit-il?

Introduction au FDA

Une définition rapide est la suivante: c’est la réalisation d’une variable aléatoire à valeur dans un espace de dimension infinie. Une des difficultés pour traiter ce type de données, c’est leur appartenance à un espace de dimension infinie (espace de fonctions) et non plus finie à un espace de vecteurs.

Plusieurs types de données fonctionnelles existent, suivant leur enregistrement:

  • les données dites denses. On considère que l’on observe toute la fonction directement,
  • les données parsimonieuses (sparse),
  • un entre deux.

Dans, ces deux derniers cas, Il est alors généralement nécessaire de faire appel à une étape de pré-traitement pour obtenir les fonctions. Pour une introduction aux FDA, on peut citer le livre qui fait référence de Ramsay and Silverman , mais aussi le livre de Ferraty et Vieu sur l’inférence non-paramétrique en données fonctionnelles, celui de Horváth et Kokoszka , de Bosq pour les données dépendantes et pour les plus matheux d’entre vous : Hsing et Eubang.

Différentes stratégies

De nombreux algorithmes de classification non-supervisée ont vu le jour, je ne vais pas faire un listing complet ici, mais s’il vous le souhaitez reportez-vous à l’excellent article de Julien Jacques et Cristian Preda pour une review sur les données fonctionnelles. Il existe différentes stratégies:

  • la stratégie "naïve" consiste à regarder les données comme des données classiques et utiliser un algorithme de clustering directement sur les données brutes.
  • en deux étapes: la première consiste à réduire la dimension des données en utilisant la nature fonctionnelle de celle-ci. Puis on utilise un algorithme classique de clustering sur les données réduites.
  • stratégie purement fonctionnelle. On applique directement un algo dédié aux données fonctionnelles (il en existe ! si si !)

 

Exemple avec Rshiny

Les données présentées ici sont les courbes de croissance entre 1 et 18 ans sur 93 sujets, disponible dans le package R fda (Growth). Il y a deux groupes, les courbes correspondant aux hommes et celles des femmes. Le but est de reconstruire ces groupes. J’ai utilisé une approche purement fonctionnelle et une approche directe (naïve). L’algorithme utilisé pour l’approche purement fonctionnelle est funHDDC disponible sous R dans le package du même nom ( lien ici ). Celui de la méthode directe est l’algorithme des kmeans. Je reporte aussi les taux de bonne classification. On est loin d’une étude exhaustive, mais en général c’est cela qui se passe, les techniques adaptées au FDA surpassent la méthode naïve.

Petite conclusion

Quand on est confronté à des données, avant de se lancer tête baissée sur les algos, mieux vaut savoir d’où elles proviennent, comment sont-elles enregistrées et surtout s’il existe des méthodes adaptées pour ce type de données...Faîtes de la biblio !

All Posts
×

Almost done…

We just sent you an email. Please click the link in the email to confirm your subscription!

OKSubscriptions powered by Strikingly