Une petite question en guise d’introduction.

Voyez-vous le rapport entre ces deux imagine?

Si le lien n’est pas évident, cet article est faire pour vous.

Dans le clustering ascendant hiérarchique (CAH), “clustering ascendant” fait référence au regroupement des observations, tandis que “hiérarchique” a à voir avec le changement d’échelle.

L’idée est d’abord de regrouper des détails entre eux, pour ensuite former de gros groupe et finir avec une structure globale.

En pratique, ces méthodes ont le même rendu que ci-contre.

Pour construire une telle arborescence, on a besoin:

Ces techniques ont révolutionné la phylogénie. Grâce au clustering ascendant hiérarchique, les  “vertébrés” ne sont plus composés de 5 branches (mammifères, reptiles, poissons, oiseaux et amphibiens).

Phylogénie du SARS-cov-2 virus le 4 avril 2020
Lire cet article pour plus de détails

De plus, ces techniques hiérarchiques sont très naturelles: même la nature y a eu recours pour produire des feuilles!

Si vous voulez essayer vous-même, on peut trouver de tels algorithmes dans scikit-learn en python ou DIANA en R. Mais on retrouve aussi cette notion de hiérarchie dans fonctionnement interne de X-means (version python, R) qui sert à clusteriser des données vectorielles sous une hypothèse de gaussianité. On le retrouve également dans le clustering de points dans un graphe à la façon de Bonald et al. ou encore dans la version « online » de l’algorithme de Louvain de Loustau et Darmaillac. Et enfin, on pourrait encore citer le domaine du clustering de données fonctionnelles.

On espère que cet #exemple_de_vie_quotidienne vous a plu. Merci de nous avoir lu et merci au morus australis d’avoir posé pour nous.