regroupement avec des éléments égaux
Supposons que nous ayons un ensemble d'observations: $\mathbf{X} = \{x_{1}, \dots, x_{n}\}\subseteq \mathbb{R}^{d}$, contenant $n$ observations pour une dimensionnalité fixe $d$. Supposons que nous ayons un entier fixe$k$. Le clustering k-means (avec une distance de l2) est le problème de la recherche des centres de gravité des clusters$S_{1}, \dots, S_{k}$ qui minimisent $$ cost(S_{1}, \dots, S_{1}) = \sum_{j=1}^{k}\sum_{x\in S_{j}}||x - q_{j}||^{2}, $$ où $q_{1}, \dots, q_{k} \in \mathbb{R}^{d}$ sont les centroïdes, ie $q_{j} = \frac{1}{|S_{j}|}\sum_{x\in S_{j}}x$.
Supposons, là dedans $\mathbf{X} = \{x_{1}, \dots, x_{n}\}$ il y a des éléments égaux $\{x\} \subset \mathbf{X}$.
Est-il possible que dans une solution globale (théorique) ces éléments égaux les uns aux autres $\{x\}$ appartiennent à des clusters différents?
Réponses
Nous devons d'abord faire la distinction entre la solution de k-means globalement optimale et le résultat que vous obtenez d'un algorithme de k-means. Il y en a un certain nombre, et à moins que l'ensemble de données ne soit très petit, ils fourniront un optimum local qui n'est pas nécessairement global. (Vous dites «global» dans votre question, donc je suppose que vous parlez de la solution globalement optimale; juste pour être sûr.)
La réponse à votre question commence par «pas normalement»; leur$\|x-q_j\|$-les valeurs sont évidemment égales pour tous $q_j$, donc une fois que l'algorithme est convergé (ou le globalement optimal $q_j$ sont connus), ils seront tous affectés à leur plus proche $q_j$, ce qui est le même pour tous.
Une situation exceptionnelle qui n'est pas couverte par l'argument ci-dessus se produit si ce n'est $x$ sont égaux, mais ils sont également à égale distance de deux ou plus $q_j$. En fait, je ne connais aucun algorithme qui, dans ce cas, puisse les attribuer à différents clusters, mais je ne peux pas exclure que de telles implémentations existent.
En fait, je n'ai pas essayé de le prouver mais je soupçonne que l'optimum global ne séparera jamais les observations égales, car il y a de fortes chances que si des observations égales sont séparées, on puisse obtenir une meilleure solution en les mettant toutes dans le cluster qui a la majorité d'entre eux (ou n'importe quel cluster s'ils sont uniformément répartis). Il ne semble pas logique que ces observations influencent plus d'une moyenne de cluster (ce qui rend les choses potentiellement pires pour la majorité des autres observations de ce cluster). On pourrait probablement le prouver en passant un après-midi à faire des maths, mais aucune garantie ici, juste une supposition.
Ce que j'ai regardé est un certain nombre d'exemples 1-d avec des points égaux situés entre deux moitiés des données telles que 1,2,3,3,4,5. En effet, vous obtenez une meilleure solution ($k=2$) en termes de coût si vous mettez les deux 3 tous les deux soit dans un cluster avec 1,2, soit avec 4,5, plutôt qu'un à gauche et un à droite (vous pouvez le vérifier en calculant explicitement les fonctions de coût) .