K-mean clustering label problem

Aug 29 2020

Sto facendo K-mean clustering di SKlearn. E ho una domanda sulle etichette raggruppate. È possibile mantenere lo stesso numero di etichetta se viene inserito un nuovo cluster? Ad esempio, se ho un set di dati eseguito dal clustering K-mean di seguito:

data            cluster
0.424              0
1.142              1
2.785              1
3.478              2
  ...             ...

Ora voglio mantenere il cluster 2 con i dati 3.478. Tuttavia, l'etichetta del cluster verrà modificata se viene inserito un nuovo cluster:

data            cluster
    0.424              1
    1.142              2
    2.785              2
    3.478              3
    10.11              4
    ...                ...

Come posso mantenere lo stesso numero di etichetta se è stato inserito un nuovo cluster?

Risposte

3 gunes Aug 29 2020 at 19:30

Sfortunatamente, non puoi farlo. In primo luogo, perché le tue vecchie assegnazioni di cluster non saranno le stesse delle nuove assegnazioni di cluster. Puoi solo provare a definire una mappatura in seguito (senza dire che è facile), che potrebbe non avere successo se le due esecuzioni differiscono in modo significativo.