Définir les centres de gravité des clusters k-1 - SKlearn KMeans

Nov 19 2020

J'effectue une classification binaire d'un ensemble de données partiellement étiqueté. J'ai une estimation fiable de ses 1, mais pas de ses 0.

À partir de la documentation de sklearn KMeans:

init : {‘k-means++’, ‘random’ or an ndarray}
Method for initialization, defaults to ‘k-means++’:   
If an ndarray is passed, it should be of shape (n_clusters, n_features) and gives the initial centers.

Je voudrais passer un ndarray, mais je n'ai qu'un seul centre de gravité fiable, pas 2.

Existe-t-il un moyen de maximiser l'entropie entre les centroïdes K-1er et le Kth? Sinon, existe-t-il un moyen d'initialiser manuellement les centroïdes K-1 et d'utiliser K ++ pour les autres?

=================================================== =====

Questions connexes:

Cela cherche à définir des centres de gravité K avec des caractéristiques n-1. (Je veux définir des centres de gravité k-1 avec n caractéristiques).

Voici une description de ce que je veux , mais cela a été interprété comme un bogue par l'un des développeurs, et est "facilement implémenté [capable]"

Réponses

SeanCarter Nov 20 2020 at 20:14

Je suis raisonnablement convaincu que cela fonctionne comme prévu, mais veuillez me corriger si vous remarquez une erreur. (bricolés par des geeks pour des geeks ):


import sys

def distance(p1, p2): 
    return np.sum((p1 - p2)**2)


def find_remaining_centroid(data, known_centroids, k = 1): 
    ''' 
    initialized the centroids for K-means++ 
    inputs: 
        data - Numpy array containing the feature space
        known_centroid - Numpy array containing the location of one or multiple known centroids
        k - remaining centroids to be found
    '''
    n_points = data.shape[0]

    # Initialize centroids list
    if known_centroids.ndim > 1:
        centroids = [cent for cent in known_centroids]
    
    else:
        centroids = [np.array(known_centroids)]

    # Perform casting if necessary
    if isinstance(data, pd.DataFrame):
        data = np.array(data)
        
    # Add a randomly selected data point to the list  
    centroids.append(data[np.random.randint( 
            n_points), :])
    
    # Compute remaining k-1 centroids
    for c_id in range(k - 1):
        ## initialize a list to store distances of data 
        ## points from nearest centroid 
        dist = np.empty(n_points)

        for i in range(n_points):
            point = data[i, :] 
            d = sys.maxsize 

            ## compute distance of 'point' from each of the previously 
            ## selected centroid and store the minimum distance 
            for j in range(len(centroids)): 
                temp_dist = distance(point, centroids[j]) 
                d = min(d, temp_dist) 

            dist[i] = d

        ## select data point with maximum distance as our next centroid 
        next_centroid = data[np.argmax(dist), :] 
        centroids.append(next_centroid) 

        # Reinitialize distance array for next centroid
        dist = np.empty(n_points)
    

    
    return centroids[-k:]

Son utilisation:

# For finding a third centroid:
third_centroid = find_remaining_centroid(X_train, np.array([presence_seed, absence_seed]), k = 1)

# For finding the second centroid:
second_centroid = find_remaining_centroid(X_train, presence_seed, k = 1)

Où presence_seed et absence_seed sont des emplacements centroïdes connus.