SciPy - CSGraph
CSGraph oznacza Compressed Sparse Graph, który koncentruje się na algorytmach szybkiego grafu opartych na rzadkich reprezentacjach macierzowych.
Reprezentacje wykresów
Na początek pozwól nam zrozumieć, czym jest rzadki wykres i jak pomaga w reprezentacji wykresu.
Czym dokładnie jest rzadki wykres?
Graf to po prostu zbiór węzłów, które mają między sobą połączenia. Wykresy mogą reprezentować prawie wszystko - połączenia w sieciach społecznościowych, gdzie każdy węzeł jest osobą i jest połączony ze znajomymi; obrazy, w których każdy węzeł jest pikselem i jest połączony z sąsiednimi pikselami; punkty w dystrybucji wielowymiarowej, w których każdy węzeł jest połączony z najbliższymi sąsiadami; i praktycznie wszystko, co możesz sobie wyobrazić.
Jednym z bardzo skutecznych sposobów przedstawiania danych wykresu jest rzadka macierz: nazwijmy ją G. Macierz G ma rozmiar N x N, a G [i, j] podaje wartość połączenia między węzłem „i” a węzłem 'jot'. Rzadki wykres zawiera głównie zera - to znaczy większość węzłów ma tylko kilka połączeń. Ta właściwość okazuje się być prawdziwa w większości interesujących nas przypadków.
Stworzenie podmodułu rzadkiego wykresu było motywowane kilkoma algorytmami używanymi w scikit-learning, które obejmowały:
Isomap - Wielokrotny algorytm uczenia się, który wymaga znalezienia najkrótszych ścieżek na wykresie.
Hierarchical clustering - Algorytm grupowania oparty na minimalnym drzewie rozpinającym.
Spectral Decomposition - Algorytm projekcji oparty na rzadkich grafach laplaców.
Jako konkretny przykład wyobraźmy sobie, że chcielibyśmy przedstawić następujący nieukierunkowany wykres -
Ten wykres ma trzy węzły, gdzie węzły 0 i 1 są połączone krawędzią o wadze 2, a węzły 0 i 2 są połączone krawędzią o wadze 1. Możemy skonstruować gęste, zamaskowane i rzadkie reprezentacje, jak pokazano w poniższym przykładzie , pamiętając, że niekierowany graf jest reprezentowany przez symetryczną macierz.
G_dense = np.array([ [0, 2, 1],
[2, 0, 0],
[1, 0, 0] ])
G_masked = np.ma.masked_values(G_dense, 0)
from scipy.sparse import csr_matrix
G_sparse = csr_matrix(G_dense)
print G_sparse.data
Powyższy program wygeneruje następujące dane wyjściowe.
array([2, 1, 2, 1])
Jest to identyczne z poprzednim wykresem, z wyjątkiem tego, że węzły 0 i 2 są połączone krawędzią o zerowej wadze. W tym przypadku gęsta reprezentacja powyżej prowadzi do niejednoznaczności - jak można przedstawić nie-krawędzie, jeśli zero jest znaczącą wartością. W takim przypadku należy użyć reprezentacji zamaskowanej lub rzadkiej, aby wyeliminować niejednoznaczność.
Rozważmy następujący przykład.
from scipy.sparse.csgraph import csgraph_from_dense
G2_data = np.array
([
[np.inf, 2, 0 ],
[2, np.inf, np.inf],
[0, np.inf, np.inf]
])
G2_sparse = csgraph_from_dense(G2_data, null_value=np.inf)
print G2_sparse.data
Powyższy program wygeneruje następujące dane wyjściowe.
array([ 2., 0., 2., 0.])
Drabiny słów wykorzystujące rzadkie wykresy
Drabiny słów to gra wymyślona przez Lewisa Carrolla, w której słowa są łączone poprzez zmianę pojedynczej litery na każdym kroku. Na przykład -
APE → APT → AIT → BIT → BIG → BAG → MAG → MAN
Tutaj przeszliśmy od „APE” do „MAN” w siedmiu krokach, zmieniając za każdym razem jedną literę. Pytanie brzmi - czy możemy znaleźć krótszą ścieżkę między tymi słowami, używając tej samej reguły? Ten problem jest naturalnie wyrażony jako rzadki problem wykresu. Węzły będą odpowiadały poszczególnym słowom, a my stworzymy połączenia między słowami różniącymi się maksymalnie o jedną literę.
Uzyskanie listy słów
Najpierw musimy oczywiście uzyskać listę ważnych słów. Używam Maca, a Mac ma słownik słów w lokalizacji podanej w poniższym bloku kodu. Jeśli korzystasz z innej architektury, być może będziesz musiał trochę przeszukać, aby znaleźć słownik systemowy.
wordlist = open('/usr/share/dict/words').read().split()
print len(wordlist)
Powyższy program wygeneruje następujące dane wyjściowe.
235886
Teraz chcemy spojrzeć na słowa o długości 3, więc wybierzmy tylko te słowa o odpowiedniej długości. Usuniemy również słowa, które zaczynają się od dużych liter (rzeczowniki własne) lub zawierają znaki inne niż alfanumeryczne, takie jak apostrofy i łączniki. Na koniec upewnimy się, że wszystko jest zapisane małymi literami do późniejszego porównania.
word_list = [word for word in word_list if len(word) == 3]
word_list = [word for word in word_list if word[0].islower()]
word_list = [word for word in word_list if word.isalpha()]
word_list = map(str.lower, word_list)
print len(word_list)
Powyższy program wygeneruje następujące dane wyjściowe.
1135
Teraz mamy listę 1135 ważnych trzyliterowych słów (dokładna liczba może się zmieniać w zależności od używanej listy). Każde z tych słów stanie się węzłem na naszym wykresie i utworzymy krawędzie łączące węzły związane z każdą parą słów, które różnią się tylko jedną literą.
import numpy as np
word_list = np.asarray(word_list)
word_list.dtype
word_list.sort()
word_bytes = np.ndarray((word_list.size, word_list.itemsize),
dtype = 'int8',
buffer = word_list.data)
print word_bytes.shape
Powyższy program wygeneruje następujące dane wyjściowe.
(1135, 3)
Użyjemy odległości Hamminga między każdym punktem, aby określić, które pary słów są połączone. Odległość Hamminga mierzy ułamek wpisów pomiędzy dwoma wektorami, które różnią się: dowolne dwa słowa o odległości Hamminga równej 1 / N1 / N, gdzie NN to liczba liter, które są połączone w drabinie słów.
from scipy.spatial.distance import pdist, squareform
from scipy.sparse import csr_matrix
hamming_dist = pdist(word_bytes, metric = 'hamming')
graph = csr_matrix(squareform(hamming_dist < 1.5 / word_list.itemsize))
Porównując odległości, nie używamy równości, ponieważ może to być niestabilne dla wartości zmiennoprzecinkowych. Nierówność daje pożądany rezultat, o ile żadne dwa wpisy na liście słów nie są identyczne. Teraz, gdy nasz wykres jest już skonfigurowany, użyjemy wyszukiwania najkrótszej ścieżki, aby znaleźć ścieżkę między dowolnymi dwoma słowami na wykresie.
i1 = word_list.searchsorted('ape')
i2 = word_list.searchsorted('man')
print word_list[i1],word_list[i2]
Powyższy program wygeneruje następujące dane wyjściowe.
ape, man
Musimy sprawdzić, czy są one zgodne, ponieważ jeśli słów nie ma na liście, wystąpi błąd w wyniku. Teraz wszystko, czego potrzebujemy, to znaleźć najkrótszą ścieżkę między tymi dwoma wskaźnikami na wykresie. Użyjemydijkstra’s algorytm, ponieważ pozwala nam znaleźć ścieżkę tylko dla jednego węzła.
from scipy.sparse.csgraph import dijkstra
distances, predecessors = dijkstra(graph, indices = i1, return_predecessors = True)
print distances[i2]
Powyższy program wygeneruje następujące dane wyjściowe.
5.0
Widzimy więc, że najkrótsza ścieżka między „małpą” a „człowiekiem” składa się tylko z pięciu kroków. Możemy użyć poprzedników zwróconych przez algorytm, aby zrekonstruować tę ścieżkę.
path = []
i = i2
while i != i1:
path.append(word_list[i])
i = predecessors[i]
path.append(word_list[i1])
print path[::-1]i2]
Powyższy program wygeneruje następujące dane wyjściowe.
['ape', 'ope', 'opt', 'oat', 'mat', 'man']