Uczenie maszynowe - bez nadzoru
Jak dotąd to, co widzieliście, sprawia, że maszyna uczy się znajdować rozwiązanie naszego celu. W regresji trenujemy maszynę do przewidywania przyszłej wartości. W klasyfikacji trenujemy maszynę do klasyfikowania nieznanego obiektu w jednej z zdefiniowanych przez nas kategorii. Krótko mówiąc, trenowaliśmy maszyny, aby mogły przewidywać Y dla naszych danych X. Biorąc pod uwagę ogromny zbiór danych i brak szacowania kategorii, byłoby nam trudno trenować maszynę przy użyciu nadzorowanego uczenia się. A co, jeśli maszyna może wyszukać i przeanalizować duże zbiory danych składające się z kilku gigabajtów i terabajtów i powiedzieć nam, że te dane zawierają tak wiele różnych kategorii?
Jako przykład rozważ dane wyborcy. Biorąc pod uwagę niektóre dane wejściowe od każdego wyborcy (w terminologii sztucznej inteligencji nazywane są one funkcjami), pozwól maszynie przewidzieć, że jest tak wielu wyborców, którzy głosowaliby na partię polityczną X, a tylu głosowałoby na Y, i tak dalej. Tak więc ogólnie pytamy maszynę, mając ogromny zestaw punktów danych X, „Co możesz mi powiedzieć o X?”. Albo może to być pytanie typu „Jakie pięć najlepszych grup możemy stworzyć z X?”. A może nawet w stylu „Jakie trzy cechy występują razem najczęściej w X?”.
Na tym właśnie polega uczenie się nienadzorowane.
Algorytmy uczenia się bez nadzoru
Omówmy teraz jeden z szeroko stosowanych algorytmów klasyfikacji w uczeniu maszynowym bez nadzoru.
grupowanie k-średnich
Wybory prezydenckie w 2000 i 2004 roku w Stanach Zjednoczonych były bliskie - bardzo wyrównane. Największy odsetek głosów, jakie uzyskał każdy kandydat, wyniósł 50,7%, a najniższy 47,9%. Gdyby pewien procent wyborców zmienił strony, wynik wyborów byłby inny. Są małe grupy wyborców, którzy po odpowiednim wezwaniu zmienią stronę. Te grupy mogą nie są ogromne, ale przy tak bliskich dystansach mogą być na tyle duże, że zmienią wynik wyborów. Jak znajdujesz te grupy ludzi? Jak przyciągasz do nich ograniczony budżet? Odpowiedź brzmi: klaster.
Zrozummy, jak to się robi.
Po pierwsze, zbierasz informacje o ludziach za ich zgodą lub bez: wszelkie informacje, które mogą dać wskazówkę, co jest dla nich ważne i co wpłynie na sposób głosowania.
Następnie umieszczasz te informacje w jakimś algorytmie klastrowym.
Następnie dla każdego klastra (mądrze byłoby wybrać najpierw największy) tworzysz komunikat, który spodoba się tym wyborcom.
Na koniec dostarczasz kampanię i mierzysz, aby sprawdzić, czy działa.
Klasteryzacja to rodzaj uczenia się bez nadzoru, które automatycznie tworzy skupiska podobnych rzeczy. To jest jak automatyczna klasyfikacja. Możesz skupić prawie wszystko, a im bardziej podobne elementy znajdują się w klastrze, tym lepsze są klastry. W tym rozdziale przyjrzymy się jednemu typowi algorytmu grupowania zwanego k-średnich. Nazywa się to k-średnimi, ponieważ znajduje unikatowe klastry „k”, a środek każdego skupienia jest średnią wartości w tym skupieniu.
Identyfikacja klastra
Identyfikacja klastra mówi algorytmowi: „Oto trochę danych. Teraz pogrupuj razem podobne rzeczy i opowiedz mi o tych grupach ”. Kluczowa różnica w stosunku do klasyfikacji polega na tym, że w klasyfikacji wiesz, czego szukasz. Nie dotyczy to jednak klastrów.
Grupowanie jest czasami nazywane klasyfikacją nienadzorowaną, ponieważ daje taki sam wynik jak klasyfikacja, ale bez wcześniej zdefiniowanych klas.
Teraz czujemy się komfortowo zarówno w uczeniu się nadzorowanym, jak i nienadzorowanym. Aby zrozumieć pozostałe kategorie uczenia maszynowego, musimy najpierw zrozumieć sztuczne sieci neuronowe (SSN), o których dowiemy się w następnym rozdziale.