Regresja logistyczna w Pythonie - studium przypadku
Weź pod uwagę, że bank zwraca się do Ciebie z prośbą o opracowanie aplikacji do uczenia maszynowego, która pomoże mu zidentyfikować potencjalnych klientów, którzy otworzą u nich lokatę terminową (w niektórych bankach nazywaną również lokatą stałą). Bank regularnie przeprowadza ankietę za pomocą połączeń telefonicznych lub formularzy internetowych w celu zebrania informacji o potencjalnych klientach. Badanie ma charakter ogólny i jest przeprowadzane na bardzo dużej grupie odbiorców, z których wielu może nie być zainteresowanych współpracą z tym bankiem. Z pozostałych tylko nieliczni mogą być zainteresowani założeniem Lokaty Terminowej. Inni mogą być zainteresowani innymi udogodnieniami oferowanymi przez bank. Tak więc badanie niekoniecznie jest przeprowadzane w celu zidentyfikowania klientów otwierających TD. Twoim zadaniem jest zidentyfikowanie wszystkich klientów z dużym prawdopodobieństwem otwarcia TD na podstawie ogromnych danych ankietowych, które bank zamierza Ci udostępnić.
Na szczęście jeden taki rodzaj danych jest publicznie dostępny dla osób aspirujących do tworzenia modeli uczenia maszynowego. Dane te zostały przygotowane przez niektórych studentów UC Irvine przy wsparciu finansowym. Baza jest dostępna w ramachUCI Machine Learning Repositoryi jest szeroko stosowany przez studentów, nauczycieli i badaczy na całym świecie. Dane można pobrać stąd .
W następnych rozdziałach zajmiemy się teraz tworzeniem aplikacji przy użyciu tych samych danych.