Tak, programowanie oparte na testach jest przydatne w nauce o danych

Nov 29 2022

Pochodząc z analityki i nauki o danych, pisanie testów postrzegałem jako coś bolesnego. Wiedziałem, że to ważne, ale nigdy nie wiedziałem od czego zacząć i zawsze zwlekałem do końca projektu.

Ostatnio zacząłem patrzeć na rzeczy z innej strony. Odkryłem Test-Driven Development: pisz swoje testy, zanim zaczniesz kodować funkcjonalną część kodu. To najlepsza praktyka inżynierii oprogramowania, która zasługuje na częstsze stosowanie w projektach data science.

Co to jest programowanie sterowane testami (TDD)?

Prostym sposobem na umieszczenie tego jest użycie struktury Red/Green/Refactor . Za każdym razem, gdy chcesz dodać funkcjonalność do kodu, możesz wykonać trzyetapowy cykl:

czerwony . Utwórz test, który zakończy się niepowodzeniem. tj. napisz potrzeby funkcjonalne swojego kodu
Zielony . Napisz kod produkcyjny, który sprawia, że test przechodzi pomyślnie. czyli spełniać potrzeby funkcjonalne kodu
Refaktoryzacja. Posprzątaj bałagan, który właśnie zrobiłeś. tj. wyczyść swój kod bez zmiany funkcjonalności

Zilustrujmy to przykładem z życia wziętym. W ramach etapu przetwarzania końcowego dla projektu Rozpoznawanie jednostek nazwanych chcemy zbudować funkcję przetwarzania w celu wyodrębnienia jednostki czasu trwania (dzień/tydzień/miesiąc/..) i wartości czasu trwania w tekście.

Napiszmy test jednostkowy, który spełnia potrzeby funkcjonalne i pustą funkcję.

Funkcja

Test jednostkowy

2. Piszemy kod, który zdaje egzamin.

Test jest ZIELONY Hurra!! Czekaj.. czy na pewno jest SUCHY, SOLIDNY, pep8??

3. Refaktoryzujemy funkcję, aby zapewnić najlepsze praktyki kodowania.

Tutaj dodaliśmy adnotacje typu, stworzyliśmy ogólną funkcję konwertującą numer litery na liczbę zmiennoprzecinkową (również z własnym testem jednostkowym) i zmieniliśmy sposób wypełniania słownika.

Gdzie możemy zastosować Test-Driven Development w Data Science?

Programowanie oparte na testach nie jest istotne na każdym etapie projektu nauki o danych. Na przykład nie warto tego robić podczas eksploracji danych lub modeli , gdy nie jesteś pewien, czego szukasz: pisanie testów bez znajomości oczekiwanych wyników jest prawdopodobnie przesadą.

Staje się bardzo przydatne, gdy trzeba zbudować solidne potoki produkcyjne .

W tym kontekście musimy wdrożyć kilka rodzajów testów:

Testy jednostkowe: test dla każdego fragmentu kodu projektu
Testy modelu : upewnij się, że model ma dobrą wydajność i zachowuje się poprawnie
Testy integracyjne : upewnienie się, że istnieje dobre powiązanie między każdym fragmentem kodu

W przypadku testów modelowych należy go używać ostrożnie. Gdy mamy do czynienia z modelami predykcyjnymi, mamy do czynienia z niepewnością . Rzeczywiście, wiele algorytmów uczenia maszynowego jest z natury losowych — wiele przebiegów wykorzystujących te same dane wejściowe może za każdym razem dawać nieco inne wyniki. Może to prowadzić do niestabilnych testów : testu, który czasami przechodzi pomyślnie, a czasami kończy się niepowodzeniem, pomimo braku zmian w kodzie lub samym teście. Jeśli jesteśmy zbyt dokładni w przypadku przypadków testowych podczas pierwszego programowania opartego na testach, jest wysoce prawdopodobne, że niektóre testy zepsują się w następnej iteracji. Nowy model może zachowywać się inaczej w niektórych przypadkach, jednocześnie osiągając lepsze wyniki globalnie. Dlatego lepiej jest uwzględniać w testach modelowych tylko podstawowe przypadki, które są niezbędne w projekcie.

Wreszcie w przypadku testów integracyjnych dobrze sprawdza się w przypadku fragmentów kodu, które nie zawierają przewidywań modelu. Jeśli obejmuje przewidywanie modelu, lepiej jest przetestować format danych wyjściowych niż rzeczywisty wynik.

Dobrą praktyką jest włączenie tych testów do CI/CD twojego projektu. Dlatego za każdym razem, gdy przedstawiana jest propozycja nowej funkcjonalności, zapewnia się, że żadna inna funkcjonalność się nie zepsuje.

Tak, programowanie oparte na testach jest przydatne w nauce o danych

Co to jest programowanie sterowane testami (TDD)?

Gdzie możemy zastosować Test-Driven Development w Data Science?

Dlaczego zmienia zasady gry?