Czyszczenie danych za pomocą funkcji tekstowych

Dane, które uzyskujesz z różnych źródeł, często nie są w formie gotowej do analizy. W tym rozdziale dowiesz się, jak przygotować dane w formie tekstu do analizy.

Najpierw musisz wyczyścić dane. Czyszczenie danych obejmuje usuwanie niepożądanych znaków z tekstu. Następnie musisz uporządkować dane w formie wymaganej do dalszej analizy. Możesz zrobić to samo przez -

  • Znajdowanie wymaganych wzorów tekstowych za pomocą funkcji tekstowych.
  • Wyodrębnianie wartości danych z tekstu.
  • Formatowanie danych za pomocą funkcji tekstowych.
  • Wykonywanie operacji na danych za pomocą funkcji tekstowych.

Usuwanie niechcianych znaków z tekstu

Podczas importowania danych z innej aplikacji mogą one zawierać znaki niedrukowalne i / lub nadmiar spacji. Nadmiar przestrzeni może być -

  • wiodące spacje i / lub
  • dodatkowe spacje między słowami.

Jeśli posortujesz lub przeanalizujesz takie dane, otrzymasz błędne wyniki.

Rozważmy następujący przykład -

Są to surowe dane, które uzyskałeś na temat informacji o produkcie, zawierających identyfikator produktu, opis produktu i cenę. Znak „|” oddziela pole w każdym wierszu.

Po zaimportowaniu tych danych do arkusza programu Excel wygląda to następująco -

Jak widać, wszystkie dane znajdują się w jednej kolumnie. Aby przeprowadzić analizę danych, musisz uporządkować te dane. Jednak początkowo musisz wyczyścić dane.

Musisz usunąć wszelkie niedrukowalne znaki i nadmiarowe spacje, które mogą znajdować się w danych. W tym celu możesz użyć funkcji CLEAN i TRIM.

S.No. Opis funkcji
1.

CLEAN

Usuwa wszystkie niedrukowalne znaki z tekstu

2.

TRIM

Usuwa spacje z tekstu

  • Wybierz komórki C3 - C11.
  • Wpisz = TRIM (CLEAN (B3)), a następnie naciśnij klawisze CTRL + Enter.

Formuła jest wypełniana w komórkach C3 - C11.

Wynik będzie taki, jak pokazano poniżej -

Znajdowanie wymaganych wzorów tekstowych za pomocą funkcji tekstowych

Aby uporządkować dane, może być konieczne wykonanie określonego dopasowania wzorca tekstowego, na podstawie którego można wyodrębnić wartości danych. Niektóre funkcje tekstowe, które są przydatne w tym celu, to:

S.No. Opis funkcji
1.

EXACT

Sprawdza, czy dwie wartości tekstowe są identyczne

2.

FIND

Znajduje jedną wartość tekstową w innej (z uwzględnieniem wielkości liter)

3.

SEARCH

Znajduje jedną wartość tekstową w innej (bez rozróżniania wielkości liter)

Wyodrębnianie wartości danych z tekstu

Musisz wyodrębnić wymagane dane z tekstu, aby uzyskać taką samą strukturę. W powyższym przykładzie, powiedzmy, musisz umieścić dane w trzech kolumnach - ProductID, Product_Description i Price.

Możesz wyodrębnić dane na jeden z następujących sposobów -

  • Wyodrębnianie wartości danych za pomocą Kreatora konwersji tekstu na kolumny
  • Wyodrębnianie wartości danych za pomocą funkcji tekstowych
  • Wyodrębnianie wartości danych za pomocą funkcji Flash Fill

Wyodrębnianie wartości danych za pomocą Kreatora konwersji tekstu na kolumny

Możesz użyć Convert Text to Columns Wizard wyodrębnić wartości danych do kolumn programu Excel, jeśli pola są -

  • Ograniczone znakiem lub
  • Wyrównane w kolumnach ze spacjami między poszczególnymi polami.

W powyższym przykładzie pola są rozdzielone znakiem „|”. Dlatego możesz użyćConvert Text to Columns czarodziej.

  • Wybierz dane.

  • Skopiuj i wklej wartości w tym samym miejscu. Inaczej,Convert Text to Columns przyjmuje funkcje, a nie same dane jako dane wejściowe.

  • Wybierz dane.

  • Kliknij Text to Columns w Data Tools grupa pod Data Karta na Wstążce.

Step 1 - Kreator konwersji tekstu na kolumny - pojawia się krok 1 z 3.

  • Wybierz opcję Rozdzielany.
  • Kliknij Następny.

Step 2 - Kreator konwersji tekstu na kolumny - pojawia się krok 2 z 3.

  • Pod Delimiters, Wybierz Other.

  • W polu obok Otherwpisz znak |

  • Kliknij Next.

Step 3 - Kreator konwersji tekstu na kolumny - pojawia się krok 3 z 3.

Na tym ekranie możesz wybrać każdą kolumnę danych w kreatorze i ustawić format dla tej kolumny.

  • Dla Destination, wybierz komórkę D3.

  • Możesz kliknąć Advanced, i nastaw Decimal Separator i Thousands Separator w Advanced Text Import Settings wyświetlone okno dialogowe.

  • Kliknij Finish.

Twoje dane, które są konwertowane na kolumny, pojawiają się w trzech kolumnach - D, E i F.

  • Nazwij nagłówki kolumn jako ProductID, Product_Description i Price.

Wyodrębnianie wartości danych za pomocą funkcji tekstowych

Załóżmy, że pola w danych nie są oddzielone znakiem ani wyrównane w kolumnach ze spacjami między poszczególnymi polami. Możesz użyć funkcji tekstowych do wyodrębnienia wartości danych. Nawet jeśli pola są rozdzielane, nadal możesz używać funkcji tekstowych do wyodrębniania danych.

Niektóre przydatne w tym celu funkcje tekstowe to:

S.No. Opis funkcji
1.

LEFT

Zwraca skrajne lewe znaki z wartości tekstowej

2.

RIGHT

Zwraca skrajne prawe znaki z wartości tekstowej

3.

MID

Zwraca określoną liczbę znaków z ciągu tekstowego, zaczynając od określonej pozycji

4.

LEN

Zwraca liczbę znaków w ciągu tekstowym

Możesz również połączyć dwie lub więcej z tych funkcji tekstowych zgodnie z dostępnymi danymi, aby wyodrębnić wymagane wartości danych. Na przykład, używając kombinacji funkcji LEFT, RIGHT i VALUE lub używając kombinacji funkcji FIND, LEFT, LEN i MID.

W powyższym przykładzie

  • Wszystkie znaki do pierwszego | podaj nazwę ProductID.

  • Wszystkie znaki do drugiego | podaj nazwę Cena.

  • Wszystkie postacie znajdujące się pomiędzy pierwszym | i po drugie | podaj nazwę Opis_produktu.

  • Każdy | ma spację przed i po.

Obserwując te informacje, możesz wyodrębnić wartości danych, wykonując następujące czynności -

  • Znajdź pozycję pierwszego | -First | Position

    • Możesz użyć funkcji ZNAJDŹ

  • Znajdź pozycję sekundy | -Second | Position

    • Możesz ponownie użyć funkcji ZNAJDŹ

  • Początek do (First | Position - 2) Znaki tekstu dają ProductID

    • Możesz użyć funkcji LEFT

  • (First | Position + 2) do (Second | Position - 2) Znaki tekstu dają opis produktu

    • Możesz użyć funkcji MID

  • (Second | Position + 2), aby Końcowe znaki tekstu podać cenę

    • Możesz użyć funkcji PRAWO

Wynik będzie taki, jak pokazano poniżej -

Możesz zauważyć, że wartości w kolumnie ceny są wartościami tekstowymi. Aby wykonać obliczenia na tych wartościach, musisz sformatować odpowiednie komórki. Możesz zapoznać się z sekcją podaną poniżej, aby zrozumieć formatowanie tekstu.

Wyodrębnianie wartości danych za pomocą funkcji Flash Fill

Korzystanie z programu Excel Flash Fillto inny sposób na wyodrębnienie wartości danych z tekstu. Jednak działa to tylko wtedy, gdy program Excel może znaleźć wzorzec w danych.

Step 1 - Utwórz trzy kolumny dla ProductID, Product_Description i Price obok danych.

Step 2 - Skopiuj i wklej wartości C3, D3 i E3 z B3.

Step 3 - Wybierz komórkę C3 i kliknij Flash Fill w Data Tools grupa na Datapatka. Wszystkie wartości ProductID zostaną wypełnione.

Step 4- Powtórz powyższe kroki dla opisu produktu i ceny. Dane są wypełnione.

Formatowanie danych za pomocą funkcji tekstowych

Program Excel ma kilka wbudowanych funkcji tekstowych, których można używać do formatowania danych zawierających tekst. Należą do nich -

Functions that format the Text as per your need -

S.No. Opis funkcji
1.

LOWER

Konwertuje tekst na małe litery

S.No. Opis funkcji
1.

UPPER

Konwertuje tekst na wielkie litery

2.

PROPER

Zamienia na wielką literę pierwszą literę w każdym słowie wartości tekstowej

Functions that convert and/or format the Numbers as Text -

S.No. Opis funkcji
1.

DOLLAR

Konwertuje liczbę na tekst, używając formatu waluty $ (dolar)

2.

FIXED

Formatuje liczbę jako tekst ze stałą liczbą miejsc po przecinku

3.

TEXT

Formatuje liczbę i konwertuje ją na tekst

Functions that convert the Text to Numbers -

S.No. Opis funkcji
1.

VALUE

Konwertuje argument tekstowy na liczbę

Executing Data Operations with the Text Functions

Być może będziesz musiał wykonać pewne operacje tekstowe na swoich danych. Na przykład, jeśli identyfikatory logowania pracowników zostaną zmienione na nowy format w organizacji, w oparciu o zmianę formatu, może być konieczne dokonanie zamiany tekstu.

Poniższe funkcje tekstowe pomagają w wykonywaniu operacji tekstowych na danych zawierających tekst -

S.No. Opis funkcji
1.

REPLACE

Zastępuje znaki w tekście

2.

SUBSTITUTE

Zastępuje stary tekst w ciągu tekstowym nowym tekstem

3.

CONCATENATE

Łączy kilka elementów tekstowych w jeden element tekstowy

4.

CONCAT

Łączy tekst z wielu zakresów i / lub ciągów, ale nie zawiera separatora ani argumentów IgnoreEmpty.

5.

TEXTJOIN

Łączy tekst z wielu zakresów i / lub ciągów i zawiera separator określony przez użytkownika między każdą wartością tekstową, która zostanie połączona. Jeśli separator jest pustym ciągiem tekstowym, ta funkcja skutecznie połączy zakresy.

6.

REPT

Powtarza tekst określoną liczbę razy