Dataprep-악센트 및 특수 문자

Aug 17 2020

데이터 준비의 악센트 / 특수 문자로이 문제를 어떻게 해결합니까? 표시하려면이 정보가 필요합니다.

관심을 가져 주셔서 감사합니다.

답변

2 AlexandreMoraes Aug 17 2020 at 17:30

DataPrep에는 특수 문자를 제거하거나 변경할 수있는 기본 제공 레시피가 있습니다. 예를 들어 텍스트에서 악센트 제거 를 사용하여 악센트가있는 문자를 악센트가없는 문자로 변경 하거나 텍스트 또는 패턴 바꾸기를 사용 하여 다른 문자의 인식되지 않는 문자를 바꿀 수도 있습니다 .

다음은 특수 문자 또는 악센트 부호가있는 문자를 변경하는 단계입니다.

  1. 흐름을 만듭니다.
  2. 데이터 추가 / 가져 오기
  3. 문서에 따라 레시피 추가를 클릭 합니다 . 귀하의 경우 다음 중 하나 또는 둘 다를 수행 할 수 있습니다.

먼저 악센트가있는 단어가있는 경우 변환 검색 > 텍스트에서 악센트 제거를 선택합니다 . 그런 다음 악센트 부호가있는 단어가있는 열을 선택하십시오. 악센트가없는 단어의 악센트가있는 단어를 대체합니다. 변환을 확인할 수 있도록 데이터가 표시됩니다.

당신이 비 인식 문자를해야하는 경우에 둘째로 이동 검색 변환 > 텍스트 또는 패턴을 바꾸기> 는 데이터를 변환 할 열을 선택 > 내에서 찾기 쓰기 따옴표 사이의 문자 / 기호 > 에서이 로 교체 하는 것이다 쓰기 편지를 대신 배치됩니다 . 마지막으로 데이터를 미리보고 변환을 확인합니다.

업데이트 : 언급 된 문자가 있는 .csv 파일을 DataPrep 에로드 할 수있었습니다 . 다음은 내 단계와 샘플 데이터입니다.

내가 사용한 .csv 파일의 내용은 다음과 같습니다.

Test
Non rec. char É
Non rec. char ç
Accented word não

DataPrep UI 홈페이지에서 데이터 가져 오기 (오른쪽 상단 모서리) Google Cloud Storage (화면 왼쪽 부분)를 클릭합니다. 그런 다음 파일을 찾아 선택 하고 (매개 변수화 대신 하나의 파일 만 가져 오는 것으로 테스트) 추가 ( + ) 기호를 클릭합니다 . 이 단계에서는 이미 캐릭터를 볼 수 있습니다. 제 경우에는 정상적으로 볼 수 있습니다. 마지막으로 Import & Wrangle을 클릭하고 데이터를 시각화합니다. 위의 데이터를 이용하여 아무런 문제없이 캐릭터를 제대로 볼 수있었습니다.