Dataprep - สำเนียงและอักขระพิเศษ

Aug 17 2020

ฉันจะแก้ปัญหานี้ด้วยสำเนียง / อักขระพิเศษใน dataprep ได้อย่างไร ฉันต้องการให้ข้อมูลนี้ปรากฏ

ขอบคุณมากสำหรับความสนใจของคุณ

คำตอบ

2 AlexandreMoraes Aug 17 2020 at 17:30

DataPrep มีสูตรอาหารในตัวซึ่งช่วยให้คุณสามารถลบหรือเปลี่ยนตัวอักษรพิเศษได้ ตัวอย่างเช่นคุณสามารถเปลี่ยนสำเนียงตัวอักษรเพื่อคนลหุกับสำเนียงลบในข้อความหรือคุณยังสามารถแทนที่ตัวอักษรที่ไม่ได้รับการยอมรับสำหรับตัวอื่นที่มีแทนที่ข้อความหรือรูปแบบ

ด้านล่างนี้เป็นขั้นตอนในการเปลี่ยนตัวอักษรพิเศษหรืออักษรเน้นเสียง

  1. สร้างโฟลว์ของคุณ
  2. เพิ่ม / นำเข้าข้อมูลของคุณ
  3. คลิกเพิ่มสูตรตามเอกสาร ในกรณีของคุณคุณสามารถทำอย่างใดอย่างหนึ่งหรือทั้งสองอย่างต่อไปนี้:

ครั้งแรกในกรณีที่คุณมีคำสำเนียงไปที่ค้นหาแปลง > เลือกสำเนียงลบในข้อความ จากนั้นเลือกคอลัมน์ที่มีคำเน้นเสียง มันจะแทนที่คำที่เน้นเสียงสำหรับคำที่ไม่เน้นเสียง ข้อมูลของคุณจะแสดงให้คุณเห็นเพื่อให้คุณตรวจสอบการเปลี่ยนแปลงได้

ประการที่สองในกรณีที่คุณมีอักขระที่ไม่เป็นที่รู้จักให้ไปที่Search Transformations > แทนที่ข้อความหรือรูปแบบ>เลือกคอลัมน์ที่คุณต้องการแปลงข้อมูล>ภายในFindเขียนตัวอักษร / สัญลักษณ์ระหว่างเครื่องหมายคำพูดเดี่ยว>ในแทนที่ด้วยการเขียนตัวอักษรซึ่งจะ ถูกวางไว้แทน สุดท้ายดูข้อมูลของคุณเพื่อดูการเปลี่ยนแปลง

UPDATE:ฉันสามารถโหลดไฟล์. csv ที่มีอักขระที่กล่าวถึงไปยัง DataPrep ด้านล่างนี้คือขั้นตอนและข้อมูลตัวอย่างของฉัน:

ไฟล์. csv ที่ฉันใช้มีเนื้อหาดังต่อไปนี้:

Test
Non rec. char É
Non rec. char ç
Accented word não

ในหน้าแรกของ DataPrep UI ให้คลิกที่นำเข้าข้อมูล (มุมขวาบน) Google Cloud Storage (ส่วนซ้ายของหน้าจอ) จากนั้นค้นหาและเลือกไฟล์ของคุณ (ทดสอบการนำเข้าไฟล์เดียวแทนการใช้พารามิเตอร์) และคลิกที่สัญลักษณ์เพิ่ม ( + ) ในขั้นตอนนี้คุณสามารถเห็นอักขระได้แล้วในกรณีของฉันฉันสามารถมองเห็นได้ตามปกติ สุดท้ายคลิกในImport & Wrangleและแสดงภาพข้อมูลของคุณ จากข้อมูลด้านบนฉันสามารถดูอักขระได้อย่างถูกต้องโดยไม่มีปัญหาใด ๆ