ข้อมูล : ขยะเข้า ขยะออก

Dec 01 2022
ฉันจะดำเนินการต่อและโต้แย้งปัญหาในโลกแห่งความเป็นจริงที่สำคัญและเร่งด่วนที่สุดสำหรับเราในการแก้ปัญหาในฐานะชุมชนเทคโนโลยีระดับโลก นั่นคือวิธีที่เราปรับปรุงคุณภาพของข้อมูลที่เข้าสู่ระบบปัญญาประดิษฐ์ ซึ่งเป็นขั้นตอนสำคัญก่อนที่เราจะมุ่งเน้นไปที่ ปรับขนาด AI สำหรับศักยภาพเชิงบวกทั้งหมดที่มี เราพึ่งพา AI ในชีวิตประจำวันของเรามากอยู่แล้ว จึงเป็นเรื่องสำคัญที่ "พวกเรา" ส่วนรวมจะต้องเข้าใจว่าเรากำลังเผชิญกับอะไร

ฉันจะดำเนินการต่อและโต้แย้งปัญหาในโลกแห่งความเป็นจริงที่สำคัญและเร่งด่วนที่สุดสำหรับเราในการแก้ปัญหาในฐานะชุมชนเทคโนโลยีระดับโลก นั่นคือวิธีที่เราปรับปรุงคุณภาพของข้อมูลที่เข้าสู่ระบบปัญญาประดิษฐ์ ซึ่งเป็นขั้นตอนสำคัญก่อนที่เราจะมุ่งเน้นไปที่ ปรับขนาด AI สำหรับศักยภาพเชิงบวกทั้งหมดที่มี

เราพึ่งพา AI ในชีวิตประจำวันของเรามากอยู่แล้ว จึงเป็นเรื่องสำคัญที่ "พวกเรา" ส่วนรวมจะต้องเข้าใจว่าเรากำลังเผชิญกับอะไร AI ขึ้นอยู่กับข้อมูลที่มีอยู่ อันที่ จริงข้อมูลที่อยู่เบื้องหลังอัลกอริทึมมีความสำคัญมากกว่าอัลกอริทึมจริงเสียอีก

ขยะเข้า➡️ขยะออก

สามแง่มุมของข้อมูลเพื่อตรวจสอบอย่างใกล้ชิดมากขึ้น:

  1. คุณภาพของข้อมูลสำหรับการฝึกอบรม AI
  2. โครงสร้างพื้นฐานในการรวบรวม จัดเก็บ และประมวลผลข้อมูล
  3. จริยธรรมในข้อมูลและ AI

ในระหว่างขั้นตอนการออกแบบอัลกอริทึม AI ทีมจะพิจารณาว่าข้อมูลในการฝึกอัลกอริทึมจะมาจากไหน ข้อมูลที่มีอคติจะสร้างอัลกอริทึมที่มีอคติ และผลลัพธ์และการตัดสินใจที่มีอคติในท้ายที่สุด ผลกระทบในโลกแห่งความเป็นจริงนั้นกว้างไกลและค่อนข้างอันตราย ถ้าคุณเป็นเหมือนฉัน คุณเรียนรู้ได้ดีที่สุดด้วยตัวอย่างเช่นกัน :

  • การดูแลสุขภาพ | X-ray AI Models : หากใช้เฉพาะ X-ray ของผู้ชายในการฝึกอัลกอริทึม AI สำหรับการตรวจจับภาพ AI ก็อาจไม่รู้จักโรคเมื่อได้รับมอบหมายให้วินิจฉัยผู้หญิง
  • ความปลอดภัยและการเฝ้าระวัง | กล้อง AI อัจฉริยะ :หากภาพที่ส่งไปยังกล้องรักษาความปลอดภัย AI อัจฉริยะเลือกเฉพาะบทความข่าวของสหรัฐฯ เกี่ยวกับชาวมุสลิมในช่วง 10 ปีที่ผ่านมา กล้องจะเรียนรู้ที่จะพิจารณาบุคคลที่มีลักษณะทางกายภาพจากภูมิภาคนั้นหรือใครก็ตามที่นับถือศาสนาอิสลามเป็นภัยคุกคาม แอปพลิเคชั่นที่โชคร้ายที่คล้ายกันคือการเฝ้าระวังความปลอดภัยสำหรับชุมชนชาวแอฟริกันอเมริกันซึ่งเราทุกคนคุ้นเคยกันดี
  • การจดจำใบหน้า | การแท็กบนโซเชียลมีเดีย : หากชุดข้อมูลที่ใช้ในการฝึกอัลกอริทึม AI เป็นใบหน้าและคุณลักษณะของชาวคอเคเชียนเป็นหลัก อัลกอริทึมจะไม่รวมชุดข้อมูลของชาติพันธุ์อื่นๆ สิ่งนี้เจาะลึกมากขึ้นในหัวข้อของการเป็นตัวแทนสำหรับทุกคน และผลกระทบที่อาจมีต่อคำพยากรณ์เชิงลบและอุปสรรคที่สร้างเพื่อความก้าวหน้า ในทางกลับกัน แอปพลิเคชันเดียวกันคือความกังวลของกองกำลังสอดแนมและความมั่นคง ซึ่งท้ายที่สุดแล้วทำให้เกิดการเลือกปฏิบัติที่ไม่เป็นธรรมต่อชุมชนบางแห่ง
  • การแนะนำเนื้อหา : หากข้อมูลการฝึกอบรมอัลกอริทึม AI ถูกสร้างขึ้นโดยผู้ที่มีประสบการณ์ มุมมอง และภูมิหลังที่จำกัด เครื่องมือบันทึกเนื้อหาเหล่านี้สามารถวาดเส้นแบ่งระหว่างเนื้อหาที่แนะนำสำหรับบางกลุ่ม ยืดอายุการเล่าเรื่อง จำกัดการคิดเชิงวิพากษ์ และจำกัดการเข้าถึงเนื้อหาใหม่ ข้อมูล. นอกจากนี้ยังช่วยแก้ปัญหาเรื่องความลำเอียงเกี่ยวกับความพร้อมใช้งาน — ซึ่งผู้คนจะเชื่อเนื้อหาที่พวกเขาอ่าน เพราะนั่นคือเนื้อหาเดียวที่มีให้สำหรับพวกเขา

“ข้อมูลไม่โกหก คนทำ หากข้อมูลของคุณมีอคติ อาจเป็นเพราะมีการสุ่มตัวอย่างไม่ถูกต้องหรือคุณถามคำถามผิด (ไม่ว่าจะโดยเจตนาหรือไม่ก็ตาม)”
- Lee Baker, Truth, Lies & Statistics: วิธีโกหกด้วยสถิติ

หากข้อมูลการฝึกอบรมพื้นฐานมีอคติและไม่สมบูรณ์ อัลกอริทึมเดียวกันนั้น (หรือแม้แต่เวอร์ชันที่ปรับปรุงแล้ว) จะยังคงเรียนรู้จากข้อมูลพื้นฐานที่ไม่ถูกต้องนั้นด้วยการใช้งานที่มากขึ้น ซึ่งยิ่งทำให้ปัญหารุนแรงขึ้น

ความตกใจครั้งแรกของฉันต่อความเป็นจริงในเรื่องนี้คือเมื่อโดนัลด์ ทรัมป์ ชนะการเลือกตั้งประธานาธิบดีในปี 2559 ฉันตระหนักว่าฉันเคยอยู่ในห้องสะท้อนเสียงโดยพิจารณาจากเนื้อหาที่ออกแบบมาสำหรับฉัน และฉันยังคงได้รับฟีดเนื้อหาดังกล่าวมากขึ้น ฉันยังคงบริโภคมันต่อไป

ข้อเสีย? ฉันรู้สึกตาบอดโดยสิ้นเชิงกับผลการเลือกตั้ง

กลับหัว? ตอนนี้ฉันอยากรู้อยากเห็นมาก และได้ฝึกฝนทักษะการคิดเชิงวิพากษ์

โครงสร้างพื้นฐานในการรวบรวมและประมวลผลข้อมูล

ความจริงก็คือเราไม่ได้ปฏิบัติตามวิธีการหรือระบบที่เป็นมาตรฐานมากนักในการรวบรวม จัดเก็บ และประมวลผลข้อมูล สิ่งนี้ส่งผลให้เกิดข้อมูลจำนวนมหาศาลที่รวบรวมในแพลตฟอร์มต่างๆ มากมายซึ่งไม่สามารถเล่นร่วมกันได้ — หรือที่เรียกว่าระบบที่แยกจากกันโดยปราศจากการผสานรวมที่ราบรื่นระหว่างกันเพื่อแบ่งปันและรวมข้อมูล นี่ไม่ได้หมายความว่าทุกระบบจะเป็นเช่นนั้น (มีหลายระบบที่อยู่ระหว่างการแก้ไขข้อกังวลนี้) แต่ก็ยังเป็นปัญหาที่แท้จริงสำหรับชุมชนเทคโนโลยีที่จะต้องแก้ไขเพื่อเพิ่มมูลค่าสูงสุดของข้อมูลจากแหล่งต่างๆ

และแย่ลง? คุณภาพของข้อมูลที่รวบรวมโดยแต่ละระบบจะแตกต่างกันไป ซึ่งนำไปสู่ความไม่ถูกต้องและไม่สอดคล้องกันเมื่อรวมกับชุดข้อมูลอื่นๆ ปัญหาที่ค่อนข้างแย่สำหรับ " กลยุทธ์ที่ขับเคลื่อนด้วยข้อมูล " ที่คุณได้ยินทุกคนพูดถึง

จริยธรรมในข้อมูลและ AI : มันซับซ้อน

เพื่อสร้างความก้าวหน้าที่มีความหมายในการพัฒนามาตรฐานจริยธรรมสำหรับเทคโนโลยีและ AI ก่อนอื่นเราต้องรับทราบว่าประเด็นจริยธรรมนั้นซับซ้อนมากเพียงใด สิ่งที่คนกลุ่มหนึ่งมองว่าเป็น "ศีลธรรม" และ "ถูกต้อง" อาจเป็นสิ่งที่ลามกอนาจารและสร้างความไม่พอใจให้กับอีกกลุ่มหนึ่งโดยสิ้นเชิง - ด้วยความเชื่อมั่นในปริมาณที่เท่ากัน

ในปี 2017 ฉันได้เข้าร่วมฟังคำปราศรัยอันน่าอัศจรรย์ของ Michael Schidlowskyที่โรงเรียน Flatiron ในนิวยอร์ค ซึ่งยังคงเป็นแรงบันดาลใจให้ฉันจนถึงทุกวันนี้ เขาพาผู้ชมผ่านการทดลองทางความคิดหลายครั้งเพื่อแสดงให้เห็นความซับซ้อนเบื้องหลังสิ่งที่เรา “พิจารณา” จริยธรรมและศีลธรรม เร็วแค่ไหนที่เราข้ามไปสู่ข้อสรุปในขั้นต้น และวิธีที่เส้นแบ่งไม่ชัดเจนเมื่อถึงเวลาที่ต้องดำเนินการกับพวกเขา

การทดลองทางความคิดที่ฉันชอบ: ภาวะที่กลืนไม่เข้าคายไม่ออกของ รถเข็น การทดลองนี้เป็นสถานการณ์ที่กลืนไม่เข้าคายไม่ออกในชีวิตจริงสำหรับผู้ที่ออกแบบและฝึกอบรมรถยนต์ไร้คนขับในปัจจุบัน!

ก้าวไปอีกขั้น คุณจะเลือกฝึกอัลกอริทึมรถขับเองอย่างไร หากต้องเลือกระหว่างการฆ่า/ช่วยชีวิตคนชรากับเด็ก ผู้ชายกับผู้หญิง? คนดำ VS คนขาว? หญิงมีครรภ์ vs หญิงที่มีลูกเล็กอยู่ในอ้อมแขน? ผู้ชายขาด้วน vs ผู้ชายแข็งแรงสมบูรณ์?

ไม่สบายยัง? ใช่ มันซับซ้อน

ในขณะที่เป้าหมายของเราในฐานะชุมชนเทคโนโลยีและในฐานะสมาชิกของเผ่าพันธุ์มนุษย์ควรจะลดอคติให้ได้มากที่สุด ความจริงก็คือจะมีอคติอยู่ในชุดข้อมูลที่เลือกเพื่อฝึกอัลกอริทึม AI และอคติในชุดข้อมูลเหล่านี้อยู่เสมอ จะเปลี่ยนไปตามสภาพแวดล้อมรอบตัวเราและสิ่งที่ “ปกติ” ในช่วงเวลานั้น

ตัวอย่างที่ไม่สบายใจกับความจริงที่น่าเกลียด: หากรถยนต์ไร้คนขับได้รับการฝึกฝนในภาคใต้ (สหรัฐอเมริกา) ในช่วงต้นทศวรรษ 1900 ซึ่งเป็นจุดสูงสุดของการเคลื่อนไหวของ KKK ก็ไม่ยากที่จะจินตนาการว่าผู้ที่ตัดสินใจเกี่ยวกับชุดข้อมูลการฝึกอบรมจะเลือกเส้นทางของ ตีค่าชีวิตคนขาวมากกว่าคนดำ ตัวอย่างอื่นๆ อีกนับไม่ถ้วนจากโลกที่เราอาศัยอยู่ทุกวันนี้

ขยะเข้าขยะออก

ข้อมูลที่ดี ➡️ AI ที่ดี—แต่เราจะไปถึงจุดนั้นได้อย่างไร?

ความลำเอียงบางระดับไม่ว่าจะรู้ตัวหรือไม่รู้ตัวจะมีอยู่ตลอด เป้าหมายร่วมกันคือเพื่อลดการแกว่งของลูกตุ้มอคติให้มากที่สุดเท่าที่จะเป็นไปได้

นี่คือแนวคิดบางประการเกี่ยวกับวิธีที่เราจะไปถึงที่นั่น:

  1. ความหลากหลายโดยเจตนาในทีมข้อมูลและ AI :
    จำเป็นอย่างยิ่งที่จะต้องเป็นตัวแทนของกลุ่มคนจำนวนมากที่สุดเท่าที่จะเป็นไปได้ในการสร้างและฝึกอบรมอัลกอริทึม AI ขั้นตอนของการรวมนี้จะต้องมีความหมายและมุ่งเน้นการดำเนินการ ไม่ใช่เป็นเพียงการเคลือบสี PR ความหลากหลายของความคิด มุมมอง ประสบการณ์ และภูมิหลังจะช่วยเสริมความแข็งแกร่งให้กับชุดข้อมูลของเรา และช่วยลดความเอนเอียงในข้อมูล โดยเฉพาะอย่างยิ่งเมื่อเราปรับขนาดแอปพลิเคชัน AI ทั่วโลก
  2. อยากรู้อยากเห็นมากเกินไป :
    เรียนรู้เพิ่มเติมเกี่ยวกับปัญญาประดิษฐ์และแกะคำศัพท์เหล่านั้น ถามคำถาม. อย่ากลัวที่จะตรวจสอบและเจาะลึกเพิ่มเติมกับพันธมิตรทางธุรกิจและผู้จำหน่ายเทคโนโลยีเกี่ยวกับชุดข้อมูลที่ใช้และแสดง วิธีรวบรวมและประมวลผลข้อมูล วิธีการของ AI ที่ใช้ ฯลฯ อยากรู้อยากเห็นมากเกินไปเพื่อให้คุณพร้อม ข้อมูลที่คุณจำเป็นต้องใช้ในการตัดสินใจที่ดีที่สุดสำหรับธุรกิจของคุณ (และตัวคุณเอง) เท่าที่จะทำได้
  3. ใช้ประโยชน์จากเทคโนโลยี AI เพื่อข้อมูลที่ดีขึ้น ⚡︎:
    ใช้เทคโนโลยี AI เพื่อทำให้งานที่ซ้ำซากจำเจในการรวบรวมข้อมูลเป็นไปโดยอัตโนมัติ ตัวอย่างเช่น ระบบรายงานค่าใช้จ่ายจำนวนมากอนุญาตให้พนักงานอัปโหลดหรือส่งอีเมลรูปถ่ายใบเสร็จรับเงิน และสแกนข้อมูลที่จำเป็นทั้งหมดโดยอัตโนมัติ
  4. Gamification :
    การล้างข้อมูลและการตรวจสอบคุณภาพของข้อมูลอาจเป็นหนึ่งใน งานที่น่าตื่นเต้น ไม่น้อยที่คนจะสมัคร แต่ต้องการการป้อนข้อมูลจากมนุษย์ที่รอบคอบ มีวิธีต่างๆ ในการเล่นเกมอย่างสร้างสรรค์ในกระบวนการรวบรวมข้อมูลที่มีคุณภาพสูงขึ้น ล้างข้อมูลที่มีอยู่ และทำงานเชิงรุกเพื่อลดอคติและเพิ่มความหลากหลายในชุดข้อมูล หากทำได้อย่างมีประสิทธิภาพ เราสามารถขับเคลื่อนการเปลี่ยนแปลงที่เราต้องการได้โดยมีแรงเสียดทานน้อยลง
  5. สิ่งที่สำคัญที่สุด — ยอมรับความซับซ้อนของจริยธรรม ⚖️ :
    แทนที่จะต่อสู้เพื่อความจริงที่แน่นอนในโลกที่มีความหลากหลายมากขึ้น จะเป็นการดีที่สุดสำหรับเราที่จะยอมรับความซับซ้อนในการออกแบบมาตรฐานทางจริยธรรมและพยายามอย่างดีที่สุดต่อไปเพื่อเพิ่มความหลากหลายและการเป็นตัวแทน ในขณะที่ลดอคติ นี่จะเป็นการทำงานอย่างต่อเนื่อง (อย่างที่ควรจะเป็น!) และเราจะเข้าใจผิดอย่างมาก — แต่อย่างที่ Maya Angelou พูดไว้อย่างสวยงามว่า: " ทำดีที่สุดเท่าที่จะทำได้จนกว่าคุณจะรู้ดีกว่านี้ เมื่อรู้แล้ว จงทำดีกว่า”

ขยะออก