Data : Sampah Masuk, Sampah Keluar
Saya akan melanjutkan dan memperdebatkan masalah dunia nyata yang paling penting dan mendesak untuk kita selesaikan sebagai komunitas teknologi global adalah bagaimana kita meningkatkan kualitas data yang masuk ke sistem Kecerdasan Buatan — sebuah langkah penting sebelum kita dapat fokus pada menskalakan AI untuk semua potensi positif yang dimilikinya.
Kita sudah sangat bergantung pada AI dalam kehidupan kita sehari-hari, penting bagi "kita" kolektif untuk memahami apa yang sedang kita hadapi. AI bergantung pada data yang ada. Faktanya, data di balik algoritme jauh lebih penting daripada algoritme itu sendiri.
Sampah masuk ➡️ Sampah keluar.

Tiga Aspek Data untuk Diteliti Lebih Dekat :
- Kualitas data untuk pelatihan AI
- Infrastruktur untuk mengumpulkan, menyimpan, dan memproses data
- Etika dalam Data & AI
Selama fase desain algoritme AI, tim menentukan dari mana asal data untuk melatih algoritme. Data yang bias akan membuat algoritme yang bias, dan pada akhirnya hasil dan keputusan yang bias. Implikasi dunia nyata sangat luas dan cukup berbahaya. Jika Anda seperti saya, Anda belajar paling baik dengan contoh juga:
- Kesehatan | Model AI sinar-X : Jika hanya sinar-x pria yang digunakan untuk melatih algoritme AI untuk deteksi gambar, maka AI mungkin tidak mengenali penyakit saat ditugaskan untuk mendiagnosis wanita.
- Keamanan & Pengawasan | Kamera AI Cerdas : Jika gambar yang diumpankan ke kamera keamanan AI pintar hanya mengambil artikel berita AS tentang Muslim dari 10 tahun terakhir, itu akan belajar untuk mempertimbangkan siapa pun dengan fitur fisik dari wilayah itu atau siapa pun yang mempraktikkan Islam sebagai ancaman. Aplikasi malang serupa adalah pengawasan keamanan untuk komunitas Afrika-Amerika, yang sudah terlalu kita kenal.
- Pengenalan Wajah | Penandaan Media Sosial : Jika kumpulan data yang digunakan untuk melatih algoritme AI sebagian besar adalah wajah dan fitur Kaukasia, algoritme tersebut akan mengecualikan etnik lain. Ini jauh lebih dalam ke topik representasi untuk semua, dan dampaknya terhadap ramalan negatif yang terpenuhi dengan sendirinya dan hambatan yang diciptakannya untuk kemajuan. Di sisi lain dari aplikasi yang sama adalah perhatian dari pengawasan dan pasukan keamanan, yang pada akhirnya melanggengkan diskriminasi yang tidak adil terhadap komunitas tertentu.
- Rekomendasi Konten : Jika data pelatihan algoritme AI dibangun oleh mereka yang memiliki pengalaman, perspektif, dan latar belakang terbatas, mesin perekam konten ini dapat menarik garis antara konten apa yang direkomendasikan untuk kelompok tertentu, mengabadikan narasi, membatasi pemikiran kritis, dan membatasi akses ke yang baru informasi. Ini juga mengatasi masalah bias ketersediaan — di mana orang akan mempercayai konten yang mereka baca, karena hanya itu konten yang tersedia bagi mereka.
“Data tidak berbohong. Orang-orang melakukannya. Jika data Anda bias, itu karena pengambilan sampelnya salah atau Anda mengajukan pertanyaan yang salah (baik sengaja atau tidak).
- Lee Baker, Kebenaran, Kebohongan & Statistik: Cara Berbohong dengan Statistik
Jika data pelatihan dasar bias dan tidak lengkap, algoritme yang sama (atau bahkan versi yang lebih baik) akan terus belajar dari data dasar yang salah dengan lebih banyak penggunaan, hanya akan memperburuk masalah.
Kejutan nyata pertama saya terhadap kenyataan tentang masalah ini adalah ketika Donald Trump memenangkan pemilihan presiden pada tahun 2016. Saya menyadari bahwa saya telah berada di ruang gema berdasarkan konten apa yang dirancang untuk saya, dan saya terus diberi lebih banyak tema konten itu sebagai Saya terus mengkonsumsinya.
Kelemahan? Saya merasa benar-benar dibutakan oleh hasil pemilihan.
Terbalik? Saya sekarang sangat ingin tahu dan telah mempertajam keterampilan berpikir kritis saya.
Infrastruktur untuk mengumpulkan dan memproses data
Kenyataannya adalah kami belum mengikuti banyak metode atau sistem standar tentang cara kami mengumpulkan, menyimpan, dan memproses data. Ini telah menghasilkan sejumlah besar data yang dikumpulkan di berbagai platform berbeda yang tidak bermain baik satu sama lain — alias sistem yang sangat terpisah tanpa integrasi yang mulus di antara mereka untuk berbagi dan menggabungkan data. Ini bukan untuk mengatakan semua sistem seperti itu (ada banyak yang sedang dalam proses menyelesaikan masalah ini), tetapi tetap menjadi masalah nyata bagi komunitas teknologi untuk mengatasi memaksimalkan nilai data dari berbagai sumber yang berbeda.
Dan lebih buruk? Kualitas data yang dikumpulkan oleh setiap sistem berbeda-beda yang menyebabkan ketidakakuratan dan ketidakkonsistenan ketika digabungkan dengan kumpulan data lainnya. Kumpulan masalah yang cukup mengerikan untuk " strategi berbasis data " yang Anda dengar dibicarakan semua orang.
Etika dalam Data & AI: Rumit.
Untuk membuat kemajuan yang berarti dalam mengembangkan standar etika untuk teknologi dan AI, pertama-tama kita harus mengakui betapa kompleksnya masalah etika. Apa yang satu kelompok anggap “bermoral” dan “benar”, bisa jadi benar-benar cabul dan menyinggung kelompok lain — dengan tingkat keyakinan yang persis sama.
Pada tahun 2017, saya menghadiri ceramah fenomenal oleh Michael Schidlowsky di Flatiron School di NYC yang terus menginspirasi saya hingga hari ini. Dia memandu audiensi melalui sejumlah eksperimen pemikiran untuk mengilustrasikan kompleksitas di balik apa yang kita "anggap" sebagai etika dan moral, seberapa cepat kita melompat ke kesimpulan pada awalnya, dan bagaimana garis menjadi kabur ketika saatnya untuk mengeksekusinya.
Eksperimen pemikiran favorit saya: Dilema Trolley . Eksperimen ini adalah dilema kehidupan nyata bagi mereka yang merancang dan melatih mobil self-driving hari ini!

Mari kita selangkah lebih maju. Bagaimana ANDA memilih untuk melatih algoritme mobil self-driving jika membuat pilihan antara membunuh / menyelamatkan orang tua vs anak? Pria vs wanita? Orang kulit hitam vs orang kulit putih? Seorang wanita hamil vs seorang wanita dengan anak kecil di pelukannya? Seorang pria dengan kaki yang diamputasi vs pria berbadan sehat yang sempurna?
Belum nyaman? Ya, ini rumit.
Sementara tujuan kami sebagai komunitas teknologi dan sebagai anggota umat manusia adalah untuk mengurangi bias sebanyak mungkin, kenyataannya akan selalu ada beberapa bias yang ada dalam kumpulan data yang dipilih untuk melatih algoritme AI, dan bias dalam kumpulan data ini akan bergeser tergantung pada lingkungan di sekitar kita dan apa yang “dinormalkan” selama itu.
Contoh yang tidak menyenangkan dengan beberapa kebenaran yang buruk: Jika mobil self-driving dilatih di Selatan (AS) selama awal 1900-an di puncak gerakan KKK, tidak sulit membayangkan mereka yang membuat keputusan pada kumpulan data pelatihan akan memilih jalur menghargai kehidupan orang kulit putih di atas orang kulit hitam. Contoh lain yang tak terhitung jumlahnya dari dunia yang kita tinggali saat ini.
Sampah masuk sampah keluar.
Data Bagus ➡️ AI Bagus— Tapi bagaimana caranya?
Beberapa tingkat bias, sadar atau tidak sadar, akan selalu ada. Tujuan kolektifnya adalah untuk mengurangi ayunan pendulum bias , sebanyak mungkin secara manusiawi.
Berikut adalah beberapa ide tentang bagaimana kita bisa sampai di sana:
- Keberagaman yang Disengaja di Seluruh Tim Data dan AI :
Sangat penting untuk mewakili sebanyak mungkin kelompok orang dalam membuat dan melatih algoritme AI. Langkah inklusi ini harus bermakna dan berorientasi pada tindakan, dan bukan hanya lapisan cat PR. Keragaman pemikiran, perspektif, pengalaman, dan latar belakang akan memperkuat kumpulan data kami, dan membantu mengurangi ayunan pendulum bias dalam data — terutama saat kami menskalakan aplikasi AI secara global. - Jadilah Sangat Penasaran :
Pelajari lebih lanjut tentang Kecerdasan Buatan dan buka kata kunci tersebut. Mengajukan pertanyaan. Jangan takut untuk menyelidiki dan menggali lebih jauh dengan mitra bisnis dan vendor teknologi tentang kumpulan data apa yang digunakan dan direpresentasikan, bagaimana data dikumpulkan dan diproses, metodologi AI apa yang digunakan, dll. informasi yang Anda perlukan untuk membuat keputusan terbaik bagi bisnis Anda (dan diri Anda sendiri) sebisa mungkin. - Manfaatkan Teknologi AI untuk Data yang Lebih Baik ⚡︎:
Gunakan teknologi AI untuk mengotomatiskan tugas monoton seputar pengumpulan data. Misalnya, banyak sistem laporan pengeluaran memungkinkan karyawan untuk mengunggah atau mengirimkan foto tanda terima melalui email, dan secara otomatis memindai semua informasi yang diperlukan. - Gamifikasi :
Membersihkan data dan memastikan kualitas data bisa menjadi salah satu pekerjaan yang kurang menarik, tetapi membutuhkan input manusia yang bijaksana. Ada cara untuk secara kreatif mengubah proses pengumpulan data berkualitas lebih tinggi, membersihkan data yang ada, dan bekerja secara agresif untuk mengurangi bias dan meningkatkan keragaman dalam kumpulan data. Jika dilakukan secara efektif, kita dapat mendorong perubahan yang kita perlukan dengan lebih sedikit gesekan. - Yang terpenting — Terima Kompleksitas Etika ⚖️ :
Daripada memperjuangkan kebenaran absolut di dunia yang semakin global dan beragam, sebaiknya kita menerima kerumitan dalam merancang standar etika dan terus melakukan yang terbaik untuk meningkatkan keragaman dan representasi, sekaligus mengurangi bias. Ini akan menjadi pekerjaan terus menerus (sebagaimana mestinya!), dan kita akan sering salah — tetapi seperti yang dikatakan Maya Angelou dengan sangat indah: “ Lakukan yang terbaik yang Anda bisa sampai Anda tahu lebih baik. Kemudian ketika Anda tahu lebih baik, lakukan lebih baik ”.
Sampah keluar.