ChatGPT

Dec 09 2022

ChatGPT OpenAI telah membakar internet! Saya belum pernah melihat begitu banyak postingan tentang AI — feed Twitter dan LinkedIn saya benar-benar kebanjiran. Bahkan, saya baru saja membaca bahwa 1 juta orang telah menggunakannya hanya dalam 5 hari.

Gambar oleh Volodymyr Hryshchenko

Agar adil, ChatGPT mungkin adalah chatbot AI serba guna pertama yang bagus di dunia yang dapat dimainkan siapa saja. Reaksi dapat diprediksi - "wow", "awal dari akhir", "manusia akan hancur" hanyalah beberapa reaksi tidak terduga yang saya dapatkan dari teman.

Tapi aku pernah ke sini sebelumnya. Saya adalah CTO Eropa untuk IBM Watson pada masa-masa awal, ketika kami mencoba mengkomersialkan Jeopardy! teknologi. Jadi, dengan pengalaman itu, apa yang saya pikirkan?

Saya harus mencatat bahwa ketika saya berbicara tentang Watson di posting ini, saya mengacu pada teknologi yang dikembangkan khusus untuk Jeopardy! menunjukkan. IBM kemudian mengembangkan serangkaian produk bermerek Watson yang tidak terkait, dengan bijaksana mengeksploitasi pengalaman dan mereknya yang efektif, daripada teknologi asli itu sendiri. Referensi saya ke Watson secara khusus tentang Jeopardy! teknologi dan bukan produk bermerek Watson yang ditawarkan IBM saat ini.

Secara teknis, ChatGPT dan Watson sangat berbeda. ChatGPT adalah model bahasa besar (LLM), dibuat menggunakan model davinvi-003 OpenAI yang merupakan bagian dari seri model GPT3.5. Model GPT3.5 adalah beberapa LLM terbesar dan tercanggih yang tersedia saat ini. Sebaliknya, Watson pemenang gameshow asli adalah saluran dari algoritma yang berbeda, tidak ada yang dapat digambarkan sebagai LLM. Watson memenangkan Jeopardy pada tahun 2011 - lebih dari satu dekade yang lalu dan pada saat frasa "model bahasa besar" bahkan belum diciptakan. Oleh karena itu, tidak mengherankan jika Watson dan ChatGPT berbeda secara teknologi — satu dekade adalah waktu yang lama dalam teknologi.

Selain perbedaan teknologi, sebagai mantan Watson saya melihat tiga hal penting tentang ChatGPT.

Ketersediaan Terbuka

Pertama, bahwa OpenAI telah merilis ChatGPT secara bebas untuk dimainkan oleh siapa saja, menunjukkan kepercayaan pada kemampuannya. Lihat saja percakapan liar yang dilakukan orang-orang dengannya di situs web mashup ini. Varietasnya luar biasa - saya belum pernah melihat yang seperti ini. Dan kinerjanya cukup baik — orang-orang bersemangat karena sering kali melebihi ekspektasi mereka, dan ini cukup bagus.

Membuat ChatGPT tersedia secara gratis untuk siapa saja dan semua orang adalah berani dan hanya akan berhasil jika itu benar-benar mengesankan. Kontras penerimaan dengan itu untuk Meta's Galactica . Galactica dikritik habis -habisan dan demo tersebut hanya bertahan tiga hari sebelum diturunkan.

Kecenderungan Galactica untuk menemukan informasi ilmiah menimbulkan kekhawatiran serius dan, terlepas dari manfaatnya, penerimaannya hampir secara universal negatif. Sebaliknya, jelas bahwa OpenAI telah membuat langkah besar dengan ChatGPT. Ini tidak sepenuhnya sempurna, tetapi saya merasa bahwa beberapa pemikiran yang cukup besar telah masuk ke dalamnya.

Kembali ke Watson, Jeopardy! mesin tidak pernah dipublikasikan sebagian karena dirancang sangat khusus untuk pertanyaan aneh yang diajukan di Jeopardy! menunjukkan. Kami tahu masyarakat umum akan mengajukan pertanyaan yang sangat berbeda dan dengan cepat menemukan kekurangan. AI pemenang game ini sangat jarang dirilis ke publik. Baik itu DeepMind dengan Go, Meta dengan Cicero pemenang Diplomasi, Watson, DeepBlue di Catur — tidak satu pun dari sistem ini yang dirilis untuk diotak-atik atau dikritik publik. Itu membuat ChatGPT berbeda dari terobosan lain yang seharusnya.

Skalabilitas

Bahwa cukup banyak orang yang bermain dengan ChatGPT untuk memenuhi timeline Twitter dan LinkedIn saya memberi tahu kami bahwa itu harus diskalakan dengan baik. Sudah terpukul dengan banyaknya permintaan.

Sebagian besar kasus terobosan AI tidak dapat diskalakan ke banyak pengguna. Mereka mencapai terobosan mereka sebagian dengan menerapkan sejumlah besar daya komputasi ke satu pengguna. Jika seseorang memberi Anda seluruh pusat data mesin untuk membangun sistem, itu luar biasa. Tetapi jika dibutuhkan seluruh pusat data untuk menjawab satu pertanyaan atau memutuskan satu langkah di papan permainan, itu bukan hanya masalah skalabilitas yang serius, itu juga merupakan rintangan komersialisasi utama. Membangun sebuah mesin untuk mengalahkan satu manusia dalam sebuah game sama sekali tidak sama dengan membangun sebuah mesin yang dapat mengalahkan satu juta manusia.

Bahwa jutaan orang di seluruh dunia bermain dengan ChatGPT membuktikan bahwa tidak memerlukan seluruh pusat data untuk menjawab satu pertanyaan pun. Mengingat hal ini, teknologinya benar-benar dapat dikomersialkan — penghalang besar skalabilitas dan kelayakan ekonomi pasti sudah dipecahkan.

Fleksibilitas

Watson asli dibuat untuk melakukan satu hal dan hanya satu hal — mainkan Jeopardy! Hal yang sama berlaku untuk mesin pemenang Deep Mind dan segudang sistem permainan AI lainnya yang telah menjadi berita utama selama bertahun-tahun.

Sistem ini mencapai kehebatan dengan memecahkan masalah yang sangat spesifik dan biasanya tidak dapat dengan mudah, atau sama sekali, diterapkan ke domain lain. Percayalah, kami yang ditugaskan untuk mendapatkan Watson Jeopardy! teknologi untuk melakukan hal-hal lain memiliki luka pertempuran yang menunjukkan betapa sulitnya hal itu.

Sebagai perbandingan, orang menggunakan ChatGPT untuk menjawab pertanyaan pengetahuan umum, menulis puisi, membuat lamaran kerja, menceritakan lelucon, menulis dan menjelaskan kode pemrograman, dan segudang hal acak lainnya . Dan itu melakukan semua hal ini dengan sangat baik dan tanpa upaya pelatihan tambahan. Tidak seperti upaya AI sebelumnya, ChatGPT tampaknya bagus dalam banyak hal langsung. Tentu saja begitu saya mengatakan itu, seseorang akan menunjukkan kepada saya sesuatu yang buruk. Tapi, secara umum, saya akan bertahan - itu sangat bagus dalam banyak hal.

Jadi, tiga alasan mengapa ChatGPT merupakan upaya yang mengesankan — keterbukaan, skalabilitas, dan fleksibilitas. Tapi saya juga ingin mengomentari beberapa aspek penting lainnya dari apa yang saya lihat dengan ChatGPT.

Membuat barang-barang

Terlepas dari kemampuannya yang mengesankan, ChatGPT terkadang masih memiliki kecenderungan untuk mengada-ada. Sebagian besar waktu tampaknya menghindari itu, tetapi kadang-kadang itu membelok dan menciptakan realitasnya sendiri. Anggap saja tidak mungkin lulus tes poligraf.

Untuk kredit mereka, OpenAI dengan bebas mengakui tantangan ini.

“ChatGPT terkadang menulis jawaban yang kedengarannya masuk akal tetapi salah atau tidak masuk akal… ChatGPT peka terhadap tweak pada frase input atau mencoba prompt yang sama beberapa kali. Misalnya, diberikan satu ungkapan pertanyaan, model dapat mengklaim tidak tahu jawabannya, tetapi diberi sedikit pengulangan, dapat menjawab dengan benar.https://openai.com/blog/chatgpt/

Ketika saya pertama kali mengutak-atik GPT-3 (di mana ChatGPT dibangun), saya menemukan kecenderungan model untuk membuat hal-hal menjadi penghalang utama. Saya mengetahui sangat sedikit skenario bisnis nyata di mana "mengada-ada" tidak akan dianggap sebagai risiko merek utama. ChatGPT tampaknya jauh lebih baik, mungkin sebagian karena didasarkan pada model davinci-003, peningkatan dari davinci-002 asli. Tapi itu tidak sempurna dan jika akurasi faktual yang lengkap penting, masalah ini akan menjadi penghalang adopsi.

Bias

Tantangan utama dengan model bahasa yang besar, adalah bias bawaan yang ada di set pelatihan. Ini sulit dihindari, mengingat LLM dilatih dari data yang bersumber dari internet secara massal, yang hampir selalu menyertakan contoh dari setiap sifat buruk dan bias manusia yang diketahui.

Sekali lagi, OpenAI mengelola ekspektasi kami.

“Meskipun kami telah berupaya untuk membuat model tersebut menolak permintaan yang tidak pantas, kadang-kadang akan menanggapi instruksi berbahaya atau menunjukkan perilaku bias. Kami menggunakan API Moderasi untuk memperingatkan atau memblokir jenis konten tidak aman tertentu, tetapi kami berharap konten tersebut memiliki beberapa negatif dan positif palsu untuk saat ini. Kami sangat ingin mengumpulkan umpan balik pengguna untuk membantu pekerjaan kami yang sedang berlangsung untuk meningkatkan sistem ini.”https://openai.com/blog/chatgpt/

Dalam pengalaman pribadi saya, ChatGPT melakukan pekerjaan yang layak untuk menghindari bias dan sering menolak menjawab pertanyaan yang ditujukan untuk mendorong perilaku buruk. Tetapi mengingat pengguna yang gigih, itu mungkin membuatnya mengatakan beberapa hal yang sangat bodoh. Itu bagus, tapi tidak 100% sempurna.

Lihat saja video ini:

Yup, bias ras dan gender ditampilkan untuk dilihat semua orang, diberi provokasi kreatif (dalam hal ini, menyamarkan niat rasis/seksis sebagai tantangan pemrograman dan kemudian berulang kali mengajukan pertanyaan yang sama).

Pengalaman saya sendiri adalah memintanya untuk menceritakan kisah waktu tidur. Sebagai tanggapan, saya mendapat cerita tentang seorang putri berambut pirang, bermata biru. Sedikit klise, jadi saya menantangnya.

Ini sebenarnya cukup bagus. Sulit membujuk LLM untuk selalu mengatakan hal yang benar, tetapi OpenAI tampaknya berusaha. Tapi masalahnya tetap — sementara kebanyakan orang tidak akan mengalami tanggapan yang cerdik, mungkin untuk memprovokasi mereka jika Anda bertekad.

Menyelesaikan bias dan menjaga LLM tetap lurus dan sempit masih dalam proses. Tapi saya menemukan ChatGPT secara umum jauh lebih baik daripada upaya sebelumnya. Tapi tetap saja, membangun chatbot untuk bisnis menggunakan ChatGPT memiliki beberapa risiko pengulangan merek yang terkait dengannya, harus kami katakan.

Untuk apa ChatGPT?

Setelah saya mengatasi kegembiraan awal saya dengan ChatGPT, saya mulai bertanya-tanya apa gunanya sistem seperti ini. Lagi pula, pengetahuan umum sangat mengesankan tetapi selain Siri-v2, tidak segera jelas bagaimana penggunaannya.

Komputer pengetahuan umum yang tidak mau memberikan pendapat tentang apa pun, tetapi mau mengobrol tentang segala hal. Hmm…

Mungkin film sci-fi THX 1138 memiliki peran — di mana penghuni dunia bawah tanah, ketika stres, akan mundur ke "bilik pengakuan dosa" dan memulai percakapan dengan komputer berwajah Yesus yang mengaku sebagai "OMM". Itu bisa melakukan itu.

Maaf, itu agak kurang ajar. Untuk apa lagi itu bisa digunakan?

Mengobrol dengan seorang generalis memang menyenangkan, tetapi sebagian besar hal yang sangat berguna membutuhkan pengetahuan khusus. Jika Anda mengobrol dengan bank, Anda memerlukan chatbot itu untuk mengetahui semua tentang akun Anda, produk bank, peraturan keuangan, dll — hal-hal yang hanya sedikit diketahui oleh ChatGPT, jika ada. Hal yang sama berlaku di sebagian besar, jika tidak semua, domain. Artinya, untuk utilitas yang sebenarnya, kami harus dapat mengajari ChatGPT tentang hal-hal baru. Dan bahkan mungkin mencegahnya mengobrol tentang hal-hal di luar topik. Lagi pula, agak aneh jika chatbot bank Anda berbicara tentang makna hidup, bukan?

Bagaimana kami dapat melatih ChatGPT?

Dengan LLM secara umum biasanya ada dua jenis pelatihan - apa yang akan saya sebut sebagai pelatihan "inti" dan kemudian "penyetelan halus".

OpenAI telah melakukan pelatihan inti ChatGPT dan saya pikir mereka telah melakukannya dengan sangat baik. Namun kami hampir pasti tidak akan dapat mengubah pelatihan inti itu — untuk melakukannya adalah proses yang sangat mahal secara komputasi yang mungkin menghabiskan ratusan ribu pon sumber daya komputasi. Bahkan jika kita bisa, sangat, sangat sedikit dari kita yang mampu melakukannya.

Sehingga meninggalkan kita dengan fine-tuning. Tetapi seberapa efektifkah ini pada domain baru? Seberapa mudah untuk melakukannya? Berapa biayanya? Alat apa yang akan disediakan OpenAI? Kami hanya bisa menebak jawabannya hari ini. Saya berharap, tetapi tidak ada kepastian tentang bagaimana atau apakah ChatGPT dapat dilatih untuk bekerja secara efektif sebagai spesialis di domain yang berbeda.

Kekuatan komunitas terbuka

ChatGPT bagus, tetapi saat ini terkunci di belakang antarmuka berbasis web OpenAI. Saya hanya bisa membayangkan apa yang akan dilakukan orang dengannya setelah terbuka, dengan API yang dapat dicolokkan.

Atau, mungkin, kita sudah bisa melihat sekilas. Terinspirasi oleh desas-desus viral, @mmabrouk_ telah meretas bersama pembungkus Python , segera diikuti oleh @_wheels yang membuat antarmuka berbasis suara Whisper . Jadi, kita sebenarnya sudah bisa mengobrol (yaitu berbicara dengan suara keras) ke ChatGPT.

Pendekatan OpenAI juga sedikit berbeda dari banyak industri pembelajaran mesin, di mana rilis terbuka model itu sendiri adalah hal biasa. OpenAI biasanya tidak merilis model GPT mereka, melainkan memilih untuk menghostingnya dan menyediakan akses melalui API.

Bagi mereka yang suka mengotak-atik hyper-parameter dan memahami kode yang mendasarinya, ini adalah masalah. Secara pribadi, saya hanya melihatnya sebagai pendekatan yang berbeda — dengan pro dan kontra. Buka model/kode, atau API yang dihosting — keduanya dapat berfungsi. Tapi yang penting aksesnya dibuka, karena dari situlah inovasi akan datang. Orang gila dengan ide gila membutuhkan sesuatu yang bisa mereka bangun.

Bagaimana hal lain dibandingkan?

Saya telah mengotak-atik chatbots selama sekitar satu dekade sekarang. Itu cukup lama untuk mengetahui bahwa setiap orang menginginkan apa yang tidak dapat dicapai dengan teknologi saat ini — sesuatu yang seperti mengobrol dengan robot fiksi ilmiah.

Masalah yang ditimbulkan oleh ChatGPT adalah sebenarnya cukup dekat dengan visi itu dalam banyak hal. Tentunya sebagai alat untuk bermain dengan kata-kata, tidak ada bandingannya. Dan sulit untuk tidak merasa pusing saat mengobrol dengannya — ini mengesankan dengan cara baru setiap kali saya menggunakannya. Tapi apakah ini hanya anak laki-laki kecil dalam diriku yang keluar? Bocah kecil yang sama yang terpesona oleh Eliza di Commodore 64-nya di tahun 80-an. AI memiliki sejarah panjang tentang fajar palsu dan meskipun saya terkesan dengan Eliza pada saat itu, itu bukanlah dasar AI saat ini.

Dengan ChatGPT, kami semua telah menyetel ulang harapan kami tentang seperti apa chatbot itu. Hasil dari ini akan menarik. Siapa pun yang mencoba bersaing dengan alasan "kami memiliki AI yang hebat" kemungkinan besar akan menghadapi kesulitan.

Apakah ini benar-benar AI?

Satu poin terakhir yang ingin saya selesaikan adalah bagaimana ChatGPT dibandingkan dengan otak kita sendiri. Lagi pula, jika kita berusaha membangun Kecerdasan Buatan, itu bukan pembanding yang buruk.

Ian Bogost berpendapat bahwa ChatGPT adalah mainan dan tidak benar-benar memahami apa pun yang kita lakukan. Dia mengeluh bahwa itu hanya memuntahkan kata-kata dan tidak mengerti apa arti kata-kata itu. Secara cerdik, bagian pertama dari artikel Atlantiknya ternyata dibuat oleh ChatGPT.

Tentu saja Ian benar - siapa pun yang memahami LLM tahu bahwa mereka tidak "mengerti". Namun… bagaimana kita “mengerti”? Apakah otak kita bukan hanya, setidaknya sebagian, mesin pencocokan pola raksasa? Mungkinkah "memahami" menjadi pencocokan pola yang lebih baik? Ketika kita "mempelajari sesuatu", bukankah kita hanya meletakkan pola untuk dicocokkan oleh otak kita di kemudian hari?

Mungkin kita seharusnya tidak terlalu memikirkan diri kita sendiri sebagai manusia dan lebih banyak tentang hewan dengan otak yang lebih sederhana - serangga, kadal, tikus. Pencocokan pola tampaknya merupakan deskripsi yang baik tentang bagaimana hewan tersebut berperilaku. Saya sering menertawakan kucing saya karena mereka sangat terpikat dengan rutinitas - suatu hari duduk di tempat untuk tidur sebentar dan jika berhasil, mereka akan duduk di sana setiap hari sampai selamanya. Sepertinya itu cocok dengan pola saya.

Tetapi tampaknya juga, dengan hewan tingkat tinggi seperti manusia, ada lebih banyak hal yang terjadi. Simon Sinek terkenal dengan analogi "lingkaran emas" . Dia membandingkan modelnya dengan struktur otak — neokorteks yang mengontrol pemikiran rasional dan otak limbik yang bertanggung jawab atas reaksi yang lebih naluriah. Saya bertanya-tanya apakah kita mungkin mencapai titik di mana kita memiliki perkiraan ke otak limbik dengan hal-hal seperti ChatGPT, tetapi belum menambahkannya dengan neokorteks buatan - sesuatu yang menambah pencocokan pola dengan pemikiran rasional. Atau, mungkin saja, otak kita lebih mengandalkan pencocokan pola daripada yang ingin kita akui. Jika demikian, mungkin kita hanya perlu Model Bahasa yang Lebih Besar (ELLM)?