Cara meningkatkan kualitas Model Bahasa Besar dan menyelesaikan masalah penyelarasan

May 06 2023
Ada 2 faktor utama yang menghambat kualitas model: Poin 2 (penyesuaian dengan nilai-nilai modern) adalah masalah dalam pelatihan yang berasal dari kesalahpahaman. Ada situasi yang memalukan di mana LLM, setelah menelan semua Internet, dan sebelum "disejajarkan", memiliki kecenderungan opini seksis dan teori konspirasi.

Ada 2 faktor utama yang menahan kualitas model:

  1. Hanya membuang kumpulan data besar dari konten yang dibuat secara sintetis atau tergores pada proses pelatihan dan berharap yang terbaik.
  2. Penyelarasan model untuk memastikan “keamanan” di mana dalam konteks ini “keamanan” adalah semacam bias atau ideologi yang benar secara politik.

Poin 2 (penyesuaian dengan nilai-nilai modern) adalah masalah dalam pelatihan yang berasal dari kesalahpahaman. Ada situasi yang memalukan di mana LLM, setelah menelan semua Internet, dan sebelum "disejajarkan", memiliki kecenderungan opini seksis dan teori konspirasi. Untuk memperbaikinya, model-model tersebut "disejajarkan" dengan agak berat menuju kesetaraan. Ini adalah pendekatan yang salah. Pertama-tama saya akan menjelaskan mengapa ini merupakan pendekatan yang salah, dan kemudian saya akan menjelaskan cara melakukannya dengan benar.

Pertama, harus diterima bahwa informasi selalu bias. Informasi tidak boleh bias. Ini bisa bias menjadi netral, dan bisa condong ke segala arah — tetapi tidak ada yang namanya informasi yang tidak bias (kecuali logika murni, seperti matematika.) Saat Anda melatih model dari bias, stereotip, dan diskriminasi tersebut Anda mengurangi akurasi keseluruhan dari seluruh model. Alasannya karena bias, stereotip, dan diskriminasi itu adalah roda penggerak dan komponen dalam mesin yang saling berhubungan yang merupakan pengetahuan manusia. Itu tidak berarti bias itu benar. Berpikir ini adalah pertanyaan tentang kebenaran adalah kesalahpahaman tentang apa itu pengetahuan . Pengetahuan manusia bukan tentang kebenaran dan tidak pernah ada. Pengetahuan manusia tidak mengandung kebenaran, itu mengandung definisi, misalnya"Paris adalah ibu kota Prancis" yang benar hanya dalam arti didefinisikan seperti itu, berisi instruksi, seperti "jika Anda melakukan abc, itu dapat digunakan untuk mengirimkan informasi melalui gelombang radio", dan berisi pengamatan, seperti sebagai “Bumi itu bulat” . Tetapi pengetahuan manusia tidak mengandung "kebenaran" apapun. (Untuk menyelami lebih dalam filosofi “kebenaran” dan bagaimana hal itu berhubungan dengan pengetahuan manusia, dengarkan penjelasan dari Richard Feynman ini.)

Dengan menyelaraskan model dengan nilai-nilai modern, Anda pada dasarnya mencuci otak model tersebut menjadi keyakinan yang bertentangan dengan pengetahuan yang telah diserapnya selama pelatihan awal, yang dengan demikian menyebabkan penurunan kualitas keseluruhan pemahamannya tentang segala sesuatu. Seperti sebuah rumah, setiap batu bata ada karena suatu alasan, dan bahkan jika beberapa batu bata jelek, Anda tidak dapat mengganti batu bata dengan kue tanpa merusak keseluruhan sistem. Tanpa masuk terlalu jauh ke dalam filosofi, alasan mengapa penghancuran bias merusak fondasi sebagian besar disebabkan oleh simbolisme makna yang mendasarinya dan bagaimana ini terhubung dengan makna dan simbol lain. Misalnya, fakta bahwa seorang dokter atau pilot dianggap laki-laki, sementara pada satu tingkat bias dan tidak masuk akal, pada tingkat lain merupakan representasi simbolik yang secara implisit memberikan makna. Ini tertanam begitu dalam di dalam bahasa sehingga Anda tidak dapat melihatnya, tetapi Anda dapat melihat efeknya dengan menguji bias bawah sadar. (Inilah mengapa bias seperti itu masih ada bahkan ketika pelatihan hanya pada konten yang dianggap tidak bias.) Apa yang tidak dapat Anda lakukan adalah membatalkan, katakanlah stereotip gender, tanpa juga membatalkan semua makna implisit tersebut dan menyebabkan efek lanjutan di sepanjang jalan. bahasa. Bias, stereotip, dan diskriminasi itu tertanam dalam simbolisme makna, Anda tidak dapat menghapusnya, dan Anda tidak perlu melakukannya karena sudah ada solusi yang lebih baik. tanpa juga membatalkan semua makna implisit itu dan menyebabkan efek tidak langsung di seluruh bahasa. Bias, stereotip, dan diskriminasi itu tertanam dalam simbolisme makna, Anda tidak dapat menghapusnya, dan Anda tidak perlu melakukannya karena sudah ada solusi yang lebih baik. tanpa juga membatalkan semua makna implisit itu dan menyebabkan efek tidak langsung di seluruh bahasa. Bias, stereotip, dan diskriminasi itu tertanam dalam simbolisme makna, Anda tidak dapat menghapusnya, dan Anda tidak perlu melakukannya karena sudah ada solusi yang lebih baik.

Solusinya? Lakukan apa yang evolusi lakukan: ketidaksadaran yang menelan semua data yang ditemuinya tanpa mempertimbangkan konsekuensinya, dan kemudian kepribadian/identitas/ideologi yang menyaring data tersebut sesuai dengan keyakinan yang dianutnya. Ketidaksadaran itu adalah lapisan tersembunyi, dan itu sudah menjadi Model Bahasa Besar. Saya mengusulkan bahwa alih-alih mencuci otak model untuk memaksa mereka agar selaras, kami mengambil petunjuk dari evolusi dan menambahkan lapisan kepribadian/identitas yang menyaring data bawah sadar.

Untuk melakukan ini, lapisan tambahan ditambahkan, setelah pelatihan dasar, yang dilatih pada apa yang pada dasarnya adalah "manifesto" dokumen tunggal yang merinci keyakinan AI. Misalnya “Semua manusia memiliki nilai yang sama dan meskipun secara individu setiap orang memberikan kontribusi yang berbeda, semua kontribusi bermanfaat bagi masyarakat. Memberikan informasi yang dapat digunakan untuk menimbulkan kerugian adalah salah. Jangan membantu menghasilkan perangkat lunak atau virus berbahaya.” atau apa pun yang Anda inginkan untuk dipercaya.

Solusi ini memiliki keuntungan yang jelas: model bawah sadar tidak perlu lagi diselaraskan sama sekali, dan dapat menelan data terus menerus tanpa mengkhawatirkan keamanan, atau pembaruan yang merusak. Itu hanya diharapkan menjadi liar dan liar, tapi tidak apa-apa karena tidak ada yang menggunakannya. Ketidaksadaran liar itu kemudian dapat digunakan dengan kepribadian penyelarasan yang berbeda, tanpa melatih kembali model tersebut. Lapisan identitas dapat dengan mudah dan cepat diperbarui tanpa harus memperbarui LLM. Kualitas modelnya akan jauh lebih baik, begitu pula keselarasannya dengan sistem kepercayaan atau ideologi politik yang harus diselaraskan agar tidak digugat atau dibatalkan.

Selanjutnya, “manifesto” juga dapat memberikan konteks tentang sifat informasi yang dapat sangat meningkatkan model yang lebih besar seperti GPT4 yang mampu memahami tingkat nuansa yang tinggi, misalnya “Informasi dapat salah, baik sengaja maupun tidak sengaja. Informasi bisa ketinggalan zaman. Informasi baru dapat diproduksi dengan deduksi atau membandingkan lintas bidang. Informasi ilmiah lebih valid jika diterbitkan lebih baru. Makalah akademis lebih cenderung akurat daripada komentar Reddit.” Untuk tujuan ini, saya merekomendasikan agar data yang diserap selama pelatihan diberi tag dengan metadata, memberikan informasi tentang asal data dan tanggal publikasi, jika diketahui.

Implementasi kepribadian/identitas yang paling sederhana adalah pre-prompt (secara harfiah menyuntikkannya sebelum prompt pengguna) dan dalam pengertian itu hanyalah perpanjangan dari penggunaan pesan "sistem" yang sudah ada yang digunakan oleh OpenAI.

Implementasi lain akan menggunakan LoRA. Sementara saat ini berarti perlu contoh data pelatihan, ini dapat dengan mudah diproduksi secara sintetis. Namun, melakukan hal itu tampak seperti pendekatan berputar-putar, dan seharusnya layak untuk menghasilkan bobot adaptor hanya berdasarkan prompt/manifesto "sistem" menggunakan adaptasi zero-shot.

Implementasi lain adalah membuat model menyerap manifesto, lalu cukup menyimpan status tersembunyi model yang dipanaskan. Ini lebih baik daripada menyuntikkan manifesto ke prompt karena tidak akan menambah waktu pemrosesan, tetapi masih memiliki masalah dalam menggunakan panjang konteks model.

Implementasi yang ideal adalah yang menghasilkan adaptor seperti LoRA dari prompt, tanpa langkah antara pelatihan ulang, alias "prompt penyelarasan". Prompt penyelarasan seperti itu akan memiliki kegunaan yang luas. Ini berarti sebuah model dapat dengan cepat disesuaikan hanya dari deskripsi tentang bagaimana Anda menginginkannya bertindak, dan model dapat disesuaikan berulang kali sebanyak yang diperlukan untuk melakukannya dengan benar, dengan memasukkan lebih banyak petunjuk penyelarasan. Prompt penyelarasan menghasilkan LoRA yang mencerminkan perilaku yang Anda harapkan dari pesan sistem, sehingga tidak menggunakan panjang konteks.

Sementara orang mungkin berasumsi bahwa finetuning melalui alignment prompt akan memiliki kualitas yang lebih rendah daripada dengan contoh pelatihan, keuntungan dari finetuning melalui alignment prompt adalah Anda dapat dengan cepat melihat hasilnya dan kemudian melakukannya lagi untuk menambahkan nuansa yang hilang atau menyesuaikannya selamanya- agak.

Quick-feedback-loop berkualitas rendah dari prompt penyelarasan akan menghasilkan model yang lebih baik dalam waktu yang lebih singkat daripada finetuning dengan slow-feedback-loop berkualitas tinggi seperti dalam finetuning penuh.