Perpustakaan Babel Tak Terbatas dari LLM
“' The Godfather of AI' Leaves Google and Warns of Danger Ahead ”, adalah judul New York Times. Bagaimana kita bisa tahu jika LM merupakan ancaman bagi umat manusia jika bukan open-source? Apa yang sebenarnya terjadi? Bagaimana dunia model bahasa berada di ambang Perubahan.
Seruan untuk perang salib sumber terbuka
Beberapa saat yang lalu GPT-4 terungkap ke publik, dan saya pikir kita semua membaca laporan teknis dan kecewa.
Baru-baru ini, Nature juga membahas masalah ini : kita membutuhkan model bahasa besar (LLM) untuk menjadi open-source.
Banyak dari LLM adalah hak milik, tidak dirilis, dan kami tidak tahu data apa yang mereka latih. Ini tidak memungkinkan mereka untuk diperiksa dan diuji untuk keterbatasan, terutama yang berkaitan dengan bias.
Selain itu, berbagi informasi dan kode dengan ChatGPT berisiko bocor seperti yang ditemukan oleh Samsung . Belum lagi beberapa negara percaya bahwa penyimpanan data oleh perusahaan-perusahaan ini melanggar GDPR .
Inilah sebabnya mengapa kami membutuhkan LLM untuk menjadi sumber terbuka, dan harus ada lebih banyak investasi dalam pengembangan LLM baru, seperti konsorsium BLOOM ( LLM parameter 170 B yang dikembangkan oleh konsorsium akademik).
Sering terjadi sensasionalisme dalam beberapa bulan terakhir, baik tentang kemampuan sebenarnya dari LLM ini maupun risiko kecerdasan buatan. Jika peneliti tidak dapat menguji model, mereka tidak dapat benar-benar menilai kemampuan mereka, dan hal yang sama untuk menganalisis risiko. Selain itu, model open source jauh lebih transparan dan komunitas juga dapat mencoba mengidentifikasi sumber perilaku bermasalah.
Selain itu, ini bukan permintaan akademisi, institusi diwaspadai oleh AI. Uni Eropa saat ini sedang mendiskusikan tindakan AI UE yang dapat membentuk kembali masa depan LLM. Pada saat yang sama, Gedung Putih mendorong CEO teknologi untuk membatasi risiko AI. Dengan demikian, open source sebenarnya bisa menjadi persyaratan masa depan untuk model bahasa.
Mengapa ChatGPT sebagus itu?
Kita semua pernah mendengar tentang ChatGPT, dan betapa revolusionernya hal itu. Tapi bagaimana itu dilatih?
Semuanya kecuali semua yang perlu Anda ketahui tentang ChatGPTMari kita mulai dengan fakta bahwa ChatGPT dilatih berdasarkan LLM (tepatnya GPT 3.5). Biasanya, model bahasa mirip GPT ini dilatih menggunakan prediksi token berikutnya secara berurutan (dari urutan token w, model harus memprediksi token berikutnya w+1).
Model biasanya adalah transformator: terdiri dari encoder yang menerima input sebagai urutan dan decoder yang menghasilkan urutan output. Inti dari sistem ini adalah perhatian diri multi-head , yang memungkinkan model mempelajari informasi tentang konteks dan ketergantungan antara berbagai bagian urutan.
GPT-3 dilatih dengan prinsip ini (seperti model lain di Transformer Pra-pelatihan Generatif, GPT, keluarga), hanya dengan lebih banyak parameter dan lebih banyak data (data 570 GB dan parameter 176 B).
GPT3 memiliki kemampuan yang luar biasa, namun dalam hal menghasilkan teks, GPT3 sering kali berhalusinasi, kurang membantu, tidak dapat ditafsirkan, dan sering mengandung bias. Ini berarti bahwa model tersebut tidak selaras dengan apa yang kita harapkan dari sebuah model yang menghasilkan teks seperti manusia
Bagaimana cara kami mendapatkan ChatGPT dari GPT-3?
Proses ini disebut Pembelajaran Penguatan dari Umpan Balik Manusia (RHLF), dan dijelaskan oleh penulis dalam artikel ini:
Di sini saya akan menjelaskannya dengan sangat umum dan ringkas. Secara khusus, ini terdiri dari tiga langkah:
- Penyesuaian yang diawasi , adalah langkah pertama di mana LLM disesuaikan untuk mempelajari kebijakan yang diawasi (model dasar atau model SFT).
- Meniru preferensi manusia , pada langkah ini, anotator harus memberikan suara pada serangkaian output dari model dasar. Kumpulan data hasil seleksi ini digunakan untuk melatih model baru, model hadiah.
- Proximal Policy Optimization (PPO) , disini model reward digunakan untuk menyempurnakan model SFT dan mendapatkan model kebijakan
Penulis menggunakan model GPT-3.5 yang telah disempurnakan pada kode pemrograman, ini juga menjelaskan kemampuan kode ChatGPT.
Namun sekarang langkah ini tidak dapat diskalakan karena ini adalah pembelajaran yang diawasi. Bagaimanapun, model yang diperoleh belum selaras.
Anotator mencatat berbagai tanggapan dari model SFT, menurut seberapa diinginkan tanggapan tersebut (dari yang terburuk hingga yang terbaik). Kami sekarang memiliki kumpulan data yang jauh lebih besar (10 x) dan memberikan respons model SFT ke model baru, yang harus diberi peringkat sesuai urutan preferensi.
Selama tahap ini, model mempelajari kebijakan umum tentang data, dan bagaimana memaksimalkan imbalannya (ketika dia mampu memeringkat output dengan baik).
Jadi kami memiliki model SFT, dan kami menggunakan bobotnya untuk menginisialisasi model PPO baru. Model ini disesuaikan menggunakan Proximal Policy Optimization (PPO).
Dengan kata lain, kami menggunakan algoritma pembelajaran penguatan. Model PPO menerima perintah acak dan menanggapi perintah tersebut, setelah itu menerima penalti atau hadiah. Alih-alih Q-learning klasik , di sini kebijakan model diperbarui untuk setiap respons (model belajar langsung dari pengalaman, tentang kebijakan).
Selain itu, penulis menggunakan pinalti per-token Kullback-Leibler (KL) untuk membuat distribusi respons model serupa dengan model SFT. Ini karena kami ingin mengoptimalkan model dengan RL (karena model hadiah) tetapi kami tetap tidak ingin model tersebut melupakan apa yang dipelajarinya di langkah 1, yaitu petunjuk yang dikuratori oleh manusia.
Akhirnya, model dievaluasi pada tiga aspek: menolong, jujur, dan tidak menyakiti. Bagaimanapun, ini adalah aspek yang ingin kami optimalkan.
Catatan yang menarik adalah bahwa model ketika dievaluasi pada tolok ukur klasik (menjawab pertanyaan, meringkas, klasifikasi) memiliki kinerja yang lebih rendah daripada GPT-3. Ini adalah biaya penyelarasan.
Alpaca, hewan revolusioner
Seperti disebutkan ada kebutuhan nyata untuk mempelajari perilaku model ini dan ini hanya mungkin jika mereka open source. Di sisi lain, setiap LM dapat diselaraskan menggunakan RHLF.
RHLF jauh lebih murah dan intensif secara komputasi daripada melatih model dari awal. Di sisi lain, diperlukan adanya anotator (Anda memang membutuhkan kumpulan data dengan instruksi). Tetapi tidak bisakah langkah-langkah ini diotomatisasi?
Langkah pertama adalah Self-instruksikan , dalam artikel 2022 ini, penulis mengusulkan metode semi-otomatis. Faktanya, ide umumnya adalah memulai dengan satu set instruksi yang ditulis secara manual. Serangkaian instruksi ini berfungsi baik sebagai benih dan untuk memastikan bahwa sebagian besar tugas NLP tercakup.
Mulai saat itu dengan hanya 175 instruksi yang mendorong model untuk menghasilkan dataset (50k instruksi). Dataset kemudian digunakan untuk tuning instruksi.
Memiliki metode hanya membutuhkan model. ChatGPT didasarkan pada OpenAI GPT-3.5, tetapi tidak bisakah model yang lebih kecil digunakan? Apakah perlu lebih dari 100 parameter B?
Sebaliknya, para peneliti Stanford menggunakan LLaMA dan khususnya versi 7B dan instruksi 52 K yang dihasilkan mengikuti metode instruksi mandiri (instruksi dihasilkan menggunakan teks-davinci-003 OpenAI). Nilai sebenarnya dari Alpaca adalah bahwa penulis menyederhanakan saluran dan sangat mengurangi biaya dengan cara yang dapat direplikasi oleh laboratorium akademik mana pun (yang ada di repositori ini ). Seperti yang sebenarnya dinyatakan:
Untuk proses awal kami, menyempurnakan model 7B LLaMA membutuhkan waktu 3 jam pada 8 80GB A100, yang harganya kurang dari $100 pada sebagian besar penyedia komputasi awan. ( sumber )
Evaluasi model awal menunjukkan bahwa Alpaca hampir bagus di GPT-3.5 (dalam beberapa kasus bahkan melebihi itu). Ini mungkin tampak mengejutkan mengingat ini adalah model yang 20 kali lebih kecil. Di sisi lain, model berperilaku seperti GPT dalam rangkaian masukan (sehingga pelatihan bertindak sebagai semacam distilasi pengetahuan). Di sisi lain, model tersebut memiliki keterbatasan yang sama dengan model bahasa tipikal, menunjukkan halusinasi, toksisitas, dan stereotip.
Alpaca kemudian mendemonstrasikan bahwa setiap laboratorium akademik dapat melatih versi ChatGPT-nya sendiri (menggunakan LLaMA , yang hanya tersedia untuk penelitian). Di sisi lain, perusahaan mana pun yang menggunakan model lain dapat menyelaraskan dan membuat versi ChatGPT-nya sendiri. Selain itu, model serupa bahkan masih bisa digunakan di ponsel atau komputer Raspberry Pi .
Penulis merilis demo, tetapi ditutup setelah beberapa saat (sebagai masalah keamanan). Selain itu, meskipun seseorang harus mendaftar untuk menggunakan LLaMA (dan mengakses bobot model), beberapa hari kemudian model tersebut bocor secara online .
Apakah LLM berada di perbatasan revolusi?
Sepertinya sudah bertahun-tahun sejak ChatGPT dirilis tetapi ternyata hanya beberapa bulan. Hingga saat itu kami berbicara tentang hukum kekuatan, bagaimana model perlu memiliki lebih banyak parameter, lebih banyak data, dan lebih banyak pelatihan untuk memungkinkan munculnya perilaku yang muncul.
Ide-ide ini mengarah pada ide bahwa kita dapat mendefinisikan semacam hukum Moore untuk model bahasa. Dalam arti tertentu, dalam beberapa tahun terakhir kami telah melihat hampir hukum eksponensial (kami telah beralih dari parameter 1,5 B untuk GPT-2 menjadi 175 B untuk GPT-3).
Apa yang telah berubah?
Pukulan pertama terhadap doktrin ini bisa disebut, kedatangan Chinchilla . Model DeepMind menunjukkan bahwa ini bukan hanya masalah kuantitas data tetapi juga kualitas data. Kedua, LLaMA META menunjukkan bahwa model yang lebih kecil menggunakan kumpulan data yang dikuratori dapat mencapai hasil yang serupa jika tidak lebih baik daripada model besar.
Ini bukan hanya soal model. Data adalah masalah lainnya. Manusia tidak menghasilkan data yang cukup, mungkin tidak cukup data untuk mendukung GPT-5 apa pun sesuai dengan yang diwajibkan oleh undang-undang kelistrikan. Kedua, data tidak akan dapat diakses seperti sebelumnya.
Faktanya, Reddit (sumber data populer) telah mengumumkan bahwa pengembang AI harus membayar untuk mengakses kontennya. Bahkan Wikipedia memiliki pemikiran yang sama dan sekarang StackOverflow bergerak dengan cara yang sama, itu akan mengharuskan perusahaan membayar.
“Platform komunitas yang mendorong LLM benar-benar harus diberi kompensasi atas kontribusi mereka sehingga perusahaan seperti kami dapat menginvestasikan kembali ke komunitas kami untuk terus membuat mereka berkembang,” kata Chandrasekar dari Stack Overflow. “Kami sangat mendukung pendekatan Reddit.” ( sumber )
Dan bahkan jika seseorang berhasil mendapatkan datanya, mungkin tidak aman sama untuk sebuah perusahaan. Getty telah menggugat pembuat seni AI , tetapi para seniman itu sendiri juga telah mengajukan tuntutan hukum. Belum lagi, programmer telah melakukan hal yang sama dengan GitHub Copilot yang telah dilatih dengan kode di repositori. Selain itu, industri musik (terkenal sadar hukum) telah berbicara menentang musik yang dihasilkan AI dan mendesak layanan streaming. Bahkan jika perusahaan AI mengimbau penggunaan wajar , sama sekali tidak berarti bahwa mereka akan memiliki akses yang sama ke data di masa mendatang.
Ada faktor lain yang perlu dipertimbangkan, selain memperluas model dengan modalitas hetero, arsitektur transformator tidak berubah sejak 2017. Semua model bahasa didasarkan pada dogma bahwa hanya diperlukan perhatian diri multi-kepala dan tidak lebih. Sampai saat ini Sam Altman yakin bahwa skalabilitas arsitektur adalah kunci AGI. Tapi seperti yang dia katakan di acara MIT baru-baru ini , kunci AGI bukan di lebih banyak lapisan dan lebih banyak parameter.
Trafo memiliki batasan yang pasti dan ini tercermin dalam LM: halusinasi, toksisitas, dan bias. LLM modern tidak mampu berpikir kritis. Teknik seperti rantai pemikiran dan rekayasa cepat berfungsi sebagai tambalan untuk mencoba mengurangi masalah.
Selain itu, perhatian diri multi-kepala telah terbukti mampu memecahkan masalah yang diturunkan dari RNN dan memungkinkan perilaku muncul karena pembelajaran dalam konteks memiliki biaya kuadrat. Baru-baru ini, terlihat bahwa perhatian diri tidak dapat diganti dengan varian perhatian non-kuadrat tanpa kehilangan ekspresif. Namun, pekerjaan seperti Spike-GPT dan Hyena menunjukkan bahwa ada alternatif yang lebih murah yang tidak didasarkan pada perhatian diri dan memungkinkan hasil yang sebanding dalam konstruksi model bahasa.
Juga seperti yang ditunjukkan menyelaraskan model menggunakan RHLF memiliki biaya sehubungan dengan kinerja dalam berbagai tugas. Oleh karena itu, LM tidak akan menggantikan “model ahli” tetapi di masa mendatang mungkin akan menjadi orkestra model lain (seperti yang disarankan oleh HuggingGPT ).
Anda tidak dapat menghentikan Open-source dan mengapa selalu menang
apakah MidJourney atau DALL-E lebih baik? mungkin sulit untuk mengatakannya. Yang pasti adalah bahwa difusi yang stabil adalah teknologi yang menang. Difusi yang stabil oleh fakta bahwa itu telah menjadi sumber terbuka telah melahirkan begitu banyak aplikasi dan telah menjadi inspirasi bagi begitu banyak penelitian turunan (ControlNet, data sintetik untuk pencitraan medis, sejajar dengan otak).
Melalui kerja komunitas, Difusi stabil dalam berbagai versinya telah ditingkatkan dan variasinya tidak ada habisnya. Di sisi lain, tidak ada aplikasi DALL-E yang tidak memiliki pasangan berdasarkan difusi yang stabil (tetapi kebalikannya yang benar).
Lalu mengapa hal yang sama tidak terjadi pada model bahasa?
Sejauh ini masalah utamanya adalah melatih model bahasa merupakan usaha yang sulit. BLOOM BigScience memang merupakan konsorsium besar. Tetapi LLaMA telah menunjukkan bahwa model yang jauh lebih kecil dapat bersaing dengan monster dengan parameter lebih dari 100 B. Alpaca menunjukkan bahwa penyelarasan LM juga dapat dilakukan dengan sedikit biaya (total biaya kurang dari $1.000). Ini adalah elemen yang memungkinkan Simon Willson mengatakan “ Model bahasa besar mengalami momen Difusi Stabil. ”
Dari Alpaca hingga saat ini, banyak model open-source yang keluar . Stability AI tidak hanya merilis sejumlah model yang bersaing dengan raksasa dan dapat digunakan oleh semua orang, tetapi perusahaan lain juga telah merilis chatbot dan model. Hanya dalam beberapa minggu kita telah melihat: Dolly , HuggingChat , Koala, dan banyak lagi
Sekarang, beberapa model yang disebutkan adalah ya open-source namun untuk penggunaan non-komersial. meskipun mereka terbuka untuk penelitian akademik, ini berarti mereka tidak dapat dieksploitasi oleh perusahaan yang berkepentingan.
Ini hanya sebagian dari cerita. Faktanya, sudah ada model di HuggingFace yang dapat dengan mudah dilatih (model, dataset, dan pipeline) dan sampai saat ini ada beberapa model yang tersedia secara komersial (sampai saat ini lebih dari 10 ) :
Model sumber terbuka, data pribadi, dan aplikasi baru
Dario Amodei, CEO Anthropic mencari miliaran untuk mengalahkan OpenAI pada model dunia yang lebih besar. Namun, seluruh dunia bergerak ke arah lain. Misalnya, Bloomberg, yang bukan pemain terkenal di AI telah merilis LLM untuk keuangan (dilatih dengan 363 miliar token dari sumber keuangan).
Mengapa kita menginginkan LLM untuk keuangan? Mengapa tidak menggunakan ChatGPT saja?
Google MedPalm menunjukkan bahwa model generalis memiliki kinerja yang buruk dibandingkan dengan model yang disesuaikan dengan topik tertentu (dalam hal ini adalah kumpulan data artikel medis, ilmiah, dan sebagainya).
Menyempurnakan LLM jelas mahal. Apalagi jika kita berbicara tentang model dengan parameter ratusan miliar. Model yang lebih kecil jauh lebih murah, namun tetap tidak acuh tak acuh. LLaMA META dengan menjadi sumber terbuka sebagian telah memecahkan masalah ini. Faktanya, penulis LLaMA-Adapter menunjukkan bahwa hanya 1,2 juta parameter yang perlu ditambahkan untuk menyempurnakan (pelatihan memakan waktu kurang dari satu jam).
Meskipun benar bahwa LLaMA tidak tersedia secara komersial, ada banyak model lain yang tersedia (dari kecil hingga besar). Apa yang jelas akan memungkinkan aplikasi yang sukses di bidang tertentu adalah data.
Seperti yang ditemukan Samsung dengan tidak menyenangkan , menggunakan ChatGPT di dalam perusahaan merupakan risiko. Bahkan jika ChatGPT sekarang mengizinkan orang untuk menonaktifkan riwayat obrolan atau menolak menggunakan data mereka untuk melatih model, perusahaan akan menganggap berisiko untuk menyerahkan data mereka.
Banyak perusahaan akan menganggap mungkin untuk melatih chatbot mereka sendiri, model yang disesuaikan dengan data perusahaan mereka sendiri dan akan tetap internal. Lagi pula, teknologinya tersedia dan terjangkau bahkan untuk perusahaan dengan anggaran kecil. Selain itu, biaya rendah memungkinkan mereka untuk dapat menyempurnakan secara teratur saat data baru tiba atau jika model sumber terbuka yang lebih baik dirilis. Perusahaan yang sekarang memiliki data akan lebih enggan untuk memberikannya.
Selain itu, kami telah melihat betapa pentingnya memiliki data yang berkualitas. Data dalam kedokteran dan banyak bidang lainnya sulit dikumpulkan (mahal, diatur, langka) dan perusahaan yang memilikinya memiliki keuntungan. OpenAI dapat menghabiskan miliaran untuk mencoba mengumpulkan misalnya data medis, tetapi di luar biaya, perekrutan pasien membutuhkan waktu bertahun-tahun dan jaringan yang mapan (padahal belum). Perusahaan yang memiliki data sekarang akan lebih membatasi dalam membagikan data tersebut dengan model yang dapat menyimpan apa yang mereka ungkapkan.
Selain itu, karya seperti HuggingGPT dan AudioGPT menunjukkan bahwa LLM adalah antarmuka bagi pengguna untuk berinteraksi dengan model ahli (teks-ke-gambar, model audio, dan banyak lagi). Dalam beberapa tahun terakhir, banyak perusahaan telah mempekerjakan ilmuwan data dan telah mengembangkan model khusus yang berbeda untuk kebutuhan mereka (model perusahaan farmasi untuk penemuan dan desain obat, perusahaan manufaktur untuk desain komponen dan pemeliharaan prediktif, dan sebagainya). Dengan demikian, sekarang para ilmuwan data dapat menginstruksikan LLM untuk terhubung dengan model mereka yang telah dilatih sebelumnya dan memungkinkan pengguna non-teknis internal untuk berinteraksi dengan mereka melalui petunjuk tekstual.
Ada juga elemen lain yang mengarah ke skenario seperti itu, peraturan tentang AI generatif tidak jelas (misalnya, Google belum merilis model musik generatifnya karena takut akan pelanggaran hak cipta). Selain masalah hak cipta, pertanyaan tentang tanggung jawab tetap terbuka. Oleh karena itu, banyak perusahaan dapat menginternalisasi teknologi dan membuat asisten AI mereka sendiri dalam beberapa bulan mendatang.
Pemisahan pikiran
Dr. Hinton mengatakan bahwa ketika orang bertanya kepadanya bagaimana dia dapat bekerja pada teknologi yang berpotensi berbahaya, dia akan memparafrasekan Robert Oppenheimer, yang memimpin upaya AS untuk membuat bom atom: “Ketika Anda melihat sesuatu yang secara teknis manis, Anda Lanjutkan dan lakukan."
Dia tidak mengatakan itu lagi. ( sumber )
Hinton baru-baru ini menyatakan bahwa kita perlu membahas risiko kecerdasan buatan. Tapi kita tidak bisa mempelajari risiko ledakan bom jika berada di dalam kotak hitam. Itulah mengapa model menjadi Open source semakin mendesak.
LLM berada dalam fase perubahan. Membuat model yang semakin besar tidak berkelanjutan dan tidak memberikan keuntungan yang sama seperti dulu. Masa depan LLM berikutnya akan terletak pada data dan mungkin pada arsitektur baru yang tidak lagi didasarkan pada perhatian diri.
Namun, data tidak akan dapat diakses seperti dulu; perusahaan mulai menghentikan akses ke sana. Microsoft mengatakan bersedia mengizinkan perusahaan untuk membuat versi ChatGPT mereka sendiri. Tetapi perusahaan akan skeptis.
Beberapa perusahaan mengkhawatirkan bisnisnya (tampaknya ChatGPT telah mengklaim korban pertamanya ), dan yang lainnya takut akan kebocoran data. Atau sederhananya teknologi tersebut akhirnya dapat dijangkau oleh hampir semua perusahaan, dan masing-masing akan membuat chatbot yang disesuaikan dengan kebutuhannya.
Sebagai kesimpulan, kita dapat melihat tren yang berbeda (yang sebagian sudah terjadi):
- Ketakutan yang meningkat terhadap AI mendorong model open-source
- Ini mengarah pada peningkatan publikasi model LLM sumber terbuka. Yang pada gilirannya, ini menunjukkan bahwa Anda dapat menggunakan model yang lebih kecil dan mengurangi biaya penyelarasannya.
- Model LLM merupakan ancaman bagi bisnis yang berbeda dan perusahaan khawatir bahwa model ini dapat mengancam bisnis mereka. Dengan demikian, berbagai perusahaan mengurangi akses ke data mereka atau meminta pembayaran dari perusahaan AI.
- Pengurangan biaya, ketakutan akan persaingan, relevansi baru untuk data hak milik, dan ketersediaan baru model sumber terbuka memimpin perusahaan untuk melatih chatbot mereka sendiri pada data mereka sendiri menggunakan model sumber terbuka.
Jika Anda menemukan ini menarik:
Anda dapat mencari artikel saya yang lain, Anda juga dapat berlangganan untuk mendapatkan pemberitahuan ketika saya menerbitkan artikel, Anda dapat menjadi anggota Medium untuk mengakses semua ceritanya (tautan afiliasi platform tempat saya mendapatkan penghasilan kecil tanpa biaya dari Anda) dan Anda juga dapat menghubungkan atau menghubungi saya di LinkedIn .
Ini tautan ke repositori GitHub saya, tempat saya berencana untuk mengumpulkan kode dan banyak sumber daya yang terkait dengan pembelajaran mesin, kecerdasan buatan, dan banyak lagi.
atau Anda mungkin tertarik dengan salah satu artikel terbaru saya: