LLM'lerin Sonsuz Babil Kitaplığı

May 09 2023
Açık kaynak, veri ve dikkat: LLM'lerin geleceği nasıl değişecek?
“'Yapay zekanın vaftiz babası
OpenAI DALL-E kullanan yazar tarafından görüntü

New York Times'ın başlığı “' Yapay Zekanın Babası' Google'dan Ayrılıyor ve Tehlikeye Karşı Uyarıyor ”. Açık kaynak değillerse LM'lerin insanlık için bir tehdit olup olmadığını nasıl bilebiliriz? Aslında ne oluyor? Dil modelleri dünyası nasıl da Değişimin eşiğinde.

Açık kaynak haçlı seferi çağrısı

Unsplash.com'da Nik Shuliahin tarafından görüntü

Kısa bir süre önce GPT-4 halka açıklandı ve sanırım hepimiz teknik raporu okumaya gittik ve hayal kırıklığına uğradık.

Teknik rapor GPT-4. yazar tarafından ekran görüntüsü, resim kaynağı: burada

Son zamanlarda Nature şu konuyu da ele aldı : açık kaynak olmak için büyük dil modellerine (LLM'ler) ihtiyacımız var .

LLM'lerin çoğu tescillidir, yayınlanmamıştır ve hangi veriler üzerinde eğitildiklerini bilmiyoruz. Bu, özellikle önyargı ile ilgili olarak, sınırlamalar için denetlenmelerine ve test edilmelerine izin vermez.

Ayrıca, ChatGPT ile bilgi ve kod paylaşımı, Samsung tarafından keşfedildiği üzere sızıntı riski taşıyor . Bazı eyaletlerin bu şirketler tarafından veri depolamanın GDPR'yi ihlal ettiğine inandığından bahsetmiyorum bile .

Bu nedenle LLM'lerin açık kaynaklı olmasına ihtiyacımız var ve BLOOM konsorsiyumu (akademik bir konsorsiyum tarafından geliştirilen 170 B parametreli LLM) gibi yeni LLM'lerin geliştirilmesine daha fazla yatırım yapılmalıdır .

Son aylarda, hem bu LLM'lerin gerçek yetenekleri hem de yapay zekanın riskleri hakkında sansasyonel bir hava oluştu. Araştırmacılar modelleri test edemezlerse, yeteneklerini gerçekten değerlendiremezler ve aynı şey riskleri analiz etmek için de geçerlidir. Ek olarak, açık kaynak modeli çok daha şeffaftır ve topluluk da sorunlu davranışın kaynağını belirlemeye çalışabilir.

Üstelik bu akademi tarafından bir talep değil, kurumlar AI tarafından alarma geçiriliyor. Avrupa Birliği bugünlerde LLM'lerin geleceğini yeniden şekillendirebilecek AB AI yasasını tartışıyor. Aynı zamanda Beyaz Saray, teknoloji CEO'sunu AI riskini sınırlamaya zorluyor . Bu nedenle, açık kaynak aslında dil modelleri için gelecekteki bir gereklilik olabilir.

ChatGPT neden bu kadar iyi?

Hepimiz ChatGPT'yi ve nasıl devrim niteliğinde göründüğünü duyduk. Ama nasıl eğitildi?

ChatGPT hakkında bilmeniz gereken her şey hariç her şey

ChatGPT'nin bir LLM (kesin olarak GPT 3.5) temelinde eğitildiği gerçeğiyle başlayalım. Tipik olarak, bu GPT benzeri dil modelleri , bir sıradaki bir sonraki belirtecin tahmini kullanılarak eğitilir (bir w belirteç dizisinden, model bir sonraki w+1 belirtecini tahmin etmelidir).

Model tipik olarak bir dönüştürücüdür: girişi bir dizi olarak alan bir kodlayıcıdan ve çıkış dizisini üreten bir kod çözücüden oluşur. Bu sistemin kalbi , modelin dizinin çeşitli bölümleri arasındaki bağlam ve bağımlılıklar hakkında bilgi öğrenmesini sağlayan çok başlı öz-dikkattir .

resim kaynağı: burada

GPT-3, bu prensiple eğitildi (Üretken Ön Eğitim Transformatörü, GPT, ailesindeki diğer modeller gibi), yalnızca çok daha fazla parametre ve çok daha fazla veriyle (570 GB veri ve 176 B parametre).

GPT3 muazzam yeteneklere sahiptir, ancak metin oluşturmaya gelince genellikle halüsinasyon görür, yararlılıktan yoksundur, yorumlanamaz ve çoğu zaman önyargılar içerir. Bu, modelin insan gibi metin üreten bir modelden beklediğimizle uyumlu olmadığı anlamına gelir.

ChatGPT'yi GPT-3'ten nasıl elde ederiz?

Süreç, İnsan Geri Bildiriminden Güçlendirmeli Öğrenim (RHLF) olarak adlandırılır ve yazarlar tarafından bu makalede açıklanmıştır:

Burada çok genel ve öz bir şekilde anlatacağım. Spesifik olarak, üç adımdan oluşur:

  1. Denetimli ince ayar , LLM'nin denetimli bir politikayı (temel model veya SFT modeli) öğrenmek için ince ayar yaptığı ilk adımdır.
  2. İnsan tercihlerini taklit edin , bu adımda, anlatıcıların temel modelden bir dizi çıktıya oy vermesi gerekir. Bu seçilmiş veri seti, yeni bir model olan ödül modelini eğitmek için kullanılır.
  3. Yakın Politika Optimizasyonu (PPO) , burada ödül modeli, SFT modelinde ince ayar yapmak ve politika modelini elde etmek için kullanılır.
  4. resim kaynağı: burada

Yazarlar, programlama kodunda zaten ince ayar yapılmış bir model olarak GPT-3.5 kullandılar, bu aynı zamanda ChatGPT'nin kod yeteneklerini de açıklıyor.

Ancak bu adım, denetimli öğrenme olduğu için tam olarak ölçeklenebilir değildir. Her durumda, bu şekilde elde edilen model henüz uyumlu değildir.

resim kaynağı: burada

Açıklayıcılar, böyle bir yanıtın ne kadar arzu edilir olduğuna göre (en kötüden en iyiye doğru) SFT modelinden bir dizi yanıt not ettiler. Artık çok daha büyük bir veri setimiz var (10 x) ve yeni modele, tercih sırasına göre sıralanması gereken SFT model yanıtları sağlıyoruz.

Bu aşamada model, veriler hakkında genel bir politika ve (çıktıları iyi bir şekilde sıralayabildiğinde) ödülünün nasıl maksimize edileceğini öğreniyor.

resim kaynağı: burada

SFT modelimiz var ve onun ağırlıklarını yeni bir PPO modelini başlatmak için kullanıyoruz. Bu model, Proximal Policy Optimization (PPO) kullanılarak ince ayarlanmıştır.

Başka bir deyişle, pekiştirmeli öğrenme algoritması kullanıyoruz. PPO modeli rastgele bir istem alır ve istemi yanıtlar, ardından bir ceza veya ödül alır. Klasik Q-learning yerine , burada model politikası her yanıta göre güncellenir (model doğrudan deneyimden, politikaya göre öğrenir).

Ek olarak yazarlar, modelin yanıt dağılımını SFT modeline benzer hale getirmek için belirteç başına Kullback-Leibler (KL) cezasını kullanır. Bunun nedeni, modeli RL ile optimize etmek istememizdir (ödül modelinden dolayı), ancak yine de 1. adımda öğrendiklerini, yani insanlar tarafından küratörlüğünü yapılan bilgi istemlerini unutmasını istemiyoruz.

Son olarak, model üç açıdan değerlendirilir: yararlılık, doğruluk ve zararsızlık. Ne de olsa optimize etmek istediğimiz yönler tam olarak bunlardı.

İlginç bir not, modelin klasik kıyaslamalarda (soru cevaplama, özetleme, sınıflandırma) değerlendirildiğinde GPT-3'ten daha düşük performans göstermesidir. Bu uyum maliyetidir.

Alpaka, devrim niteliğinde bir hayvan

Unsplash'ta Dong Cheng tarafından görüntü

Belirtildiği gibi, bu modellerin davranışını incelemek için gerçek bir ihtiyaç vardır ve bu ancak açık kaynak olmaları halinde mümkündür. Öte yandan, herhangi bir LM, RHLF kullanılarak hizalanabilir.

RHLF, bir modeli sıfırdan eğitmekten çok daha ucuzdur ve hesaplama açısından yoğundur. Öte yandan, açıklayıcıların olmasını gerektirir (gerçekten de talimatlar içeren bir veri setine ihtiyacınız vardır). Ancak bu adımlar otomatikleştirilemez mi?

İlk adım Kendi kendine talimattı , bu 2022 makalesinde yazarlar yarı otomatik bir yöntem öneriyor. Aslında, genel fikir, manuel olarak yazılmış bir dizi talimatla başlamaktır. Bu talimat seti, hem tohum işlevi görür hem de çoğu NLP görevinin kapsandığından emin olur .

Daha sonra yalnızca 175 komutla başlayarak, modelin veri setini (50k komut) oluşturması istendi. Veri seti daha sonra komut ayarı için kullanıldı.

SELF-INSTRUCT'a üst düzey bir genel bakış. resim kaynağı: burada

Bir yönteme sahip olmak için yalnızca bir model gerekiyordu. ChatGPT, OpenAI GPT-3.5 tabanlıdır, ancak daha küçük bir model kullanılamaz mı? Mutlaka 100 B'den fazla parametreye mi ihtiyacı var?

Bunun yerine, Stanford araştırmacıları LLaMA'yı ve özellikle kendi kendine talimat yöntemini (OpenAI'nin text-davinci-003 kullanılarak oluşturulan talimatlar) takip ederek oluşturulan 7B versiyonunu ve 52 K talimatlarını kullandılar. Alpaca'nın gerçek değeri, yazarların boru hattını basitleştirmesi ve maliyetleri herhangi bir akademik laboratuvarın ( bu depoda bulunan) kopyalayabileceği şekilde büyük ölçüde düşürmesidir . Aslında belirtildiği gibi:

İlk çalıştırmamızda, bir 7B LLaMA modelinin ince ayarının yapılması 8 adet 80 GB A100'de 3 saat sürdü ve bu, çoğu bulut bilgi işlem sağlayıcısında 100 dolardan daha ucuza mal oluyor. ( kaynak )

İlk model değerlendirmesi, Alpaca'nın GPT-3.5'te neredeyse iyi olduğunu (hatta bazı durumlarda onu aştığını) gösterdi. Bunun 20 kat daha küçük bir model olduğu düşünüldüğünde, bu şaşırtıcı görünebilir. Öte yandan, model bir dizi girdide GPT gibi davrandı (böylece eğitim bir tür bilgi damıtma işlevi görür). Öte yandan, model, halüsinasyonlar, toksisite ve stereotipler gösteren tipik dil modelleriyle aynı sınırlamalara sahiptir.

Alpaca daha sonra herhangi bir akademik laboratuvarın kendi ChatGPT sürümünü ( yalnızca araştırma için mevcut olan LLaMA kullanarak) eğitebileceğini gösterir. Öte yandan, başka bir model kullanan herhangi bir şirket hizalayabilir ve kendi ChatGPT sürümünü oluşturabilir. Ek olarak, benzer modeller cep telefonlarında veya Raspberry Pi bilgisayarlarında bile kurulabilir .

Yazarlar bir demo yayınladı, ancak kısa bir süre sonra (güvenlik nedeniyle) kapatıldı . Ayrıca, LLaMA'yı kullanmak (ve model ağırlıklarına erişmek) için başvurmak gerekmesine rağmen, birkaç gün sonra model çevrimiçi olarak sızdırıldı .

LLM'ler bir devrimin sınırında mı?

resim kaynağı: burada

ChatGPT'nin piyasaya sürülmesinden bu yana yıllar geçmiş gibi görünüyor ama bunun yerine sadece birkaç aydı. O zamana kadar güç yasasından, ortaya çıkan davranışların kökenine izin vermek için bir modelin daha fazla parametreye, daha fazla veriye ve daha fazla eğitime sahip olmasının nasıl gerekli olduğundan bahsediyorduk.

Bu fikirler, dil modelleri için bir tür Moore yasası tanımlayabileceğimiz fikrine yol açtı . Bir anlamda, son yıllarda neredeyse üstel bir yasa gördük (GPT-2 için 1,5 B parametresinden GPT-3 için 175 B'ye çıktık).

Ne değişti?

Bu doktrine ilk darbe, Chinchilla'nın gelişi olarak adlandırılabilir . DeepMind'ın modeli, sorunun yalnızca veri miktarı değil, aynı zamanda veri kalitesi meselesi olduğunu da gösterdi. İkincisi, META'nın LLaMA'sı, derlenmiş bir veri seti kullanan daha küçük modellerin bile büyük modellerden daha iyi olmasa da benzer sonuçlar elde edebildiğini gösterdi.

Bu sadece bir model meselesi değil. Veriler diğer konu. İnsanlar, güç yasasının gerektirdiği durumlarda herhangi bir GPT-5'i desteklemek için yeterli veri, muhtemelen yeterli veri üretmezler. İkincisi, verilere eskisi kadar erişilebilir olmayacak.

Aslında, Reddit (popüler bir veri kaynağı), AI geliştiricilerinin içeriğine erişmek için ödeme yapmak zorunda kalacağını duyurdu . Wikipedia bile aynı şeyi düşündü ve şimdi StackOverflow da aynı şekilde ilerliyor, şirketlerin ödeme yapmasını gerektirecek.

Stack Overflow'tan Chandrasekar, "LLM'leri besleyen topluluk platformlarının katkıları kesinlikle tazmin edilmelidir, böylece bizim gibi şirketler topluluklarımıza yeniden yatırım yaparak gelişmelerini sağlamaya devam edebilirler," diyor. "Reddit'in yaklaşımını çok destekliyoruz." ( kaynak )

Ve biri verileri almayı başarsa bile, bir şirket için aynı şekilde güvenli olmayabilir. Getty, bir yapay zeka sanat üretecine dava açtı , ancak sanatçıların kendileri de dava açtı. Programcıların depolarda kodla eğitilmiş GitHub Copilot ile aynı şeyi yaptıklarından bahsetmiyorum bile . Buna ek olarak, müzik endüstrisi (kötü bir şöhrete sahip) yapay zeka tarafından üretilen müziğe karşı konuştu ve akış hizmetlerine karşı çıktı. Yapay zeka şirketleri bile adil kullanıma itiraz etse bile, gelecekte verilere aynı erişime sahip olacakları kesin değildir.

Modellerin hetero modalite ile genişletilmesi dışında dikkate alınması gereken başka bir faktör daha var, trafo mimarisi 2017'den beri değişmedi. Yakın zamana kadar Sam Altman, mimarinin ölçeklenebilirliğinin AGI'nin anahtarı olduğuna ikna olmuştu. Ancak yakın tarihli bir MIT etkinliğinde söylediği gibi , AGI'nin anahtarı daha fazla katman ve daha fazla parametrede değil.

resim kaynağı: burada

Transformatörün kesin sınırlamaları vardır ve bu LM'lere yansır: halüsinasyonlar, toksisite ve önyargı. Modern LLM'ler eleştirel düşünme yeteneğine sahip değildir. Düşünce zinciri ve hızlı mühendislik gibi teknikler, sorunu hafifletmeye çalışmak için yamalar görevi görür.

Ayrıca, çok başlı öz-dikkatin, RNN'den türetilen sorunları çözebildiği ve bağlam içi öğrenmenin ikinci dereceden bir maliyeti olduğu için davranışların ortaya çıkmasına izin verdiği gösterilmiştir. Son zamanlarda, ifade gücünü kaybetmeden kişinin kendine dikkati ikinci dereceden olmayan dikkat varyantlarıyla değiştiremeyeceği görülmüştür. Bununla birlikte, Spike-GPT ve Hyena gibi çalışmalar, kendine dikkat etmeye dayalı olmayan daha ucuz alternatiflerin var olduğunu ve dil modellerinin oluşturulmasında karşılaştırılabilir sonuçlara izin verdiğini göstermektedir.

Ayrıca gösterildiği gibi, RHLF kullanarak bir modeli hizalamanın çeşitli görevlerdeki performansa göre bir maliyeti vardır. Bu nedenle, LM'ler "uzman modelin" yerini almayacak, ancak gelecekte belki de diğer modellerin düzenleyicileri olacaktır (örneğin, HuggingGPT tarafından önerildiği gibi ).

Açık kaynağı durduramazsınız ve neden her zaman kazanıyor?

Steven Lelham'ın fotoğrafı

MidJourney mi yoksa DALL-E mi daha iyi? söylemek zor belki. Kesin olan, istikrarlı difüzyonun kazanan teknoloji olduğudur. Açık kaynak olması nedeniyle istikrarlı yayılma, pek çok uygulamanın ortaya çıkmasına neden oldu ve pek çok türev araştırmasına ilham kaynağı oldu (ControlNet, tıbbi görüntüleme için sentetik veriler, beyinle paralellikler).

Topluluğun çalışmaları sayesinde, çeşitli versiyonlarında Kararlı difüzyon iyileştirildi ve sonsuz çeşitlilik var. Öte yandan, kararlı difüzyona dayalı bir karşılığı olmayan DALL-E uygulaması yoktur (ancak tersi doğrudur).

O zaman neden aynı şey dil modelleri için olmadı?

Şimdiye kadar asıl sorun, bir dil modeli eğitmenin yasaklayıcı bir girişim olmasıdır. BigScience'ın BLOOM'u gerçekten de büyük bir konsorsiyum. Ancak LLaMA, çok daha küçük modellerin 100 B'den fazla parametreye sahip canavarlarla rekabet edebildiğini göstermiştir. Alpaca, LM hizalamasının çok az bir maliyetle (toplam maliyet 1.000$'dan daha az) yapılabileceğini gösterdi. Bunlar, Simon Willson'ın “ Büyük dil modelleri Stabil Dağılım anlarını yaşıyor” demesine izin veren unsurlardır . ”

Alpaca'dan günümüze bir çok açık kaynak kodlu model çıkmıştır . Stability AI yalnızca devlerle rekabet eden ve herkes tarafından kullanılabilen bir dizi model yayınlamakla kalmadı, aynı zamanda diğer şirketler de sohbet botları ve modeller yayınladı. Sadece birkaç hafta içinde gördük: Dolly , HuggingChat , Koala ve çok daha fazlası

yazar tarafından ekran görüntüleri. resim kaynağı: burada

Şimdi, bahsedilen modellerden bazıları evet açık kaynaklıdır ancak ticari olmayan kullanım içindir. akademik araştırmaya açık olsalar da bu, ilgili şirketler tarafından istismar edilemeyecekleri anlamına gelir.

Bu hikayenin sadece bir kısmı. Aslında, HuggingFace'te kolayca eğitilebilen modeller (modeller, veri kümeleri ve ardışık düzenler) zaten vardır ve bugüne kadar ticari olarak temin edilebilen birkaç model vardır (bugüne kadar 10'dan fazla ) :

yazar tarafından ekran görüntüsü. kaynak: burada

Açık kaynak modeli, özel veriler ve yeni uygulamalar

Unsplash'ta Muhammed Zaqy Al Fattah tarafından görüntü

Anthropic CEO'su Dario Amodei, dünyanın daha büyük modelinde OpenAI'yi yenmek için milyarlar arıyor . Ancak, dünyanın geri kalanı başka bir yöne doğru ilerliyor. Örneğin, AI'da bilinen bir oyuncu olmayan Bloomberg, finans için bir LLM yayınladı (finans kaynaklarından 363 milyar token üzerinde eğitim aldı).

Neden finans için bir LLM istiyoruz? Neden sadece ChatGPT kullanmıyorsunuz?

Google MedPalm, genel bir modelin, belirli bir konuda ince ayar yapılmış bir modele kıyasla düşük performansa sahip olduğunu gösterdi (bu durumda tıbbi, bilimsel ve benzeri makalelerin veri kümeleriydi).

Bir LLM'de ince ayar yapmak açıkça pahalıdır. Özellikle yüz milyarlarca parametreye sahip modellerden bahsediyorsak. Daha küçük modeller çok daha ucuzdur, ancak yine de kayıtsız değildir. META'nın açık kaynaklı LLaMA'sı bu sorunu kısmen çözmüştür. Aslında, LLaMA-Adapter'ın yazarları, ince ayar yapmak için yalnızca 1,2 milyon parametrenin eklenmesi gerektiğini gösterdi (eğitim bir saatten az sürdü).

LLaMA'nın ticari olarak bulunmadığı doğru olsa da, (küçükten büyüğe) birçok başka model mevcuttur. Belli bir alanda başarılı bir uygulamayı mümkün kılacak olan şey veridir.

Samsung'un tatsız bir şekilde keşfettiği gibi ChatGPT'yi bir şirket içinde kullanmak bir risktir. ChatGPT artık insanların sohbet geçmişini devre dışı bırakmasına veya modeli eğitmek için verilerini kullanmayı reddetmesine izin verse bile , şirketler verilerini kabul etmenin riskli olduğunu düşünecektir.

Pek çok şirket, kendi kurumsal verileri üzerinde ince ayar yapılmış ve dahili kalacak bir model olan kendi chatbot'larını eğitmenin mümkün olduğunu düşünecektir. Sonuçta, teknoloji küçük bütçeli şirketler için bile mevcut ve uygun fiyatlı. Ayrıca, düşük maliyet, yeni veriler geldikçe veya daha iyi bir açık kaynak modeli piyasaya sürüldüğünde düzenli olarak ince ayar yapabilmelerine olanak tanır. Artık verilere sahip olan şirketler, bunu vermek konusunda çok daha isteksiz olacak.

Ayrıca kaliteli veriye sahip olmanın ne kadar önemli olduğunu görmüş olduk. Tıpta ve diğer birçok alanda veri toplamak zordur (pahalı, düzenlenmiş, kıt) ve bunlara sahip olan şirketlerin bir avantajı vardır. OpenAI, örneğin tıbbi verileri toplamak için milyarlar harcayabilir, ancak maliyetin ötesinde, hasta alımı yıllar ve yerleşik bir ağ gerektirir (ki bunda yoktur). Artık verilere sahip olan şirketler, maruz kaldıklarını depolayabilen modellerle bu verileri paylaşma konusunda daha kısıtlayıcı olacak.

Unsplash'ta Petrebels tarafından görüntü

Ek olarak, HuggingGPT ve AudioGPT gibi çalışmalar, LLM'nin, kullanıcının uzman modellerle (metinden görüntüye, sesli model ve çok daha fazlası) etkileşime girmesi için bir arayüz olduğunu gösteriyor. Son yıllarda, birçok şirket veri bilimcileri işe aldı ve ihtiyaçları için farklı özel modeller geliştirdi (ilaç şirketlerinin ilaç keşfi ve tasarımına yönelik modelleri, bileşen tasarımı ve kestirimci bakıma yönelik imalat şirketleri vb.). Böylece, artık veri bilimcileri, LLM'lere önceden eğitilmiş modelleriyle bağlantı kurma talimatı verebilir ve teknik olmayan dahili kullanıcıların metinsel komutlar aracılığıyla onlarla etkileşime girmesine izin verebilir.

Böyle bir senaryoya işaret eden başka bir unsur daha var, üretken AI ile ilgili düzenlemeler belirsiz (örneğin, Google, telif hakkı ihlali korkusuyla üretken müzik modelini yayınlamadı). Telif hakkı sorununa ek olarak, sorumlulukla ilgili sorular yanıtsız kalır. Dolayısıyla birçok şirket önümüzdeki aylarda teknolojiyi içselleştirip kendi yapay zeka asistanını oluşturabilir.

Ayrılık düşünceleri

Unsplash.com'da Saif71.com tarafından görüntü

Hinton, insanlar kendisine potansiyel olarak tehlikeli bir teknoloji üzerinde nasıl çalışabileceğini sorduklarında, ABD'nin atom bombasını yapma çabalarına öncülük eden Robert Oppenheimer'ı şöyle açıkladığını söyledi: "Teknik olarak tatlı bir şey gördüğünüzde, devam et ve yap.

Artık bunu söylemiyor. ( kaynak )

Hinton geçtiğimiz günlerde yapay zekanın risklerini tartışmamız gerektiğini belirtmişti. Ancak bir kara kutunun içindeyse bombanın patlama riskini inceleyemeyiz. Bu nedenle modellerin Açık kaynak olması giderek daha acil hale geliyor.

LLM'ler zaten bir değişim aşamasındadır. Daha büyük ve daha büyük modeller oluşturmak sürdürülemez ve eskisi kadar avantaj sağlamaz. Bir sonraki LLM'lerin geleceği, verilerde ve muhtemelen artık kişisel ilgiye dayalı olmayan yeni mimarilerde yatacaktır.

Ancak, veriler eskisi kadar erişilebilir olmayacak; şirketler buna erişimi durdurmaya başlıyor. Microsoft, şirketlerin kendi ChatGPT sürümlerini oluşturmalarına izin vermeye istekli olduğunu söylüyor . Ancak şirketler şüpheci olacak.

Bazı şirketler işleri için endişeleniyor (görünüşe göre ChatGPT ilk kurbanını çoktan almış ) ve diğerleri veri sızıntısından korkuyor. Ya da basitçe söylemek gerekirse, teknoloji nihayet neredeyse tüm şirketlerin erişimine açıldı ve her biri kendi ihtiyaçlarına göre uyarlanmış bir sohbet robotu oluşturacak.

Sonuç olarak, farklı eğilimler görebiliriz (kısmen halihazırda gerçekleşmektedir):

  • Artan bir AI korkusu, açık kaynaklı modeller için baskı yapıyor
  • Bu, açık kaynaklı LLM modellerinin artan bir şekilde yayınlanmasına yol açmaktadır. Bu da, daha küçük modelleri kullanabileceğinizi ve hizalama maliyetlerini azaltabileceğinizi gösteriyor.
  • LLM modelleri, farklı işletmeler için bir tehdittir ve şirketler bu modellerin işlerini tehdit edebileceğinden korkar. Bu nedenle, farklı şirketler verilerine erişimi azaltıyor veya AI şirketlerinden ödeme talep ediyor.
  • Maliyetteki düşüş, rekabet korkusu, özel veriler için yeni bir ilgi ve açık kaynak modellerinin yeni mevcudiyeti, şirketleri açık kaynak modelleri kullanarak kendi verileri üzerinde kendi chatbot'larını eğitmeye yönlendiriyor.

Bunu ilginç bulduysanız:

Diğer yazılarıma bakabilir, yazı yayınladığımda haberdar olmak için üye olabilir, tüm hikayelerine (size küçük gelirler sağladığım platformun üyelik linklerinden) ulaşmak için Medium üyesi olabilirsiniz ve siz ayrıca bana LinkedIn'den bağlanabilir veya bana ulaşabilir .

Makine öğrenimi, yapay zeka ve daha fazlası ile ilgili kod ve birçok kaynağı toplamayı planladığım GitHub depomun bağlantısı burada.

veya son makalelerimden biriyle ilgilenebilirsiniz: