Kaçırmamanız Gereken 10 Konu ve 50 Bildiri
2672 ana bildiri, 63 çalıştay, 7 davetli konuşma ve son olarak yine yüz yüze. Dil Modelleri, Beyinden İlham Alan Araştırma, Difüzyon Modelleri, Grafik Sinir Ağları… NeurIPS, birinci sınıf yapay zeka araştırma içgörüleriyle birlikte gelir ve bu kılavuz, dikkatinizi nereye yönelteceğinizi bulmanıza yardımcı olacaktır.
Nöral Bilgi İşleme Sistemleri Konferansı'nın (NeurIPS) 36. edisyonu başlamak üzere ve oraya gideceğimiz için ne kadar heyecanlı olduğumuzu anlatamayız. Konferans için bir gelenek haline geldiği için, izleyicilerimizin 2672 makale, 163 Veri Kümesi ve Kıyaslama izleme raporu ve 43'ü ABD'de olmak üzere 63 atölyede 700'den fazla atölye belgesinden oluşan büyüleyici ancak ezici bir dizide gezinmesine yardımcı olmak istiyoruz. kişi.
Bu yıl, içeriği, içerdiklerine ilişkin kısa bir açıklama ve her biri için kaçırmamanız gereken 5 makalelik bir seçki ile birlikte, 10 önemli konu alanına ayırdık. Belirli bir makalenin makul olmayan bir şekilde ilginizi çektiğini fark ettiyseniz, Bu makale gibi daha fazlası düğmesini tıklayın ve NeurIPS'de konuyla ilgili makalelerin bir listesini bulacaksınız.
1. Dil Modelleri ve Bilgi İstemi
Muhtemelen AI'da en çok aranan araştırma alanı - özellikle 2020'de GPT-3'ün piyasaya sürülmesinden bu yana - konferansta büyük miktarda ilgi görüyor. Google, DeepMind, OpenAI, Meta, Stanford gibi pek çok gişe rekorları kıran yayınlarla… tüm büyük bilgi işlem uzmanları.
Düz önceden eğitilmiş otoregresif LM'lerden daha fazla performans çıkaran Düşünce Zinciri teknikleri (veya püf noktaları?) gibi "basit yönlendirme" teknikleri üzerine çok sayıda çalışma bulmayı bekleyin. Multimodalite de bu yıl ön plana çıkıyor, DeepMind'in Flamingo'su (vizyon + dil) grubun en popüleri, Google'ın Minerva'sı LM'lerin doğru verilerle önceden eğitildiklerinde matematikte ne kadar iyi olabileceğini gösteriyor ve InstructGPT, insan geri bildirimi ve Güçlendirmeli Öğrenimin nasıl olabileceğini gösteriyor. büyük LM'lerde ince ayar yapmak için kullanılabilir.
1️⃣ Büyük Dil Modellerinde Akıl Yürütmeyi Sağlayan Düşünce Zinciri
İncelemeyi Aç | Sanal Afiş | Bu gazete gibi daha fazlası
LM'lerden doğrudan cevaplar yerine muhakeme adımları çıktısını almalarını istemek, performansı büyük ölçüde artırır. Ayrıca bakınız STaR gibi takip çalışmaları .
2️⃣ Flamingo: Birkaç Adımda Öğrenme için Görsel Dil Modeli
İncelemeyi Aç | Sanal Afiş | Bu gazete gibi daha fazlası
DeepMind, görme + dil üzerine önceden eğitilmiş "basit" tek bir model sunar, çeşitli çok modlu görevlerde son teknolojiyi ayarlar
3️⃣ Sayısal Akıl Yürütme Problemlerini Dil Modelleri ile Çözme (Minerva)
İncelemeyi Aç | Sanal Afiş | Bu gazete gibi daha fazlası
Matematiksel verilerle eğitilmiş büyük bir LM, MATH veri kümesindeki son teknoloji performans da dahil olmak üzere nicel muhakeme görevlerinde güçlü performans elde edebilir.
4️⃣ Veri Dağılımı Özellikleri, Transformers'ta Ortaya Çıkan Bağlam İçi Öğrenmeyi Sağlar
İncelemeyi Aç | Sanal Afiş | Bu gazete gibi daha fazlası
Büyük ölçekli ön eğitimin hangi yönleri bağlam içi öğrenmeyi destekler? Eğitim verisi dağıtımı , patlamaya ve çok sayıda nadiren meydana gelen vakaya ihtiyaç duyar .
5️⃣ İnsan geri bildirimiyle talimatları takip etmek için dil modelleri eğitimi (InstructGPT)
İncelemeyi Aç | Sanal Afiş | Bu gazete gibi daha fazlası
OpenAI, insan etiketleyicilerden toplanan verileri kullanarak GPT-3'te ince ayar yapmak için Döngüdeki İnsanlardan Takviyeli Öğrenmeyi (RLHF) kullanır. InstructGPT adı verilen ortaya çıkan model, bir dizi NLP görevinde GPT-3'ten daha iyi performans gösterir.
2. Difüzyon Modelleri
2022'de şehirdeki en havalı çocuk tacını hak eden herhangi bir şey varsa, bu, çoğu Difüzyon Modelleri tarafından desteklenen metinden görüntüye oluşturma modelleri olmalıdır: OpenAI'nin DALL·E 2'si, Google'ın Imagen'i veya Stable difüzyonu.
Olgunluğun erken bir işareti olarak - ve popüler olmalarından bu yana ancak 2 yıl! — modelleme tekniği artık 2B sabit görüntü oluşturma alanının ötesine yayıldı ve diğerlerinin yanı sıra 3B sahne sentezi, video oluşturma ve moleküler yerleştirmeye uygulanıyor. 2017'de Transformers'ta gördüğümüz gibi, bir araştırma fikrinin ana akım haline gelmesi için geçen süre kısalıyor.
1️⃣ Derin Dil Anlayışı (Imagen) ile Fotogerçekçi Metinden Görüntüye Difüzyon Modelleri
İncelemeyi Aç | Sanal Afiş | Bunun gibi daha fazla makale
Imagen, difüzyon modellerini kullanarak metinden görüntüye senteze basit bir yaklaşım.
2️⃣ Nesne Sahne Temsil Transformatörü (OSRT)
İncelemeyi Aç | Sanal Afiş | Bunun gibi daha fazla makale
Tek tek nesne temsillerinin yeni görünüm sentezi yoluyla doğal olarak ortaya çıktığı, oldukça verimli 3B merkezli bir model.
3️⃣ Gürültü Giderici Difüzyon Restorasyon Modelleri (DDRM)
İncelemeyi Aç | Sanal Afiş | Bunun gibi daha fazla makale
Probleme özel denetimli eğitim olmadan önceden eğitilmiş Gürültü Giderici Difüzyon Olasılık Modelleri (DDPM'ler) kullanılarak süper çözünürlük, bulanıklık giderme, iç boyama ve renklendirme.
4️⃣ Uzun Videoların Esnek Difüzyon Modellemesi
İncelemeyi Aç | Sanal Afiş | Bunun gibi daha fazla makale
Video etki alanına uygulanan DDPM'ler. Çerçeveler arasındaki uzun vadeli bağımlılıkları yakalamak için, herhangi bir video karesi alt kümesinde esnek bir şekilde koşullandırılabilen bir mimari sunarlar.
5️⃣ EGSDE: Enerji Kılavuzlu Stokastik Diferansiyel Denklemler Yoluyla Eşleştirilmemiş Görüntüden Görüntüye Çeviri
İncelemeyi Aç | Sanal Afiş | Bunun gibi daha fazla makale
Gerçekçi ve sadık eşleştirilmemiş Görüntüden görüntüye (I2I) için önceden eğitilmiş SDE'nin çıkarım sürecini yönlendirmek için hem kaynak hem de hedef alanlarda önceden eğitilmiş bir enerji işlevi kullanan enerji kılavuzlu stokastik diferansiyel denklemler (EGSDE).
3. Kendi Kendine Denetimli Öğrenme
Kendi Kendini Denetleyen Öğrenme (SSL), modern makine öğreniminin o kadar temel bir bileşeni haline geldi ki, şu ya da bu şekilde çoğu araştırmaya hemen hemen dahil oldu. Derin Öğrenmede ilk kez NLP, 2018'de BERT ile başı çekti ve daha sonra Computer Vision, SimCLR gibi başarılı tekniklerle SSL çoğunluğuna katıldı.
Semantik haritamızın bu bölgesi, Bilgisayarla Görme için yeni SSL tekniklerinin yoğun bir şekilde temsilini içerir: denetimsiz videolardan öğrenme, görüntüler üzerinde veri artırmanın etkileri... Modelin eğitim öncesi bütçesi, model parametrelerine ve daha büyük bir eğitim külliyatında ne kadar harcanmalıdır (çoğu büyük LM'nin çok büyük veya az eğitimli olduğunu bulmak ), daha uzun süre eğitim vererek daha büyük benzerlerinden daha iyi performans gösteren bir 70B parametre LM'si olan Chinchilla ile sonuçlanır.
Son olarak, Farklılaştırılabilir Arama Dizini gibi Bilgi Erişimine yönelik çılgın yeni (kısmen) SSL tekniklerini de gözden kaçırmadık.
SSL artık çok yaygın olsa da, genellikle ilgisiz bir dipnota indirgeniyor. Tüm bu araştırmalar, bu alanda keşfedilecek yeni içgörülerle çevrilmemiş birçok taş olduğunun kanıtıdır.
1️⃣ İşlem için en uygun büyük dil modeli eğitiminin (Chinchilla) ampirik analizi
İncelemeyi Aç | Sanal Afiş | Bunun gibi daha fazla makale
Daha fazla jetonla daha küçük bir Dil Modeli eğitmek daha iyidir. DeepMind, Gopher (280B), GPT-3 (175B) veya Megatron-Turing NLG (530B) gibi daha büyük modellerden daha iyi performans gösteren 70B Chinchilla modeliyle bunu sergiliyor.
2️⃣ VideoMAE: Maskeli Otomatik Kodlayıcılar, Kendi Kendini Denetleyen Video Ön Eğitimi için Veri Verimli Öğrenicilerdir
İncelemeyi Aç | Sanal Afiş | Bunun gibi daha fazla makale
Videodaki ön eğitim video temsilleri mükemmel bir şekilde yapılmıştır. 3 çıkarım: yüksek maskeleme oranı en iyisidir, teknik küçük veri kümelerinde bile iyi çalışır ve Kendi Kendini Denetleyen Video Eğitimi söz konusu olduğunda kalite > nicelik.
3️⃣ Nicelik Değil Nitelik: Veri Kümesi Tasarımı ve CLIP Sağlamlığı Arasındaki Etkileşim Üzerine
İncelemeyi Aç | Sanal Afiş | Bunun gibi daha fazla makale
CLIP için antrenman öncesi veri kaynakları arasındaki etkileşimlerin sistematik bir çalışması. Şaşırtıcı bir şekilde (?) birden fazla veri kaynağını karıştırmak, oyuncak modellerine ilişkin teorik analizimizle de desteklenen daha iyi modeller sağlamayabilir.
4️⃣ Bir Veri Artırma, Bin Örnekten Bedeldir: Analitik Anlar ve Örnekleme İçermeyen Eğitim
İncelemeyi Aç | Sanal Afiş | Bunun gibi daha fazla makale
Veri artırmanın (DA) ve bunun bir modelin parametrelerini nasıl etkilediğine ilişkin analitik bir çalışma. Örneğin, eldeki bir kayıp göz önüne alındığında, yaygın DA'lar, kaybın doğru bir şekilde tahmin edilmesi ve model eğitiminin yakınsaması için on binlerce örneğe ihtiyaç duyar.
5️⃣ Farklılaştırılabilir Arama Dizini Olarak Transformatör Belleği
İncelemeyi Aç | Sanal Afiş | Bunun gibi daha fazla makale
Tek bir Transformer, bilgi istemi olarak bir sorgu verildiğinde doğrudan otomatik gerileyen belge tanımlayıcılarının çıktısını alacak şekilde eğitilmiştir. A Neural Corpus Indexer for Document Retrieval gibi takip çalışmaları da NeurIPS'de sunulur .
4. Grafik Sinir Ağları
Eşdeğerlikler, 3B molekül üretimi, Kısmi Diferansiyel Denklemler… Grafik Sinir Ağları (GNN'ler) bir süredir ortalıkta dolaşıyor ve Transformers veya Difüzyon Modelleri gibi ünlüler düzeyinde popülerlik kazanmamış olsalar da, pastalarını istikrarlı bir şekilde büyüttüler. son birkaç yılda, ilaç tasarımı, diferansiyel denklem çözme veya muhakeme gibi uygulamalara uzanıyor.
Bu heterojen manzara mantıklı çünkü, Geometrik Derin Öğrenme planında ana hatlarıyla belirtildiği gibi, GNN'ler bir bakıma, rasgele problemlerin doğru mimarilere nasıl aktarılacağına dair ilk ilkelerden yola çıkarak, boyutsallığın lanetinden kaçarak, NN'lerde yeni bir soyutlamadır. simetri ve değişmezliklerden yararlanma. Örneğin, bu, Kısmi Diferansiyel Denklemleri sayısal olarak çözmek için doğru gösterimleri bulmak veya yeni ilaçları daha verimli tasarlamak için organik moleküllerin şekillerini tahmin etmek için anahtardır.
1️⃣ Eskiz ve Oluşturma (ÇÖL) Yoluyla Zero-Shot 3D İlaç Tasarımı
İncelemeyi Aç | Sanal Afiş | Bunun gibi daha fazla makale
Ön eğitim tekniklerinden güç alan sıfır vuruşlu bir ilaç tasarım yöntemi. İlaç tasarımı için mevcut derin öğrenmeye dayalı yöntemler, genellikle kıt deneysel verilere veya yavaş yerleştirme simülasyonuna dayanır. DESERT, tasarım sürecini eskiz ve üretim aşamalarına ayırarak yüksek doğruluğu korurken üretimi hızlandırır.
2️⃣ Moleküler Uyumlu Üretim için Burulma Difüzyonu
İncelemeyi Aç | Sanal Afiş | Bunun gibi daha fazla makale
Burulma açılarında difüzyon işlemi yoluyla ilaç benzeri Molekül Uygunlaştırıcı Üretimi, hipertorus üzerinde difüzyon modellemesi ve dışsaldan içsele bir skor modeli aracılığıyla Hızlı ve doğru konformer üretimini sağlarken, önceki difüzyon temelli yaklaşımlardan çok daha hızlıdır.
3️⃣ MAgNet: Mesh Agnostik Nöral PDE Çözücü
İncelemeyi Aç | Sanal Afiş | Bunun gibi daha fazla makale
PDE alanının uzamsal olarak sürekli herhangi bir noktasında PDE'ye yönelik çözümleri öngören ve farklı ağlar ve çözünürlükler arasında genelleme yapan yeni bir ağdan bağımsız mimari.
4️⃣ MACE : Hızlı ve Doğru Kuvvet Alanları için Sinir Ağlarını Geçen Yüksek Dereceli Eşdeğer Mesaj
İncelemeyi Aç | Sanal Afiş | Bunun gibi daha fazla makale
Mesaj İleten Yapay Sinir Ağları (MPNN'ler), atomlar arası potansiyelleri modellemenin güçlü bir yoludur, ancak verimsizdirler. MACE, çeşitli ölçütlerde SOTA'yı başaran oldukça paralel bir şekilde geçen yüksek sıralı mesaj sunar.
5️⃣ Bağlantı Alt Grafiği Ön Eğitimi (CSR) Yoluyla Birkaç Adım İlişkisel Akıl Yürütme
İncelemeyi Aç | Sanal Afiş | Bunun gibi daha fazla makale
CSR, bilgi grafikleri üzerinden kendi kendini denetleyen ön eğitim ile hedef birkaç atışlık görev için doğrudan tahminler yapabilir.
5. Takviyeli Öğrenme
Ajanları daha verimli öğrenenler yapmak, RL araştırmacılarının hala uğraştığı önemli bir sorudur ve bu yılki NeurIPS, bunun nasıl başarılacağına dair birçok öneri içermektedir. Örneğin, başlangıçtaki verimsiz keşif aşamasının üstesinden gelmek için çevrimdışı öğrenme ve taklit öğrenmeyi geniş ölçekte kullanmak, seyrek ödül manzaralarında daha iyi gezinmek için kredi atama tekniklerini geliştirmek veya insan öncelikleriyle politikaları önyüklemek için önceden eğitilmiş Dil Modellerini kullanmak. Diğer ilgi noktaları genellikle, zorlu açık uçlu ortamlarda verimlilikle yakından ilişkili olan sağlamlık ve tekrarlanabilirlik etrafında döner.
Son olarak RL, konuyla ilgili epeyce makale ile çip tasarımı gibi alanlarda da başarılı uygulama görüyor (cidden, "Bunun gibi daha fazlası!" bölümüne bakın).
1️⃣ Makinelere insan endüktif önyargılarını aşılamak için doğal dil ve program soyutlamalarını kullanma
İncelemeyi Aç | Sanal Afiş | Bunun gibi daha fazla makale
Meta-öğrenme aracıları, dil açıklamalarından ve program başlatmadan temsillerle birlikte eğitim yoluyla insanın tümevarımsal önyargılarını öğrenebilir.
2️⃣ MineDojo: İnternet Ölçeğinde Bilgiyle Açık Uçlu Somutlaştırılmış Temsilciler Oluşturmak
İncelemeyi Aç | Sanal Afiş | Bunun gibi daha fazla makale
Yalnızca Minecraft'tan alınan video verileriyle çevrimdışı öğrenim için büyük ölçekli veri kümeleri oluşturmak üzere videoları eylemlerle otomatik olarak etiketlemek için önceden eğitilmiş büyük modellerden yararlanma.
3️⃣ MaskPlace: Güçlendirilmiş Görsel Temsil Öğrenimi Yoluyla Hızlı Çip Yerleştirme
İncelemeyi Aç | Sanal Afiş | Bunun gibi daha fazla makale
Bileşenleri bir silikon çip tasarımında dağıtmayı insanlardan daha iyi öğrenen RL ajanları.
4️⃣ Düşünme Zamanını Akıllıca Harcamak: Sanal Genişletmelerle MCTS'yi Hızlandırmak
İncelemeyi Aç | Sanal Afiş | Bunun gibi daha fazla makale
MCTS, daha zor durumlara daha yüksek bir hesaplama bütçesi ayırarak daha verimli hale getirildi.
5️⃣ Yörünge dengesi: GFlowNets'te iyileştirilmiş kredi tahsisi
İncelemeyi Aç | Sanal Afiş | Bunun gibi daha fazla makale
Jeneratif akış ağları için kredi tahsisi sorununu ele alan yeni bir eğitim hedefi (son bir ödülden en çok hangi hareket sorumludur?), daha hızlı yakınsama ve hedef dağılımına daha iyi uyum sağlar.
6. Beyinden İlham Alan
Unutmayalım ki, NeurIPS aynı zamanda nörobilime bitişik literatürün de evidir; ne de olsa beyinlerimiz , modern yapay sinir ağlarının çoğunu ateşleyen OG nöral bilgi işleme sistemidir .
Bu çeşitli alan, fMRI gibi beyin görüntüleme tekniklerinden çok fazla öğrenmeyi, nöronlar hakkında bildiklerimizle daha iyiye işaret eden öğrenme için backprop alternatiflerini, artan Sinir Ağlarını ve daha fazlasını içerir!
1️⃣ Tahmine Dayalı Kodlama Yoluyla Rastgele Grafik Topolojilerini Öğrenme
İncelemeyi Aç | Sanal Afiş | Bunun gibi daha fazla makale
Backprop, beyin benzeri hesaplamada gerekli olduğu varsayılan döngüsel veya geriye dönük bağlantılara sahip ağlarda eğitime izin vermez. Kortekste bir bilgi işleme teorisi olan tahmine dayalı kodlamanın (PC), keyfi grafik topolojileri üzerinde çıkarım ve öğrenme gerçekleştirmek için nasıl kullanılabileceğini gösterirler.
2️⃣ Teorik Olarak Kanıtlanabilir Yükselen Sinir Ağları
İncelemeyi Aç | Sanal Afiş | Bunun gibi daha fazla makale
Kendi kendine bağlantılara sahip sivri uçlu sinir ağlarının yaklaşıklık gücü ve hesaplama verimliliği üzerine teorik bir araştırma.
3️⃣ Geniş Nörogörüntüleme Verilerinden Beyin Dinamiklerinin Kendi Kendine Denetimli Öğrenimi
İncelemeyi Aç | Sanal Afiş | Bunun gibi daha fazla makale
Bugüne kadar eğitim öncesi için kullanılan en geniş nörogörüntüleme veri kümelerinden birini kullanarak, doğal dil işlemede öne çıkan öğrenme çerçevelerinden ilham alan, nörogörüntüleme verileri için yeni, kendi kendine denetimli öğrenme teknikleri.
4️⃣ Node Perturbation Learning'in Kararlılığı ve Ölçeklenebilirliği Üzerine
İncelemeyi Aç | Sanal Afiş | Bunun gibi daha fazla makale
Düğüm pertürbasyonu, aşırı parametrelemeye karşı ölçeklenebilir, ancak bir model uyuşmazlığının varlığında kararsızdır.
5️⃣ Öğretmen-Öğrenci Ağlarında Müfredat Öğrenimine İlişkin Analitik Bir Teori
İncelemeyi Aç | Sanal Afiş | Bunun gibi daha fazla makale
Çözülebilir bir müfredat öğrenme modeli ve makine öğrenimi ve deneysel psikoloji literatürü için çıkarımlar üzerine yorum.
7. Alan Dışı Genelleme
Etki Alanı Dışı genelleme ve yakından ilişkili nedensellik, akademik araştırmalarda yüksek ilgi gören konulardır. Bağımsız OOD araştırması ana akıma tam olarak girmemiş olsa da, Makine Öğrenimi kıyaslama kültüründe, sıfır/birkaç atış veya statik olduğu için ağır veri dağıtım vardiyaları gibi zorlu koşullarda sağlam bir şekilde genelleştirmeyi giderek daha fazla önemsemeye yönelik yadsınamaz bir eğilim var. -domain değerlendirmeleri rekor kıran bir hızla birbiri ardına cracklendi .
Alan - çoğu erken aşamalarda olduğu gibi - hala standardizasyon eksikliğinden muzdariptir, bu nedenle konuyla ilgili birkaç yayını öne çıkarıyoruz (2, 3). Ek olarak, daha önce vurguladığımız bir araştırma yönündeki ilerlemeyi temsil eden nedensel keşif için, etki alanı genellemesi (1), tablo yerleştirmeleri (4) ve ölçekte seyrek bağlı faktör grafikleri (5) için basit bir topluluk tekniğini vurguluyoruz. : modeli, sağlam nedensel yapısını yakalayan dünyanın öğrenme modelleriyle sınırlandırmak için seyreklik + iletişim darboğazlarının kullanımı.
1️⃣ Ortalamalar Topluluğu: Etki Alanı Genellemesinde Model Seçimini İyileştirme ve Performansı Artırma
İncelemeyi Aç | Sanal Afiş | Bunun gibi daha fazla makale
Eğitim ve birleştirme sırasında model parametrelerinin basit hareketli ortalamasını kullanmaya yönelik hiper parametre içermeyen basit bir strateji, etki alanı genelleştirme ölçütlerinde SOTA'ya ulaşır ve Bias-Variance ödünleşimi kullanılarak açıklanabilir.
2️⃣ Transfer Öğreniminde Dağıtım Dışı Genellemenin Test Edilmesi
İncelemeyi Aç | Sanal Afiş | Bunun gibi daha fazla makale
Dağılım dışı genellemenin geniş ölçekli ampirik çalışması.
3️⃣ Modüler Mimari Yeterli mi?
İncelemeyi Aç | Sanal Afiş | Bunun gibi daha fazla makale
Çok çeşitli uzmanların birleşimi tarzındaki modüler sistemleri incelemek için metrikler. Bu tür sistemler, çökme ve uzmanlaşma sorunlarından muzdariptir ve bu düşük optimalliğin üstesinden gelmek için ek tümevarımsal önyargılar gerektirebilir.
4️⃣ Tablo Derin Öğrenmede Sayısal Özellikler için Gömmeler Üzerine
İncelemeyi Aç | Sanal Afiş | Bunun gibi daha fazla makale
Sayısal özelliklerin skaler değerler yerine vektörlerle temsil edilmesi, tablo verileri için DL modellerini önemli ölçüde artırabilir.
5️⃣ Faktör Grafiklerinin Büyük Ölçekli Farklılaştırılabilir Nedensel Keşfi
İncelemeyi Aç | Sanal Afiş | Bunun gibi daha fazla makale
Girişimsel verilerle büyük ölçekli nedensel keşif öğrenimi için faktör grafiklerini kullanma.
8. Öğrenme Teorisi
Pekala, çoğumuzun ağır iş matematik malzemelerini itici bulduğunu kabul ederek başlayalım. Yine de, NeurIPS'de ondan öğrenilecek çok şey var.
Örneğin, karşılaştırmalı öğrenme ile temsilleri başarılı bir şekilde öğrenmek için büyük parti boyutlarının gerekli olduğu kanıtlanmıştır. Bu sezgisel olarak mantıklı, ancak daha temelli bir istatistiksel açıklama var mı? (1) Veya yeterince düzgün olmayan işlevler üzerinde körü körüne autodiff kullanırken hangi garantileri bekleyebiliriz? (3) Veya Dağıtım Dışı'nda iyi performans göstermek hangi koşullarda mümkün olabilir? (2). Bu sorular ilginizi çekiyorsa aşağıdaki makalelere göz atın.
1️⃣ Karşılaştırmalı Öğrenmede Neden Büyük Grup Boyutlarına İhtiyaç Duyarız? Gradyan-Eğilimli Bir Perspektif
İncelemeyi Aç | Sanal Afiş | Bunun gibi daha fazla makale
Karşılaştırmalı öğrenmede gradyan yanlılığını azaltmak için negatif örnekleri çözmek için bir Bayes veri artırma yöntemi.
2️⃣ Dağıtım Dışı Tespiti Öğrenilebilir mi?
İncelemeyi Aç | Sanal Afiş | Bunun gibi daha fazla makale
Muhtemelen Yaklaşık Doğru (PAC) öğrenme teorisinin merceğinden, bu çalışma OOD saptamasının genelleştirilmesini inceler: bir örneğin eğitim dağılımına girip girmediğini sınıflandırmak. Bunu bazı koşullar altında imkansız buluyorlar ve bunun etrafında resmi teoremler ispatlıyorlar, ancak bu koşullar çoğunlukla gerçek dünya problemlerinde bir endişe kaynağı değil.
3️⃣ Düzgün olmayan yinelemeli algoritmaların otomatik farklılaşması
İncelemeyi Aç | Sanal Afiş | Bunun gibi daha fazla makale
Yeterince düzgün olmayan işlevlere autodiff uyguladığınızda ne olur? Çoğunlukla iyi. Zaten klasik türevlere yakınsıyorlar.
4️⃣ Verimli ve Modüler Örtük Farklılaştırma
İncelemeyi Aç | Sanal Afiş | Bunun gibi daha fazla makale
Autodiff ancak örtülü biçimde (yani eşittir işaretinin sol tarafında f(x)'i izole edemediğinizde). JAX'te uygulandı.
5️⃣ Gradient Descent: Üstün Optimize Edici
İncelemeyi Aç | Sanal Afiş | Bunun gibi daha fazla makale
Yalnızca hiperparametreleri değil, aynı zamanda hiper hiperparametreleri vb.
9. Rakip Sağlamlık, Birleşik Öğrenme, Sıkıştırma
ML'de Rakip Sağlamlık , hatırlayabildiğimden daha uzun süredir bir şeydi ve bu yıl da farklı değil (3, 5). Kendi kendine sürüş gibi güvenlik açısından kritik uygulamalarda modellerin kullanılması söz konusu olduğunda bu çok önemli bir endişe olduğu için bu anlaşılabilir bir durumdur.
Öte yandan, bazen Farklı Gizlilik ile birleşen Federe Öğrenme, ana akım gerçek dünya uygulamalarında kullanımını bulması gereken başka bir üretken araştırma alanıdır (2). Gerçek dünyada, sıkıştırma, budama ve diğer hız/verimlilik artırma tekniklerinde (4) kesinlikle yaygın kullanıma sahip bir kamp. Son olarak, NN'leri ölçeklendirme yasalarının izin verdiğinden daha hızlı eğitmek için ağırlıklara değil budama verilerine bakan budama konusunda yeni bir değişiklik! (1)
1️⃣ Sinirsel ölçekleme yasalarının ötesinde: veri budama yoluyla güç yasası ölçeklemesini aşmak
İncelemeyi Aç | Sanal Afiş | Bunun gibi daha fazla makale
Teoride ve pratikte, veri kümesi boyutuna göre güç kanunu hata ölçeklendirmesi, akıllı veri budama yoluyla iyileştirilebilir.
2️⃣ Kendini Tanıyan Kişiselleştirilmiş Birleşik Öğrenim
İncelemeyi Aç | Sanal Afiş | Bunun gibi daha fazla makale
Kişiselleştirme için yeni bir uyarlanabilir birleşik öğrenme algoritması öneriyoruz.
3️⃣ Rakip Sağlamlık Değerlendirmelerine Güvenin Artırılması
İncelemeyi Aç | Sanal Afiş | Bunun gibi daha fazla makale
Araştırmacıların kusurlu rakip sağlamlık değerlendirmeleri bulmasını sağlayan bir test. Bu testi geçmek, kullanılan saldırıların modelin sağlamlığını değerlendirmek için yeterli güce sahip olduğuna dair ikna edici kanıtlar üretir.
4️⃣ 256KB Bellek Altında Cihaz İçi Eğitim
İncelemeyi Aç | Sanal Afiş | Bunun gibi daha fazla makale
256 KB'lık sınırlı bir bellek bütçesi altında bile küçük IoT cihazlarında cihaz içi eğitim için bir çerçeve.
5️⃣ Önceden Eğitilmiş Düşmanca Tedirginlikler
İncelemeyi Aç | Sanal Afiş | Bunun gibi daha fazla makale
Karşılık gelen ince ayarlı modelleri kandırabilen ve böylece aşağı yönlü görevleri yapmak için önceden eğitilmiş modellerde ince ayar yapmanın güvenlik sorununu ortaya çıkaran, önceden eğitilmiş modelleri kullanarak rakip örnekler oluşturmak için yeni bir algoritma.
10. Veri Kümeleri ve Karşılaştırmalar
Son olarak, makine öğreniminin isimsiz kahramanları. İlerlemenin hızı artmaya devam ettikçe ve modern veri kümeleri bile tahmin edilenden [avuç içi bağlantı ve talimat ince ayarı] daha hızlı doygunluğa ulaştıkça, ilginç olayları ölçen yeni veri kümelerinin bunların yerini alması gerekiyor. Geçen yıl olduğu gibi, NeurIPS'in veri kümeleri ve kıyaslama belgeleri için özel bir yolu vardı ( bunların tam listesine buradan bakın ).
Önerilen kıyaslama ölçütlerinin birçoğu inanılmaz derecede ilginç ve kullanışlıdır, bu nedenle aşağıdaki listede bunlardan bazılarının kaçırılacağı garanti edilir. Yine de işte gidiyor
1️⃣ LAION-5B: Yeni nesil görüntü-metin modellerini eğitmek için açık, büyük ölçekli bir veri kümesi
İncelemeyi Aç | Sanal Afiş | Bunun gibi daha fazla makale
5,8 milyar görüntü-metin çiftinden oluşan açık, halka açık bir veri kümesi ve farklı ölçeklerde eğitimin son teknoloji ürünü CLIP modellerinin sonuçlarını yeniden üreterek doğrulayın.
2️⃣ DC-BENCH: Veri Kümesi Yoğunlaştırma Kıyaslaması
İncelemeyi Aç | Sanal Afiş | Bunun gibi daha fazla makale
Veri Kümesi Yoğunlaştırma, orijinal veri kümesinde kodlanmış zengin bilgileri yakalayan küçük bir veri kümesini öğrenmeyi amaçlar. Yoğuşmayı karşılaştırmak bir sorun olmaya devam ediyor, bu yüzden bu kıyaslama önerildi.
3️⃣ NeoRL: Çevrimdışı Takviyeli Öğrenme için Gerçek Dünyaya Yakın Bir Kıyaslama
İncelemeyi Aç | Sanal Afiş | Bunun gibi daha fazla makale
Near real-world offline RL karşılaştırması (NeoRL), çevrimdışı değerlendirme ile çevrimiçi dağıtılan performans arasındaki performans boşluğunu kapatmayı amaçlayan gerçek dünya uygulamalarında çevrimdışı RL'yi dağıtmak için eksiksiz boru hattına vurgu yapan bir kıyaslamadır.
4️⃣ Metinsel Arka Kapı Öğreniminin Birleşik Bir Değerlendirmesi: Çerçeveler ve Kıyaslamalar
İncelemeyi Aç | Sanal Afiş | Bunun gibi daha fazla makale
Eğitim aşamasında bir arka kapı enjekte etmek, düşmanların Dil Modelleri gibi NLP sistemlerini kontrol etmesi için güçlü bir yol olabilir. Bu çalışma, modellerin bu tür saldırılara karşı ne kadar savunmasız olduğunun titiz bir şekilde değerlendirilmesini sağlayan açık kaynaklı bir OpenBackdoor araç seti sunmaktadır.
5️⃣ PEER: Protein Dizisini Anlamak İçin Kapsamlı ve Çok Görevli Bir Kıyaslama
İncelemeyi Aç | Sanal Afiş | Bunun gibi daha fazla makale
Hem tek görevli hem de çok görevli öğrenmeyi inceleyen, protein dizisi anlayışı için kapsamlı ve çok görevli bir kıyaslama.
Seçimimiz burada sona eriyor, ancak NeurIPS kapsamımız daha yeni başladı! Konferans sırasında New Orleans'tan canlı tweet atacağız, bu yüzden orada olan her şeyden haberdar olmak için bizi @zetavector Twitter'da takip ettiğinizden emin olun !