Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jorge Bravo Abad
Prof. Fisika @UAM_Madrid | Profesor. PI dari AI untuk Lab Material | Direktur AI untuk Laboratorium Material.
Membuka kunci model pondasi sel tunggal dengan parameter 96% lebih sedikit
Model bahasa besar sel tunggal (scLLM) telah mempelajari pengetahuan biologis yang luar biasa dari jutaan sel. Tetapi mereka memiliki kelemahan kritis: membawa mereka keluar dari konteks pelatihan mereka—penyakit baru, spesies yang tidak terlihat, populasi sel yang tidak dicirikan—dan prediksi mereka menjadi tidak dapat diandalkan.
Perbaikan standar adalah penyetelan halus. Tetapi penyetelan halus menimpa parameter model asli, menyebabkan "kelupaan bencana" dari pengetahuan biologis yang telah dipelajari sebelumnya. Dan itu mahal secara komputasi, membutuhkan sumber daya GPU yang besar yang tidak dimiliki banyak peneliti.
Fei He dan rekan penulis mengusulkan scPEFT—kerangka kerja penyetelan halus yang efisien parameter yang membekukan tulang punggung scLLM asli dan hanya melatih adaptor kecil berdimensi rendah. Empat jenis adaptor (adaptor token, adaptor awalan, LoRA, adaptor Encoder) masuk ke bagian yang berbeda dari arsitektur model, mempelajari penyesuaian khusus tugas tanpa menyentuh bobot yang telah dilatih sebelumnya.
Peningkatan efisiensinya sangat mencolok: scPEFT mengurangi parameter yang dapat dilatih lebih dari 96% dan mengurangi penggunaan memori GPU lebih dari setengahnya. Tapi inilah yang penting—itu benar-benar berkinerja lebih baik daripada penyempurnaan penuh. Pada kumpulan data khusus penyakit (NSCLC, MS, COVID-19), scPEFT mencapai peningkatan akurasi 39,7–81,7% dibandingkan model asli dan keuntungan 4,3–15% dibandingkan versi yang disesuaikan, justru karena mempertahankan daripada menimpa pengetahuan yang telah dilatih sebelumnya.
Kerangka kerja ini juga memungkinkan transfer lintas spesies dari model yang dilatih manusia: peningkatan 14% pada neuron tikus, 39% pada sel germinal kera, dan 144% pada C. elegans — semuanya menggunakan pemetaan gen ortolog. Analisis perhatian mengidentifikasi gen terkait COVID dalam keadaan sel T tertentu dan mengungkap subpopulasi yang relevan secara biologis yang tidak terlihat oleh model yang disetel dengan baik.
Implikasi yang lebih luas: ketika model fondasi berkembang biak di seluruh biologi, kita membutuhkan cara yang efisien untuk menyesuaikannya tanpa menghancurkan apa yang telah mereka pelajari. scPEFT menunjukkan bahwa terkadang, memperbarui lebih sedikit berarti belajar lebih banyak.
Kertas:

7
Arsitektur yang terinspirasi ilmu saraf untuk membangun AI yang benar-benar adaptif
Sistem AI modern kuat tetapi rapuh. Latih model, terapkan, dan saksikan performa menurun saat dunia bergeser. Latih ulang pada data baru, dan model melupakan apa yang diketahuinya. Siklus ini menghasilkan sistem yang unggul dalam tolok ukur statis tetapi berjuang dengan adaptasi berkelanjutan — sesuatu yang ditangani oleh kecerdasan biologis dengan mudah.
Seekor tikus dapat belajar menemukan air di labirin baru dalam kira-kira sepuluh percobaan, tingkat belajar 1.000 kali lebih cepat daripada tugas laboratorium tradisional. Namun jaringan saraf kita yang paling canggih menderita kelupaan bencana ketika diminta untuk belajar secara berurutan.
Otak menawarkan arsitektur yang berbeda. Ini beroperasi bukan sebagai jaringan kusut tunggal tetapi sebagai modul khusus yang saling berhubungan dengan cerdas—tepi pemrosesan korteks visual, komputasi korteks motorik dalam ruang gaya, wilayah prefrontal yang melacak memori terstruktur tugas. Setiap modul membangun model internal yang diperbarui melalui kesalahan prediksi ketika hasil yang diharapkan menyimpang dari kenyataan. Sinyal pengajaran yang ditandatangani ini sekarang telah ditemukan di seluruh sirkuit sensorik, motorik, dan penghargaan.
Mackenzie Weygandt Mathis mensintesis wawasan ini menjadi proposal untuk AI agen adaptif. Alih-alih mengejar model fondasi monolitik yang semakin besar, dia berpendapat untuk sistem encoder khusus domain yang outputnya dioptimalkan bersama dalam ruang laten bersama. Setiap encoder dipantau oleh sinyal kesalahan prediksi—encoder yang kuat tetap "terkunci" sementara yang menunjukkan kinerja yang menurun akan "tidak terkunci" untuk pembelajaran berkelanjutan menggunakan pemutaran ulang memori atau kecerdasan sinaptik, tanpa membuat seluruh sistem offline.
Prinsip yang lebih luas: dengan menyusun AI di sekitar modularitas yang terinspirasi ilmu saraf dan pembaruan berbasis kesalahan prediksi daripada skala monolitik, menjadi mungkin untuk bergerak melampaui model statis menuju kecerdasan yang benar-benar adaptif—sistem yang terus menyempurnakan model dunia mereka melalui interaksi dengannya.
Kertas:

37
Apakah manusia belajar seperti transformator?
Ini adalah pertanyaan yang terdengar hampir filosofis, tetapi Pesnot Lerousseau dan Summerfield mengubahnya menjadi eksperimen yang ketat. Mereka melatih manusia (n = 530) dan jaringan transformator kecil pada tugas pembelajaran aturan yang sama, kemudian memanipulasi satu variabel: distribusi statistik contoh pelatihan—dari yang sepenuhnya beragam (setiap contoh unik) hingga sangat berlebihan (item yang sama diulang berulang kali).
Hasilnya mencolok. Baik manusia maupun transformator menunjukkan sensitivitas yang hampir identik terhadap manipulasi ini. Berlatih pada beragam data, dan peserta didik menggeneralisasi aturan ke situasi baru ("pembelajaran dalam konteks"). Berlatih pada data yang berlebihan, dan mereka menghafal contoh spesifik ("pembelajaran dalam bobot"). Transisi antar strategi terjadi pada titik kritis yang sama (eksponen Zipf α ≈ 1) dalam sistem biologis dan buatan. Tidak ada yang dapat dengan mudah melakukan keduanya—sampai Anda memberi mereka distribusi komposit yang memadukan keragaman dan redundansi, di mana manusia dan transformator menjadi "pembelajar ganda."
Tapi di sinilah mereka berbeda: manusia mendapat manfaat dari kurikulum. Sajikan beragam contoh lebih awal, dan orang menemukan aturan yang dapat digeneralisasi tanpa kehilangan kemampuan untuk menghafal nanti. Transformer, sebaliknya, menderita gangguan bencana—apa pun yang mereka pelajari kedua menimpa apa yang lebih dulu.
Implikasinya untuk AI dan pendidikan: struktur data pelatihan sama pentingnya dengan kontennya. Dan sementara transformator mungkin mencocokkan pembelajaran manusia dengan cara yang mengejutkan, mereka masih kekurangan fleksibilitas yang memungkinkan kita mendapatkan manfaat dari kurikulum yang dirancang dengan baik.
Kertas:

54
Teratas
Peringkat
Favorit
