トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jorge Bravo Abad
物理学@UAM_Madrid教授 |教授。材料AIラボのPI |材料向けAI研究所所長。
エネルギーに合わせて空間を曲げる:幾何学がどのようにして分子構造の予測を化学的精度に導くか
分子の3次元構造、すなわち各原子が空間で正確にどこに位置するかを予測することは、計算化学の基礎です。少しでも間違えると、エネルギー計算が大きくずれてしまうことがあります。ゴールドスタンダードは密度汎関数理論ですが、DFTは遅く高価です。機械学習はより速い方法を提供します。すなわち、モデルを訓練して大まかな初期の推測を正確な構造に除去するのです。
問題は、ほとんどのノイズ除去モデルがすべての方向が等しく扱われる通常のユークリッド空間で動作することです。しかし分子はそうは働きません。結合を伸ばすのは、その結合の周りを回転させるよりもはるかに多くのエネルギーを消費します。デカルト座標系の距離が等しいからといって、エネルギー変化が等しいとは限りません。
ジェホン・ウ氏らはこの不一致に直接取り組んでいます。彼らはリーマン多様体を構築します。これは位置依存の計量を持つ曲がった空間であり、測地線距離がエネルギー差と相関するように設計されています。この計量は、物理学に基づいた内部座標に基づいて構築されており、原子間距離を変化にかかるエネルギーの量で重み付けします。硬い結合は軟ねじれよりも重要視されます。測地線距離と標準RMSDを比較すると、エネルギーとの相関は0.37から0.90に跳ね上がります。
この曲がった空間でノイズ除去モデルを訓練すると、モデルが学習する内容が変わります。ユークリッド空間では、等方性ノイズを加えることで結合が切断されたり、最小の数百kcal/molを超える不可能な幾何学構造が生まれることがあります。リーマン多様体では、同じノイズ大きさが分子を化学的に感度度に保ち、同じポテンシャル井戸内にとどまります。ノイズ除去経路自体はエネルギー最小化を追う測地線に従い、デカルト空間内の任意の直線を追うわけではありません。
結果は重要な閾値、すなわち化学的精度(エネルギー誤差1kcal/mol未満)に達します。QM9ベンチマークでは、リーマンモデルの中央値誤差は0.177 kcal/molとなり、力場開始構造より約20×良好で、ユークリッドモデルよりも大幅に優れています。これらの予測をDFTの精緻化の出発点として用いると、計算コストは半分以上に減少します。
より深い点:分子モデリングにおいて、表現空間の幾何学は中立的ではありません。ユークリッド空間はすべての原子変位を等価と扱います。リーマン空間は物理を符号化できます。幾何学的距離をエネルギーコストに合わせると、ノイズ除去が最適化となり、モデルはポテンシャルエネルギー面と戦うのではなく、その特性に従うことを学習します。
論文:

40
パラメータ数を96%減らした単一セル基礎モデルのアンロック
単一セル大規模言語モデル(scLLM)は、数百万の細胞から驚くべき生物学的知識を学習してきました。しかし、彼らには致命的な弱点があります。それは、訓練の文脈から切り離すと――新しい病気、未確認の種、未解明の細胞集団――を外すと、予測が信頼できなくなります。
標準的な解決策は微調整です。しかし、ファインチューニングは元のモデルパラメータを上書きし、事前に学習された生物学的知識が「壊滅的な忘却」を引き起こします。しかも計算コストが高く、多くの研究者が持っていないGPUリソースも多大です。
Fei HeらはscPEFTを提案します。これは、元のscLLMのバックボーンを凍結し、小規模で低次元のアダプターのみを訓練するパラメータ効率の高いファインチューニングフレームワークです。4種類のアダプター(トークンアダプター、プレフィックスアダプター、LoRA、エンコーダーアダプター)がモデルアーキテクチャの異なる部分に差し込み、事前学習済みの重みに触れずにタスク固有の調整を学習します。
効率向上は顕著で、scPEFTは訓練可能なパラメータを96%以上削減し、GPUメモリ使用量を半分以上削減します。しかし重要なのは、フルファインチューニングよりも実際に性能が良いということです。疾患特異データセット(NSCLC、MS、COVID-19)において、scPEFTはネイティブモデルに比べて39.7〜81.7%の精度向上、ファインチューニング版より4.3〜15%の向上を達成しています。これは事前学習済み知識を上書きするのではなく保存しているためです。
このフレームワークはまた、ヒトトレーニングモデルからの種間移行も可能にしており、マウスニューロンで14%、マカクの生殖細胞で39%、C. elegansで144%の改善が見られ、いずれもオルソロギュー遺伝子マッピングを用いています。注意解析は特定のT細胞状態にあるCOVID関連遺伝子を特定し、精密なモデルでは見えない生物学的に関連性の高いサブ集団を明らかにします。
より広い意味は、基礎モデルが生物学全体に広がる中で、それらを効率的に適応させる方法を、学んだことを破壊しないようにする必要があるということです。scPEFTは、時には更新を減らすことがより多くを学ぶことを意味することを示しています。
論文:

58
真に適応型AIを構築するための神経科学に触発されたアーキテクチャ
現代のAIシステムは強力ですが脆いです。モデルを訓練し、展開し、世界の変化とともにパフォーマンスが低下するのを見守りましょう。新しいデータで再学習すると、モデルは知っていたことを忘れてしまいます。このサイクルは、静的な基準に優れているものの、生物学的知能が難なく処理する継続的な適応に苦労するシステムを生み出す。
ネズミは約10回の試みで新しい迷路で水を見つける方法を数発で覚えることができ、これは従来の実験室作業の1,000倍の学習速度です。しかし、私たちの最も高度なニューラルネットワークは、逐次学習を求められると壊滅的な忘却に見舞われます。
脳は異なる構造を提供します。それは単一の絡み合ったネットワークとしてではなく、視覚野のエッジ処理、力空間での運動皮質の計算、タスク構造的記憶を追跡する前頭前野など、スマートに相互接続された専門モジュールとして動作します。各モジュールは、予想される結果が現実と乖離した際に予測誤差を通じて更新された内部モデルを構築します。これらの署名された指導信号は、感覚回路、運動回路、報酬回路全体で発見されています。
マッケンジー・ウェイガント・マティスはこれらの知見を統合し、適応型エージェントAIの提案をまとめています。より大きなモノリシック基盤モデルを追求するのではなく、彼女は出力が共有潜在空間で共同最適化されるドメイン固有エンコーダのシステムを主張しています。各エンコーダは予測誤差信号で監視されており、堅牢なエンコーダは「ロック」されたまま、性能低下したエンコーダはメモリリプレイやシナプス知能を用いて継続的な学習のために「アンロック」されますが、システム全体がオフラインになることはありません。
より広い原則は、神経科学に触発されたモジュール性と予測誤差に基づく更新を中心にAIを構築することで、静的なモデルを超えて真に適応型知能へと移行することが可能になります。つまり、世界との相互作用を通じてモデルを絶えず洗練させるシステムです。
論文:

81
トップ
ランキング
お気に入り
