研究することが就活になるような就活はできないか🤔
研究することが就活になるような就活はできないか🤔
アカデミアは席が少ないので,インダストリーもなるべくインターン行っておいた方が良さそう,となると研究できるのはD1までだったのか🤔
D2は就活を意識しましょうと言われますが,博士課程の就活のイメージが全くない
隣の芝は青いなのか,もう少し長期スパンでできる研究をやりたいからなのか…
workshopに参加すると,計算統計とか最適輸送とか今までやってこなかった完全に新しいことをやりたくなる
このときの演奏が忘れられず,内田さんが勧められているシェンカーによるベートーヴェンの分析を理解したく,本を買って勉強しているのですが,素人には非常に難しい.ただ,未知の分野の壁打ち・対話相手として,LLMは非常にいいですね.
Why don’t neural networks learn all at once, but instead progress from simple to complex solutions? And what does “simple” even mean across different neural network architectures?
Sharing our new paper @iclr_conf led by Yedi Zhang with Peter Latham
arxiv.org/abs/2512.20607
I’d always wondered if information geometry could be applied to distillation, given that the loss functions are designed using KL divergence. It’s fascinating to see that such research actually exists. The intersection might have a lot of conceptual depth.
www.arxiv.org/abs/2510.15982
某申請内容の「Muonの良さを最適化ダイナミクスと数値線形代数の両面から理解し,改善し,応用する」の「数値線形代数からの改善」の部分がまさにこれで,やることがなくなりました😅
functorchを今更ながら”完全に理解した(仮)”ことにより,手法/metricsとして実装可能な幅が一気に広がった.(気がする.)functorchの今まで使われて来なかった使い方とかは,chatGPTが全く当てにならないのですよね🤔
そして,こういう話,IBISで聞いていて,日本のローカルコミュニティで人気があるのか,国際的に人気があるのかがわからなくなってきた…
某Xで最近盛り上がっているなぜNGDの近似ではなくMuonを使うのか,多分ここら辺だよねと思いつつ,そういう論文あまり見かけない.
www.arxiv.org/abs/2505.24333
My favorite pianist Erik Lu got the first prize at the Chopin Piano Competition😀
IBIS,発表は間に合わなかったのですが,参加はすることにしました😀懇親会はもちろん間に合わなかったのですが,裏懇親会に申し込みました.よろしくお願いします🙇
はい😇jaxをtorchのように使いたいということでは,torchaxに期待しているのですが🤔
1つのライブラリ(torch, trl)に慣れてしまうと,例え他のライブラリ(jax, verl)の方が適していたとしても,移行する際の心理的な障壁がとても高い.プログラミング言語間の翻訳に特化したLLMが一番欲しい…
私も現状ではプロダクトを意識するレベルでは難しそうと思いつつ,Open AIの人たちが動画で1時間あたり約4000行のPRをテスト駆動開発(仮)で作っていると言っているのを見ると,設計書,テスト,検収条件などさえ正確に設計すれば,コードの細かい要件は考えずに,とにかくコードを書き続けるといったことも,そのうちにできるようになるのかなとも感じ,戦々恐々としています😱
www.youtube.com/watch?v=Gr41...
Practical upper-bound is an interesting concepts. What kind of practical upper bound would be interesting other than this?
arxiv.org/abs/2510.09378
Muon,論文にする場合は,早めに書かないと,また誰かと被る可能性がある一方で,何かあとひと押しのオリジナリティが出せない…
While the focus for generalization and implicit bias has been on robustness to sample-wise noise, the rise of large-scale models suggests that robustness to parameter-wise noise (e.g., from quantization) might be now just as important?
x.com/deepcohen/st...
So many papers… it’s a bit overwhelming. Wish there were a field with fewer of them...
I’ve been challenging myself to read a lot of NeurIPS 2025 papers, but maybe I should switch soon to reading ICLR 2025 submissions instead.
This might be one of the advantages of methods that skip curvature EMA (like Muon) or use the function gradient (like NGD).
This paper is really interesting.
NGD builds curvature from the function gradient df/dw, while optimizers like Adam and Shampoo use the loss gradient dL/dw.
I’ve always wondered which is better, since using the loss gradient with EMA might cause loss spikes later in training.
This paper studies why Adam occasionally causes loss spikes, which is attributed to the edge of stability phenomenon. As seen from the figure, once hitting EOS (see b) a loss spike is triggered. An interesting experimental report!
arxiv.org/abs/2506.04805
I'm looking at ICLR submissions and I've noticed a significant number of papers related to Muon.
「スパース」という単語が関連する分野横断型のワークショップやると,お互いでどういう議論になるか興味がある...
学習ダイナミクスや暗黙的バイアスの観点から嬉しいスパース構造と,GPUを用いた行列積にとって嬉しいスパース構造と,脳が持っているスパース構造,どのくらいオーバーラップがあるのですかね🤔GPUを用いた行列積にとって嬉しいスパース行列の構造は複数パターン知られていますが,その学習理論や神経科学との接続はあまり聞かず,ただHPCの人も他分野に興味があるので,関連しそうな文献に引用は飛ばしつつも,あと一歩で行き詰まっている印象?