Satoki Ishikawa's Avatar

Satoki Ishikawa

@satoki-ishikawa

Institute of Science Tokyo / R. Yokota lab / Neural Network / Optimization Looking for great collabolation research https://riverstone496.github.io/

46
Followers
454
Following
82
Posts
25.11.2024
Joined
Posts Following

Latest posts by Satoki Ishikawa @satoki-ishikawa

研究することが就活になるような就活はできないか🤔

12.03.2026 05:40 👍 0 🔁 0 💬 0 📌 0

アカデミアは席が少ないので,インダストリーもなるべくインターン行っておいた方が良さそう,となると研究できるのはD1までだったのか🤔

12.03.2026 00:22 👍 0 🔁 0 💬 1 📌 0

D2は就活を意識しましょうと言われますが,博士課程の就活のイメージが全くない

12.03.2026 00:04 👍 0 🔁 0 💬 1 📌 0

隣の芝は青いなのか,もう少し長期スパンでできる研究をやりたいからなのか…

09.03.2026 14:20 👍 0 🔁 0 💬 0 📌 0

workshopに参加すると,計算統計とか最適輸送とか今までやってこなかった完全に新しいことをやりたくなる

09.03.2026 14:19 👍 1 🔁 0 💬 1 📌 0

このときの演奏が忘れられず,内田さんが勧められているシェンカーによるベートーヴェンの分析を理解したく,本を買って勉強しているのですが,素人には非常に難しい.ただ,未知の分野の壁打ち・対話相手として,LLMは非常にいいですね.

22.02.2026 15:04 👍 0 🔁 0 💬 0 📌 0
Video thumbnail

Why don’t neural networks learn all at once, but instead progress from simple to complex solutions? And what does “simple” even mean across different neural network architectures?

Sharing our new paper @iclr_conf led by Yedi Zhang with Peter Latham

arxiv.org/abs/2512.20607

03.02.2026 16:19 👍 154 🔁 41 💬 7 📌 3
Preview
AMiD: Knowledge Distillation for LLMs with $α$-mixture Assistant Distribution Autoregressive large language models (LLMs) have achieved remarkable improvement across many tasks but incur high computational and memory costs. Knowledge distillation (KD) mitigates this issue by tr...

I’d always wondered if information geometry could be applied to distillation, given that the loss functions are designed using KL divergence. It’s fascinating to see that such research actually exists. The intersection might have a lot of conceptual depth.
www.arxiv.org/abs/2510.15982

15.01.2026 07:41 👍 1 🔁 0 💬 0 📌 0

某申請内容の「Muonの良さを最適化ダイナミクスと数値線形代数の両面から理解し,改善し,応用する」の「数値線形代数からの改善」の部分がまさにこれで,やることがなくなりました😅

16.12.2025 13:08 👍 1 🔁 0 💬 0 📌 0

functorchを今更ながら”完全に理解した(仮)”ことにより,手法/metricsとして実装可能な幅が一気に広がった.(気がする.)functorchの今まで使われて来なかった使い方とかは,chatGPTが全く当てにならないのですよね🤔

06.12.2025 15:44 👍 2 🔁 0 💬 1 📌 0

そして,こういう話,IBISで聞いていて,日本のローカルコミュニティで人気があるのか,国際的に人気があるのかがわからなくなってきた…

15.11.2025 12:36 👍 0 🔁 0 💬 0 📌 0
Preview
Two failure modes of deep transformers and how to avoid them: a unified theory of signal propagation at initialisation Finding the right initialisation for neural networks is crucial to ensure smooth training and good performance. In transformers, the wrong initialisation can lead to one of two failure modes of self-a...

某Xで最近盛り上がっているなぜNGDの近似ではなくMuonを使うのか,多分ここら辺だよねと思いつつ,そういう論文あまり見かけない.
www.arxiv.org/abs/2505.24333

15.11.2025 11:12 👍 3 🔁 0 💬 1 📌 0
Post image
28.10.2025 09:44 👍 1 🔁 0 💬 0 📌 1

My favorite pianist Erik Lu got the first prize at the Chopin Piano Competition😀

21.10.2025 00:52 👍 0 🔁 0 💬 0 📌 0

IBIS,発表は間に合わなかったのですが,参加はすることにしました😀懇親会はもちろん間に合わなかったのですが,裏懇親会に申し込みました.よろしくお願いします🙇

20.10.2025 06:28 👍 1 🔁 0 💬 0 📌 0

はい😇jaxをtorchのように使いたいということでは,torchaxに期待しているのですが🤔

19.10.2025 17:46 👍 0 🔁 0 💬 1 📌 0

1つのライブラリ(torch, trl)に慣れてしまうと,例え他のライブラリ(jax, verl)の方が適していたとしても,移行する際の心理的な障壁がとても高い.プログラミング言語間の翻訳に特化したLLMが一番欲しい…

19.10.2025 06:27 👍 2 🔁 0 💬 1 📌 0
Shipping with Codex
Shipping with Codex YouTube video by OpenAI

私も現状ではプロダクトを意識するレベルでは難しそうと思いつつ,Open AIの人たちが動画で1時間あたり約4000行のPRをテスト駆動開発(仮)で作っていると言っているのを見ると,設計書,テスト,検収条件などさえ正確に設計すれば,コードの細かい要件は考えずに,とにかくコードを書き続けるといったことも,そのうちにできるようになるのかなとも感じ,戦々恐々としています😱
www.youtube.com/watch?v=Gr41...

19.10.2025 06:24 👍 1 🔁 0 💬 1 📌 0
Preview
The Potential of Second-Order Optimization for LLMs: A Study with Full Gauss-Newton Recent efforts to accelerate LLM pretraining have focused on computationally-efficient approximations that exploit second-order structure. This raises a key question for large-scale training: how much...

Practical upper-bound is an interesting concepts. What kind of practical upper bound would be interesting other than this?
arxiv.org/abs/2510.09378

15.10.2025 01:04 👍 1 🔁 0 💬 0 📌 0

Muon,論文にする場合は,早めに書かないと,また誰かと被る可能性がある一方で,何かあとひと押しのオリジナリティが出せない…

13.10.2025 11:52 👍 1 🔁 0 💬 0 📌 0
Preview
Jeremy Cohen on X: "This nice, thorough paper on LLM pretraining shows that quantization error rises sharply when the learning rate is decayed. But, why would that be? The answer is likely related to curvature dynamics. https://t.co/cdkt3DU1iw" / X This nice, thorough paper on LLM pretraining shows that quantization error rises sharply when the learning rate is decayed. But, why would that be? The answer is likely related to curvature dynamics. https://t.co/cdkt3DU1iw

While the focus for generalization and implicit bias has been on robustness to sample-wise noise, the rise of large-scale models suggests that robustness to parameter-wise noise (e.g., from quantization) might be now just as important?

x.com/deepcohen/st...

13.10.2025 05:40 👍 0 🔁 0 💬 0 📌 0

So many papers… it’s a bit overwhelming. Wish there were a field with fewer of them...

10.10.2025 13:12 👍 1 🔁 0 💬 0 📌 0

I’ve been challenging myself to read a lot of NeurIPS 2025 papers, but maybe I should switch soon to reading ICLR 2025 submissions instead.

10.10.2025 13:11 👍 1 🔁 0 💬 1 📌 0

This might be one of the advantages of methods that skip curvature EMA (like Muon) or use the function gradient (like NGD).

10.10.2025 12:46 👍 1 🔁 0 💬 0 📌 0

This paper is really interesting.
NGD builds curvature from the function gradient df/dw, while optimizers like Adam and Shampoo use the loss gradient dL/dw.
I’ve always wondered which is better, since using the loss gradient with EMA might cause loss spikes later in training.

10.10.2025 12:46 👍 2 🔁 0 💬 1 📌 0
Post image

This paper studies why Adam occasionally causes loss spikes, which is attributed to the edge of stability phenomenon. As seen from the figure, once hitting EOS (see b) a loss spike is triggered. An interesting experimental report!

arxiv.org/abs/2506.04805

10.10.2025 07:55 👍 5 🔁 1 💬 0 📌 0

I'm looking at ICLR submissions and I've noticed a significant number of papers related to Muon.

10.10.2025 03:42 👍 3 🔁 0 💬 0 📌 0

「スパース」という単語が関連する分野横断型のワークショップやると,お互いでどういう議論になるか興味がある...

08.10.2025 07:35 👍 0 🔁 0 💬 0 📌 0

学習ダイナミクスや暗黙的バイアスの観点から嬉しいスパース構造と,GPUを用いた行列積にとって嬉しいスパース構造と,脳が持っているスパース構造,どのくらいオーバーラップがあるのですかね🤔GPUを用いた行列積にとって嬉しいスパース行列の構造は複数パターン知られていますが,その学習理論や神経科学との接続はあまり聞かず,ただHPCの人も他分野に興味があるので,関連しそうな文献に引用は飛ばしつつも,あと一歩で行き詰まっている印象?

08.10.2025 07:29 👍 1 🔁 0 💬 1 📌 0
KEVIN CHEN – first round (19th Chopin Competition, Warsaw)
KEVIN CHEN – first round (19th Chopin Competition, Warsaw) YouTube video by Chopin Institute

And he is the genious.
www.youtube.com/watch?v=iZAp...

06.10.2025 19:38 👍 0 🔁 0 💬 0 📌 0