[MUON] add Muon optimizer by mayank31398 · Pull Request #408 · open-lm-engine/lm-engine

mayank31398 · 2026-04-08T03:20:16Z

No description provided.

Signed-off-by: Mayank Mishra <mayank31398@gmail.com>

gemini-code-assist

Code Review

This pull request introduces a parameter-splitting mechanism to support the Muon optimizer, allowing specific tensors like QKV or MLP gates to be partitioned before optimization. It includes a new _MuonWithAdamW wrapper to handle different parameter types and updates model blocks to register split functions. Key feedback includes correcting the target weight for splitting in the attention module, fixing an invalid assertion type check, ensuring AdamW hyperparameters are correctly propagated in the Muon wrapper, and improving the robustness of state dictionary loading.

gemini-code-assist · 2026-04-08T03:22:24Z

        for model, params_groups in zip(model_container, params_groups_list):
            for param_name, param in model.named_parameters():
+                if get_optimizer_split_function(param) is not None:
+                    assert optimizer_class not in _SPLIT_FUNCTION_INCOMPATIBLE_OPTIMIZERS


The assertion check will always pass because optimizer_class is a class object, while _SPLIT_FUNCTION_INCOMPATIBLE_OPTIMIZERS is a list of strings (e.g., ["TorchMuon"]). You should check against optimizer_class_name instead.

Suggested change

assert optimizer_class not in _SPLIT_FUNCTION_INCOMPATIBLE_OPTIMIZERS

assert optimizer_class_name not in _SPLIT_FUNCTION_INCOMPATIBLE_OPTIMIZERS

@mayank31398 - also looks like a bug: in line 45 you have: _SPLIT_FUNCTION_INCOMPATIBLE_OPTIMIZERS = ["TorchMuon"] and in 155 you have optimizer_class_name == "TorchMuon"

gemini-code-assist · 2026-04-08T03:22:24Z


        optimizer_list = BackwardHookOptimizerContainer([None] * len(model_container))
+    elif optimizer_class_name == "TorchMuon":
+        adamw_args = {"lr": optimizer_class_args.get("lr", 1e-3)}


When using Muon, the AdamW optimizer used for 1D parameters and embeddings currently only inherits the learning rate. Other important hyperparameters like weight_decay, betas, and eps provided in optimizer_class_args are ignored for the AdamW part. It is recommended to pass these parameters to ensure consistent optimization behavior for non-Muon parameters.

Suggested change

adamw_args = {"lr": optimizer_class_args.get("lr", 1e-3)}

adamw_args = {k: v for k, v in optimizer_class_args.items() if k in ("lr", "betas", "eps", "weight_decay")}

adamw_args.setdefault("lr", 1e-3)

@mayank31398 -

optimizer_list_entries.append( _MuonWithAdamW( muon=TorchMuon(muon_groups, **optimizer_class_args) if muon_groups else None, adamw=TorchAdamW(adamw_groups, **adamw_args) if adamw_groups else None, )

We should make sure we can pass all the adamw configs

gemini-code-assist · 2026-04-08T03:22:24Z

+    def load_state_dict(self, state_dict: dict) -> None:
+        if self.muon is not None and state_dict["muon"] is not None:
+            self.muon.load_state_dict(state_dict["muon"])
+        if self.adamw is not None and state_dict["adamw"] is not None:
+            self.adamw.load_state_dict(state_dict["adamw"])


The load_state_dict method in the _MuonWithAdamW wrapper assumes the provided state_dict always contains "muon" and "adamw" keys. If a standard optimizer state dict is passed (e.g., during a transition or from a different checkpoint format), this will raise a KeyError. Using .get() would make this more robust.

Suggested change

def load_state_dict(self, state_dict: dict) -> None:

if self.muon is not None and state_dict["muon"] is not None:

self.muon.load_state_dict(state_dict["muon"])

if self.adamw is not None and state_dict["adamw"] is not None:

self.adamw.load_state_dict(state_dict["adamw"])

def load_state_dict(self, state_dict: dict) -> None:

if self.muon is not None and state_dict.get("muon") is not None:

self.muon.load_state_dict(state_dict["muon"])

if self.adamw is not None and state_dict.get("adamw") is not None:

self.adamw.load_state_dict(state_dict["adamw"])

Signed-off-by: Mayank Mishra <mayank31398@gmail.com>

jyopari

Took a first pass - maybe we should have a test to make sure the Torch implementation of distributed muon works as intended?

Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>

mayank31398 added 15 commits April 7, 2026 16:54

add muon

585e6eb

Signed-off-by: Mayank Mishra <mayank31398@gmail.com>

add muon

bf3cbba

Signed-off-by: Mayank Mishra <mayank31398@gmail.com>

add muon

e491a54

Signed-off-by: Mayank Mishra <mayank31398@gmail.com>

add muon

d6efb2d

Signed-off-by: Mayank Mishra <mayank31398@gmail.com>

add muon

8c88a3c

Signed-off-by: Mayank Mishra <mayank31398@gmail.com>

add muon

82990ac

Signed-off-by: Mayank Mishra <mayank31398@gmail.com>

add muon

f5be732

Signed-off-by: Mayank Mishra <mayank31398@gmail.com>

add muon

6c29ad9

Signed-off-by: Mayank Mishra <mayank31398@gmail.com>

add muon

83611ed

Signed-off-by: Mayank Mishra <mayank31398@gmail.com>

add muon

87da505

Signed-off-by: Mayank Mishra <mayank31398@gmail.com>

add muon

6491f89

Signed-off-by: Mayank Mishra <mayank31398@gmail.com>

add muon

927e8c0

Signed-off-by: Mayank Mishra <mayank31398@gmail.com>

add muon

9236c07

Signed-off-by: Mayank Mishra <mayank31398@gmail.com>

add muon

e0ed61b

Signed-off-by: Mayank Mishra <mayank31398@gmail.com>

add muon

cadbaef

Signed-off-by: Mayank Mishra <mayank31398@gmail.com>

gemini-code-assist Bot reviewed Apr 8, 2026

View reviewed changes

add muon

0376db9

Signed-off-by: Mayank Mishra <mayank31398@gmail.com>

jyopari reviewed Apr 9, 2026

View reviewed changes

mayank31398 and others added 3 commits April 15, 2026 11:40

Merge branch 'main' into muon

dfc06cb

Apply suggestion from @gemini-code-assist[bot]

89e330b

Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>

Apply suggestion from @gemini-code-assist[bot]

4ca5c46

Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[MUON] add Muon optimizer#408

[MUON] add Muon optimizer#408
mayank31398 wants to merge 19 commits intomainfrom
muon

mayank31398 commented Apr 8, 2026

Uh oh!

gemini-code-assist Bot left a comment

Uh oh!

Uh oh!

gemini-code-assist Bot Apr 8, 2026

Uh oh!

jyopari Apr 9, 2026

Uh oh!

Uh oh!

gemini-code-assist Bot Apr 8, 2026

Uh oh!

jyopari Apr 9, 2026

Uh oh!

gemini-code-assist Bot Apr 8, 2026

Uh oh!

jyopari left a comment

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

	assert optimizer_class not in _SPLIT_FUNCTION_INCOMPATIBLE_OPTIMIZERS
	assert optimizer_class_name not in _SPLIT_FUNCTION_INCOMPATIBLE_OPTIMIZERS

	adamw_args = {"lr": optimizer_class_args.get("lr", 1e-3)}
	adamw_args = {k: v for k, v in optimizer_class_args.items() if k in ("lr", "betas", "eps", "weight_decay")}
	adamw_args.setdefault("lr", 1e-3)

Conversation

mayank31398 commented Apr 8, 2026

Uh oh!

gemini-code-assist Bot left a comment

Choose a reason for hiding this comment

Code Review

Uh oh!

Uh oh!

gemini-code-assist Bot Apr 8, 2026

Choose a reason for hiding this comment

Uh oh!

jyopari Apr 9, 2026

Choose a reason for hiding this comment

Uh oh!

Uh oh!

gemini-code-assist Bot Apr 8, 2026

Choose a reason for hiding this comment

Uh oh!

jyopari Apr 9, 2026

Choose a reason for hiding this comment

Uh oh!

gemini-code-assist Bot Apr 8, 2026

Choose a reason for hiding this comment

Uh oh!

jyopari left a comment

Choose a reason for hiding this comment

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants