Remove storing gradient of freezed language model parameter by floatingsun · Pull Request #4 · Quentin-Anthony/magma

floatingsun · 2023-03-28T08:58:58Z

Language model params except adapter won't be updated, therefore we shouldn't store their gradient. Too much uncessary GPU usage when using large LM model.
This test shows All params of language model requires grad

fix freeze language parameter

7b14a61

floatingsun changed the title ~~fix freeze language parameter~~ Remove storing gradient of freezed language parameter Mar 28, 2023

floatingsun changed the title ~~Remove storing gradient of freezed language parameter~~ Remove storing gradient of freezed language model parameter Mar 28, 2023

Merge branch 'Quentin-Anthony:master' into master

3afb3c7

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Remove storing gradient of freezed language model parameter#4

Remove storing gradient of freezed language model parameter#4
floatingsun wants to merge 2 commits intoQuentin-Anthony:masterfrom
floatingsun:master

floatingsun commented Mar 28, 2023

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

Conversation

floatingsun commented Mar 28, 2023

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant