Change #42

Biyb · 2025-02-24T10:25:52Z

Hello, editor. Thank you very much for your previous reply, which has deepened my understanding of the code. Now I have a new question to consult you. I'm trying to modify the MLP, but I got the following error:
RuntimeError: Error(s) in loading state_dict for SAM2Base:
Missing key(s) in state_dict: "image_encoder.trunk.blocks.0.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.0.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.0.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.0.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.1.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.1.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.1.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.1.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.2.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.2.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.2.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.2.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.3.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.3.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.3.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.3.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.4.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.4.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.4.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.4.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.5.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.5.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.5.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.5.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.6.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.6.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.6.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.6.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.7.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.7.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.7.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.7.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.8.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.8.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.8.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.8.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.9.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.9.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.9.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.9.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.10.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.10.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.10.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.10.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.11.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.11.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.11.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.11.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.12.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.12.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.12.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.12.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.13.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.13.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.13.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.13.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.14.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.14.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.14.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.14.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.15.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.15.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.15.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.15.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.16.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.16.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.16.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.16.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.17.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.17.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.17.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.17.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.18.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.18.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.18.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.18.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.19.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.19.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.19.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.19.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.20.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.20.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.20.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.20.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.21.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.21.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.21.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.21.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.22.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.22.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.22.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.22.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.23.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.23.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.23.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.23.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.24.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.24.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.24.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.24.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.25.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.25.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.25.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.25.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.26.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.26.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.26.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.26.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.27.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.27.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.27.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.27.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.28.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.28.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.28.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.28.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.29.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.29.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.29.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.29.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.30.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.30.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.30.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.30.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.31.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.31.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.31.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.31.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.32.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.32.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.32.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.32.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.33.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.33.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.33.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.33.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.34.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.34.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.34.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.34.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.35.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.35.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.35.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.35.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.36.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.36.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.36.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.36.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.37.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.37.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.37.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.37.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.38.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.38.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.38.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.38.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.39.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.39.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.39.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.39.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.40.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.40.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.40.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.40.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.41.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.41.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.41.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.41.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.42.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.42.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.42.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.42.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.43.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.43.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.43.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.43.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.44.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.44.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.44.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.44.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.45.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.45.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.45.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.45.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.46.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.46.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.46.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.46.mlp.axial_shift_layers.1.bias", "image_encoder.trunk.blocks.47.mlp.axial_shift_layers.0.weight", "image_encoder.trunk.blocks.47.mlp.axial_shift_layers.0.bias", "image_encoder.trunk.blocks.47.mlp.axial_shift_layers.1.weight", "image_encoder.trunk.blocks.47.mlp.axial_shift_layers.1.bias", "sam_mask_decoder.transformer.layers.0.mlp.axial_shift_layers.0.weight", "sam_mask_decoder.transformer.layers.0.mlp.axial_shift_layers.0.bias", "sam_mask_decoder.transformer.layers.0.mlp.axial_shift_layers.1.weight", "sam_mask_decoder.transformer.layers.0.mlp.axial_shift_layers.1.bias", "sam_mask_decoder.transformer.layers.1.mlp.axial_shift_layers.0.weight", "sam_mask_decoder.transformer.layers.1.mlp.axial_shift_layers.0.bias", "sam_mask_decoder.transformer.layers.1.mlp.axial_shift_layers.1.weight", "sam_mask_decoder.transformer.layers.1.mlp.axial_shift_layers.1.bias", "sam_mask_decoder.output_hypernetworks_mlps.0.axial_shift_layers.0.weight", "sam_mask_decoder.output_hypernetworks_mlps.0.axial_shift_layers.0.bias", "sam_mask_decoder.output_hypernetworks_mlps.0.axial_shift_layers.1.weight", "sam_mask_decoder.output_hypernetworks_mlps.0.axial_shift_layers.1.bias", "sam_mask_decoder.output_hypernetworks_mlps.0.axial_shift_layers.2.weight", "sam_mask_decoder.output_hypernetworks_mlps.0.axial_shift_layers.2.bias", "sam_mask_decoder.output_hypernetworks_mlps.1.axial_shift_layers.0.weight", "sam_mask_decoder.output_hypernetworks_mlps.1.axial_shift_layers.0.bias", "sam_mask_decoder.output_hypernetworks_mlps.1.axial_shift_layers.1.weight", "sam_mask_decoder.output_hypernetworks_mlps.1.axial_shift_layers.1.bias", "sam_mask_decoder.output_hypernetworks_mlps.1.axial_shift_layers.2.weight", "sam_mask_decoder.output_hypernetworks_mlps.1.axial_shift_layers.2.bias", "sam_mask_decoder.output_hypernetworks_mlps.2.axial_shift_layers.0.weight", "sam_mask_decoder.output_hypernetworks_mlps.2.axial_shift_layers.0.bias", "sam_mask_decoder.output_hypernetworks_mlps.2.axial_shift_layers.1.weight", "sam_mask_decoder.output_hypernetworks_mlps.2.axial_shift_layers.1.bias", "sam_mask_decoder.output_hypernetworks_mlps.2.axial_shift_layers.2.weight", "sam_mask_decoder.output_hypernetworks_mlps.2.axial_shift_layers.2.bias", "sam_mask_decoder.output_hypernetworks_mlps.3.axial_shift_layers.0.weight", "sam_mask_decoder.output_hypernetworks_mlps.3.axial_shift_layers.0.bias", "sam_mask_decoder.output_hypernetworks_mlps.3.axial_shift_layers.1.weight", "sam_mask_decoder.output_hypernetworks_mlps.3.axial_shift_layers.1.bias", "sam_mask_decoder.output_hypernetworks_mlps.3.axial_shift_layers.2.weight", "sam_mask_decoder.output_hypernetworks_mlps.3.axial_shift_layers.2.bias", "sam_mask_decoder.iou_prediction_head.axial_shift_layers.0.weight", "sam_mask_decoder.iou_prediction_head.axial_shift_layers.0.bias", "sam_mask_decoder.iou_prediction_head.axial_shift_layers.1.weight", "sam_mask_decoder.iou_prediction_head.axial_shift_layers.1.bias", "sam_mask_decoder.iou_prediction_head.axial_shift_layers.2.weight", "sam_mask_decoder.iou_prediction_head.axial_shift_layers.2.bias", "sam_mask_decoder.pred_obj_score_head.axial_shift_layers.0.weight", "sam_mask_decoder.pred_obj_score_head.axial_shift_layers.0.bias", "sam_mask_decoder.pred_obj_score_head.axial_shift_layers.1.weight", "sam_mask_decoder.pred_obj_score_head.axial_shift_layers.1.bias", "sam_mask_decoder.pred_obj_score_head.axial_shift_layers.2.weight", "sam_mask_decoder.pred_obj_score_head.axial_shift_layers.2.bias", "obj_ptr_proj.axial_shift_layers.0.weight", "obj_ptr_proj.axial_shift_layers.0.bias", "obj_ptr_proj.axial_shift_layers.1.weight", "obj_ptr_proj.axial_shift_layers.1.bias", "obj_ptr_proj.axial_shift_layers.2.weight", "obj_ptr_proj.axial_shift_layers.2.bias".
Unexpected key(s) in state_dict: "image_encoder.trunk.blocks.0.mlp.layers.0.weight", "image_encoder.trunk.blocks.0.mlp.layers.0.bias", "image_encoder.trunk.blocks.0.mlp.layers.1.weight", "image_encoder.trunk.blocks.0.mlp.layers.1.bias", "image_encoder.trunk.blocks.1.mlp.layers.0.weight", "image_encoder.trunk.blocks.1.mlp.layers.0.bias", "image_encoder.trunk.blocks.1.mlp.layers.1.weight", "image_encoder.trunk.blocks.1.mlp.layers.1.bias", "image_encoder.trunk.blocks.2.mlp.layers.0.weight", "image_encoder.trunk.blocks.2.mlp.layers.0.bias", "image_encoder.trunk.blocks.2.mlp.layers.1.weight", "image_encoder.trunk.blocks.2.mlp.layers.1.bias", "image_encoder.trunk.blocks.3.mlp.layers.0.weight", "image_encoder.trunk.blocks.3.mlp.layers.0.bias", "image_encoder.trunk.blocks.3.mlp.layers.1.weight", "image_encoder.trunk.blocks.3.mlp.layers.1.bias", "image_encoder.trunk.blocks.4.mlp.layers.0.weight", "image_encoder.trunk.blocks.4.mlp.layers.0.bias", "image_encoder.trunk.blocks.4.mlp.layers.1.weight", "image_encoder.trunk.blocks.4.mlp.layers.1.bias", "image_encoder.trunk.blocks.5.mlp.layers.0.weight", "image_encoder.trunk.blocks.5.mlp.layers.0.bias", "image_encoder.trunk.blocks.5.mlp.layers.1.weight", "image_encoder.trunk.blocks.5.mlp.layers.1.bias", "image_encoder.trunk.blocks.6.mlp.layers.0.weight", "image_encoder.trunk.blocks.6.mlp.layers.0.bias", "image_encoder.trunk.blocks.6.mlp.layers.1.weight", "image_encoder.trunk.blocks.6.mlp.layers.1.bias", "image_encoder.trunk.blocks.7.mlp.layers.0.weight", "image_encoder.trunk.blocks.7.mlp.layers.0.bias", "image_encoder.trunk.blocks.7.mlp.layers.1.weight", "image_encoder.trunk.blocks.7.mlp.layers.1.bias", "image_encoder.trunk.blocks.8.mlp.layers.0.weight", "image_encoder.trunk.blocks.8.mlp.layers.0.bias", "image_encoder.trunk.blocks.8.mlp.layers.1.weight", "image_encoder.trunk.blocks.8.mlp.layers.1.bias", "image_encoder.trunk.blocks.9.mlp.layers.0.weight", "image_encoder.trunk.blocks.9.mlp.layers.0.bias", "image_encoder.trunk.blocks.9.mlp.layers.1.weight", "image_encoder.trunk.blocks.9.mlp.layers.1.bias", "image_encoder.trunk.blocks.10.mlp.layers.0.weight", "image_encoder.trunk.blocks.10.mlp.layers.0.bias", "image_encoder.trunk.blocks.10.mlp.layers.1.weight", "image_encoder.trunk.blocks.10.mlp.layers.1.bias", "image_encoder.trunk.blocks.11.mlp.layers.0.weight", "image_encoder.trunk.blocks.11.mlp.layers.0.bias", "image_encoder.trunk.blocks.11.mlp.layers.1.weight", "image_encoder.trunk.blocks.11.mlp.layers.1.bias", "image_encoder.trunk.blocks.12.mlp.layers.0.weight", "image_encoder.trunk.blocks.12.mlp.layers.0.bias", "image_encoder.trunk.blocks.12.mlp.layers.1.weight", "image_encoder.trunk.blocks.12.mlp.layers.1.bias", "image_encoder.trunk.blocks.13.mlp.layers.0.weight", "image_encoder.trunk.blocks.13.mlp.layers.0.bias", "image_encoder.trunk.blocks.13.mlp.layers.1.weight", "image_encoder.trunk.blocks.13.mlp.layers.1.bias", "image_encoder.trunk.blocks.14.mlp.layers.0.weight", "image_encoder.trunk.blocks.14.mlp.layers.0.bias", "image_encoder.trunk.blocks.14.mlp.layers.1.weight", "image_encoder.trunk.blocks.14.mlp.layers.1.bias", "image_encoder.trunk.blocks.15.mlp.layers.0.weight", "image_encoder.trunk.blocks.15.mlp.layers.0.bias", "image_encoder.trunk.blocks.15.mlp.layers.1.weight", "image_encoder.trunk.blocks.15.mlp.layers.1.bias", "image_encoder.trunk.blocks.16.mlp.layers.0.weight", "image_encoder.trunk.blocks.16.mlp.layers.0.bias", "image_encoder.trunk.blocks.16.mlp.layers.1.weight", "image_encoder.trunk.blocks.16.mlp.layers.1.bias", "image_encoder.trunk.blocks.17.mlp.layers.0.weight", "image_encoder.trunk.blocks.17.mlp.layers.0.bias", "image_encoder.trunk.blocks.17.mlp.layers.1.weight", "image_encoder.trunk.blocks.17.mlp.layers.1.bias", "image_encoder.trunk.blocks.18.mlp.layers.0.weight", "image_encoder.trunk.blocks.18.mlp.layers.0.bias", "image_encoder.trunk.blocks.18.mlp.layers.1.weight", "image_encoder.trunk.blocks.18.mlp.layers.1.bias", "image_encoder.trunk.blocks.19.mlp.layers.0.weight", "image_encoder.trunk.blocks.19.mlp.layers.0.bias", "image_encoder.trunk.blocks.19.mlp.layers.1.weight", "image_encoder.trunk.blocks.19.mlp.layers.1.bias", "image_encoder.trunk.blocks.20.mlp.layers.0.weight", "image_encoder.trunk.blocks.20.mlp.layers.0.bias", "image_encoder.trunk.blocks.20.mlp.layers.1.weight", "image_encoder.trunk.blocks.20.mlp.layers.1.bias", "image_encoder.trunk.blocks.21.mlp.layers.0.weight", "image_encoder.trunk.blocks.21.mlp.layers.0.bias", "image_encoder.trunk.blocks.21.mlp.layers.1.weight", "image_encoder.trunk.blocks.21.mlp.layers.1.bias", "image_encoder.trunk.blocks.22.mlp.layers.0.weight", "image_encoder.trunk.blocks.22.mlp.layers.0.bias", "image_encoder.trunk.blocks.22.mlp.layers.1.weight", "image_encoder.trunk.blocks.22.mlp.layers.1.bias", "image_encoder.trunk.blocks.23.mlp.layers.0.weight", "image_encoder.trunk.blocks.23.mlp.layers.0.bias", "image_encoder.trunk.blocks.23.mlp.layers.1.weight", "image_encoder.trunk.blocks.23.mlp.layers.1.bias", "image_encoder.trunk.blocks.24.mlp.layers.0.weight", "image_encoder.trunk.blocks.24.mlp.layers.0.bias", "image_encoder.trunk.blocks.24.mlp.layers.1.weight", "image_encoder.trunk.blocks.24.mlp.layers.1.bias", "image_encoder.trunk.blocks.25.mlp.layers.0.weight", "image_encoder.trunk.blocks.25.mlp.layers.0.bias", "image_encoder.trunk.blocks.25.mlp.layers.1.weight", "image_encoder.trunk.blocks.25.mlp.layers.1.bias", "image_encoder.trunk.blocks.26.mlp.layers.0.weight", "image_encoder.trunk.blocks.26.mlp.layers.0.bias", "image_encoder.trunk.blocks.26.mlp.layers.1.weight", "image_encoder.trunk.blocks.26.mlp.layers.1.bias", "image_encoder.trunk.blocks.27.mlp.layers.0.weight", "image_encoder.trunk.blocks.27.mlp.layers.0.bias", "image_encoder.trunk.blocks.27.mlp.layers.1.weight", "image_encoder.trunk.blocks.27.mlp.layers.1.bias", "image_encoder.trunk.blocks.28.mlp.layers.0.weight", "image_encoder.trunk.blocks.28.mlp.layers.0.bias", "image_encoder.trunk.blocks.28.mlp.layers.1.weight", "image_encoder.trunk.blocks.28.mlp.layers.1.bias", "image_encoder.trunk.blocks.29.mlp.layers.0.weight", "image_encoder.trunk.blocks.29.mlp.layers.0.bias", "image_encoder.trunk.blocks.29.mlp.layers.1.weight", "image_encoder.trunk.blocks.29.mlp.layers.1.bias", "image_encoder.trunk.blocks.30.mlp.layers.0.weight", "image_encoder.trunk.blocks.30.mlp.layers.0.bias", "image_encoder.trunk.blocks.30.mlp.layers.1.weight", "image_encoder.trunk.blocks.30.mlp.layers.1.bias", "image_encoder.trunk.blocks.31.mlp.layers.0.weight", "image_encoder.trunk.blocks.31.mlp.layers.0.bias", "image_encoder.trunk.blocks.31.mlp.layers.1.weight", "image_encoder.trunk.blocks.31.mlp.layers.1.bias", "image_encoder.trunk.blocks.32.mlp.layers.0.weight", "image_encoder.trunk.blocks.32.mlp.layers.0.bias", "image_encoder.trunk.blocks.32.mlp.layers.1.weight", "image_encoder.trunk.blocks.32.mlp.layers.1.bias", "image_encoder.trunk.blocks.33.mlp.layers.0.weight", "image_encoder.trunk.blocks.33.mlp.layers.0.bias", "image_encoder.trunk.blocks.33.mlp.layers.1.weight", "image_encoder.trunk.blocks.33.mlp.layers.1.bias", "image_encoder.trunk.blocks.34.mlp.layers.0.weight", "image_encoder.trunk.blocks.34.mlp.layers.0.bias", "image_encoder.trunk.blocks.34.mlp.layers.1.weight", "image_encoder.trunk.blocks.34.mlp.layers.1.bias", "image_encoder.trunk.blocks.35.mlp.layers.0.weight", "image_encoder.trunk.blocks.35.mlp.layers.0.bias", "image_encoder.trunk.blocks.35.mlp.layers.1.weight", "image_encoder.trunk.blocks.35.mlp.layers.1.bias", "image_encoder.trunk.blocks.36.mlp.layers.0.weight", "image_encoder.trunk.blocks.36.mlp.layers.0.bias", "image_encoder.trunk.blocks.36.mlp.layers.1.weight", "image_encoder.trunk.blocks.36.mlp.layers.1.bias", "image_encoder.trunk.blocks.37.mlp.layers.0.weight", "image_encoder.trunk.blocks.37.mlp.layers.0.bias", "image_encoder.trunk.blocks.37.mlp.layers.1.weight", "image_encoder.trunk.blocks.37.mlp.layers.1.bias", "image_encoder.trunk.blocks.38.mlp.layers.0.weight", "image_encoder.trunk.blocks.38.mlp.layers.0.bias", "image_encoder.trunk.blocks.38.mlp.layers.1.weight", "image_encoder.trunk.blocks.38.mlp.layers.1.bias", "image_encoder.trunk.blocks.39.mlp.layers.0.weight", "image_encoder.trunk.blocks.39.mlp.layers.0.bias", "image_encoder.trunk.blocks.39.mlp.layers.1.weight", "image_encoder.trunk.blocks.39.mlp.layers.1.bias", "image_encoder.trunk.blocks.40.mlp.layers.0.weight", "image_encoder.trunk.blocks.40.mlp.layers.0.bias", "image_encoder.trunk.blocks.40.mlp.layers.1.weight", "image_encoder.trunk.blocks.40.mlp.layers.1.bias", "image_encoder.trunk.blocks.41.mlp.layers.0.weight", "image_encoder.trunk.blocks.41.mlp.layers.0.bias", "image_encoder.trunk.blocks.41.mlp.layers.1.weight", "image_encoder.trunk.blocks.41.mlp.layers.1.bias", "image_encoder.trunk.blocks.42.mlp.layers.0.weight", "image_encoder.trunk.blocks.42.mlp.layers.0.bias", "image_encoder.trunk.blocks.42.mlp.layers.1.weight", "image_encoder.trunk.blocks.42.mlp.layers.1.bias", "image_encoder.trunk.blocks.43.mlp.layers.0.weight", "image_encoder.trunk.blocks.43.mlp.layers.0.bias", "image_encoder.trunk.blocks.43.mlp.layers.1.weight", "image_encoder.trunk.blocks.43.mlp.layers.1.bias", "image_encoder.trunk.blocks.44.mlp.layers.0.weight", "image_encoder.trunk.blocks.44.mlp.layers.0.bias", "image_encoder.trunk.blocks.44.mlp.layers.1.weight", "image_encoder.trunk.blocks.44.mlp.layers.1.bias", "image_encoder.trunk.blocks.45.mlp.layers.0.weight", "image_encoder.trunk.blocks.45.mlp.layers.0.bias", "image_encoder.trunk.blocks.45.mlp.layers.1.weight", "image_encoder.trunk.blocks.45.mlp.layers.1.bias", "image_encoder.trunk.blocks.46.mlp.layers.0.weight", "image_encoder.trunk.blocks.46.mlp.layers.0.bias", "image_encoder.trunk.blocks.46.mlp.layers.1.weight", "image_encoder.trunk.blocks.46.mlp.layers.1.bias", "image_encoder.trunk.blocks.47.mlp.layers.0.weight", "image_encoder.trunk.blocks.47.mlp.layers.0.bias", "image_encoder.trunk.blocks.47.mlp.layers.1.weight", "image_encoder.trunk.blocks.47.mlp.layers.1.bias", "sam_mask_decoder.transformer.layers.0.mlp.layers.0.weight", "sam_mask_decoder.transformer.layers.0.mlp.layers.0.bias", "sam_mask_decoder.transformer.layers.0.mlp.layers.1.weight", "sam_mask_decoder.transformer.layers.0.mlp.layers.1.bias", "sam_mask_decoder.transformer.layers.1.mlp.layers.0.weight", "sam_mask_decoder.transformer.layers.1.mlp.layers.0.bias", "sam_mask_decoder.transformer.layers.1.mlp.layers.1.weight", "sam_mask_decoder.transformer.layers.1.mlp.layers.1.bias", "sam_mask_decoder.output_hypernetworks_mlps.0.layers.0.weight", "sam_mask_decoder.output_hypernetworks_mlps.0.layers.0.bias", "sam_mask_decoder.output_hypernetworks_mlps.0.layers.1.weight", "sam_mask_decoder.output_hypernetworks_mlps.0.layers.1.bias", "sam_mask_decoder.output_hypernetworks_mlps.0.layers.2.weight", "sam_mask_decoder.output_hypernetworks_mlps.0.layers.2.bias", "sam_mask_decoder.output_hypernetworks_mlps.1.layers.0.weight", "sam_mask_decoder.output_hypernetworks_mlps.1.layers.0.bias", "sam_mask_decoder.output_hypernetworks_mlps.1.layers.1.weight", "sam_mask_decoder.output_hypernetworks_mlps.1.layers.1.bias", "sam_mask_decoder.output_hypernetworks_mlps.1.layers.2.weight", "sam_mask_decoder.output_hypernetworks_mlps.1.layers.2.bias", "sam_mask_decoder.output_hypernetworks_mlps.2.layers.0.weight", "sam_mask_decoder.output_hypernetworks_mlps.2.layers.0.bias", "sam_mask_decoder.output_hypernetworks_mlps.2.layers.1.weight", "sam_mask_decoder.output_hypernetworks_mlps.2.layers.1.bias", "sam_mask_decoder.output_hypernetworks_mlps.2.layers.2.weight", "sam_mask_decoder.output_hypernetworks_mlps.2.layers.2.bias", "sam_mask_decoder.output_hypernetworks_mlps.3.layers.0.weight", "sam_mask_decoder.output_hypernetworks_mlps.3.layers.0.bias", "sam_mask_decoder.output_hypernetworks_mlps.3.layers.1.weight", "sam_mask_decoder.output_hypernetworks_mlps.3.layers.1.bias", "sam_mask_decoder.output_hypernetworks_mlps.3.layers.2.weight", "sam_mask_decoder.output_hypernetworks_mlps.3.layers.2.bias", "sam_mask_decoder.iou_prediction_head.layers.0.weight", "sam_mask_decoder.iou_prediction_head.layers.0.bias", "sam_mask_decoder.iou_prediction_head.layers.1.weight", "sam_mask_decoder.iou_prediction_head.layers.1.bias", "sam_mask_decoder.iou_prediction_head.layers.2.weight", "sam_mask_decoder.iou_prediction_head.layers.2.bias", "sam_mask_decoder.pred_obj_score_head.layers.0.weight", "sam_mask_decoder.pred_obj_score_head.layers.0.bias", "sam_mask_decoder.pred_obj_score_head.layers.1.weight", "sam_mask_decoder.pred_obj_score_head.layers.1.bias", "sam_mask_decoder.pred_obj_score_head.layers.2.weight", "sam_mask_decoder.pred_obj_score_head.layers.2.bias", "obj_ptr_proj.layers.0.weight", "obj_ptr_proj.layers.0.bias", "obj_ptr_proj.layers.1.weight", "obj_ptr_proj.layers.1.bias", "obj_ptr_proj.layers.2.weight", "obj_ptr_proj.layers.2.bias".

I'd like to ask you, does this situation mean that the parts I modified do not match the content of the "sam2_hiera_large.pt" code? If it's because of the pt file, and I want to modify the MLP module now, how can I train a new pt file? If it's not due to this file, what are the solutions?

xiongxyowo · 2025-02-24T10:56:47Z

Hi, it seems that only the network structure you modified (mlp.layers => mlp.axial_shift_layers) is affected. This is a normal phenomenon. You can modify the build_sam method and set strict=False to avoid this error and continue training.

同学你好，看起来只有你修改的网络结构(mlp.layers=>mlp.axial_shift_layers)受到了影响。这是正常现象，你可以修改build_sam方法，设置strict=False来避免这一错误并正常进行训练。

Biyb · 2025-02-24T10:57:21Z

这是来自QQ邮箱的假期自动回复邮件。你好，我最近正在休假中，无法亲自回复你的邮件。我将在假期结束后，尽快给你回复。

Biyb · 2025-02-27T06:57:36Z

Thank you for your previous reply. However, I couldn't find the "strict=False" parameter in the build_sam.py file you mentioned. So, I'm bothering you to ask specifically. If I want to modify the MLP module and the Hiera Block module, which specific function should I modify?

xiongxyowo · 2025-02-27T09:25:41Z

https://github.com/WZH0120/SAM2-UNet/blob/main/sam2/build_sam.py#L82

missing_keys, unexpected_keys = model.load_state_dict(sd, strict=False)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Change #42

Change #42

Biyb commented Feb 24, 2025

xiongxyowo commented Feb 24, 2025

Uh oh!

Biyb commented Feb 24, 2025 via email

Uh oh!

Biyb commented Feb 27, 2025

Uh oh!

xiongxyowo commented Feb 27, 2025

Uh oh!

Change #42

Change #42

Comments

Biyb commented Feb 24, 2025

xiongxyowo commented Feb 24, 2025

Uh oh!

Biyb commented Feb 24, 2025 via email

Uh oh!

Biyb commented Feb 27, 2025

Uh oh!

xiongxyowo commented Feb 27, 2025

Uh oh!