Visualing attention layers (q-k) 

Dear Authors,

Thank you for your amazing work, it is very inspiring.

I was wondering if you ever tried to visualize the attention your network? 
Does it learn anthing meaningful like following: (borrowed from https://jacobgil.github.io/deeplearning/vision-transformer-explainability)

![image](https://github.com/user-attachments/assets/12f8a666-3574-49b1-a067-32efbb07d448)

Thank you!