Skip to content

Commit 69b5ccb

Browse files
authored
Add Translate docs into Arabic - section files CONCEPTUAL GUIDES (#33982)
Add Translate docs into Arabic - section files CONCEPTUAL GUIDES --------------------------------------------------------------------------------------- Philosophy [i18n-ar] Translated file : docs/source/ar/philosophy.md into Arabic #33064 Glossary [i18n-ar] Translated file : docs/source/ar/glossary.md into Arabic #33038 What 🤗 Transformers can do [i18n-ar] Translated file : docs/source/ar/task_summary.md into Arabic #33073 How 🤗 Transformers solve tasks [i18n-ar] Translated file : docs/source/ar/tasks_explained.md into Arabic #33074 The Transformer model family [i18n-ar] Translated file : docs/source/ar/model_summary.md into Arabic #33047 Summary of the tokenizers [i18n-ar] Translated file : docs/source/ar/tokenizer_summary.md into Arabic #33078 Attention [i18n-ar] Translated file : docs/source/ar/attention.md into Arabic #33021 Padding and truncation [i18n-ar] Translated file : docs/source/ar/pad_truncation.md into Arabic #33050 BERTology [i18n-ar] Translated file : docs/source/ar/bertology.md into Arabic #33024 Perplexity of fixed-length models [i18n-ar] Translated file : docs/source/ar/perplexity.md into Arabic #33063 Pipelines for webserver inference [i18n-ar] Translated file : docs/source/ar/pipeline_webserver.md into Arabic #33066 Model training anatomy [i18n-ar] Translated file : docs/source/ar/model_memory_anatomy.md into Arabic #33045 Getting the most out of LLMs [i18n-ar] Translated file : docs/source/ar/llm_tutorial_optimization.md into Arabic #33043
1 parent 88d01d9 commit 69b5ccb

13 files changed

+2298
-24
lines changed

docs/source/ar/_toctree.yml

Lines changed: 24 additions & 24 deletions
Original file line numberDiff line numberDiff line change
@@ -217,32 +217,32 @@
217217
# title: التحقق من طلب السحب
218218
# title: المساهمة
219219
- sections:
220-
# - local: philosophy
221-
# title: الفلسفة
220+
- local: philosophy
221+
title: الفلسفة
222222
- local: glossary
223223
title: (قاموس المصطلحات (قائمة الكلمات
224-
# - local: task_summary
225-
# title: ما الذي يمكن أن تفعله 🤗 المحولات
226-
# - local: tasks_explained
227-
# title: كيف تحل المحولات المهام
228-
# - local: model_summary
229-
# title: عائلة نماذج المحول
230-
# - local: tokenizer_summary
231-
# title: ملخص برنامج مقسم النصوص (tokenizers)
232-
# - local: attention
233-
# title: الانتباه Attention
234-
# - local: pad_truncation
235-
# title: الحشو والتقليم
236-
# - local: bertology
237-
# title: BERTology
238-
# - local: perplexity
239-
# title: حيرة النماذج ذات الطول الثابت
240-
# - local: pipeline_webserver
241-
# title: خطوط الأنابيب للاستدلال على خادم الويب
242-
# - local: model_memory_anatomy
243-
# title: تشريح تدريب النموذج
244-
# - local: llm_tutorial_optimization
245-
# title: الاستفادة القصوى من LLMs
224+
- local: task_summary
225+
title: ما الذي يمكن أن تفعله 🤗 المحولات
226+
- local: tasks_explained
227+
title: كيف تحل المحولات المهام
228+
- local: model_summary
229+
title: عائلة نماذج المحول
230+
- local: tokenizer_summary
231+
title: ملخص برنامج مقسم النصوص (tokenizers)
232+
- local: attention
233+
title: الانتباه Attention
234+
- local: pad_truncation
235+
title: الحشو والتقليم
236+
- local: bertology
237+
title: BERTology
238+
- local: perplexity
239+
title: حيرة النماذج ذات الطول الثابت
240+
- local: pipeline_webserver
241+
title: خطوط الأنابيب للاستدلال على خادم الويب
242+
- local: model_memory_anatomy
243+
title: تشريح تدريب النموذج
244+
- local: llm_tutorial_optimization
245+
title: الاستفادة القصوى من LLMs
246246
title: أطر مفاهيمية
247247
# - sections:
248248
# - sections:

docs/source/ar/attention.md

Lines changed: 25 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,25 @@
1+
# آليات الانتباه
2+
3+
تستخدم معظم نماذج المحول (Transformer) الانتباه الكامل بحيث تكون مصفوفة الانتباه ذات الأبعاد المتساوية. ويمكن أن يمثل ذلك عقبة حسابية كبيرة عندما تكون لديك نصوص طويلة. ويعد Longformer وReformer من النماذج التي تحاول أن تكون أكثر كفاءة وتستخدم نسخة مخففة من مصفوفة الانتباه لتسريع التدريب.
4+
5+
## انتباه LSH
6+
7+
يستخدم [Reformer](model_doc/reformer) انتباه LSH. في الدالة softmax(QK^t)، فإن أكبر العناصر فقط (في بعد softmax) من المصفوفة QK^t هي التي ستعطي مساهمات مفيدة. لذلك، بالنسبة لكل استعلام q في Q، يمكننا أن نأخذ في الاعتبار فقط المفاتيح k في K المشابهة لـ q فقط. وتُستخدم دالة هاش لتحديد ما إذا كان q وk متشابهين. ويتم تعديل قناع الانتباه لتجاهل الرمز الحالي (باستثناء الموضع الأول)، لأنه سيعطي استعلامًا ومفتاحًا متساويين (لذلك متشابهين للغاية). نظرًا لطبيعة دالة الهاش العشوائية نوعًا ما، يتم في الممارسة العملية استخدام عدة دوال هاش (يحددها معامل n_rounds) ثم يتم حساب المتوسط معًا.
8+
9+
## الانتباه المحلي
10+
11+
يستخدم [Longformer](model_doc/longformer) الانتباه المحلي: غالبًا ما يكون السياق المحلي (على سبيل المثال، ما هما الرمزان إلى اليسار واليمين؟) كافيًا لاتخاذ إجراء بالنسبة للرمز المعطى. أيضًا، عن طريق تكديس طبقات الانتباه التي لها نافذة صغيرة، سيكون للطبقة الأخيرة مجال استقبال أكبر من مجرد الرموز في النافذة، مما يسمح لها ببناء تمثيل للجملة بأكملها.
12+
13+
كما يتم منح بعض رموز الإدخال المختارة مسبقًا انتباهًا عالميًا: بالنسبة لهذه الرموز القليلة، يمكن لمصفوفة الانتباه الوصول إلى جميع الرموز وتكون هذه العملية متماثلة: فلجميع الرموز الأخرى إمكانية الوصول إلى تلك الرموز المحددة (بالإضافة إلى تلك الموجودة في نافذتهم المحلية). وهذا موضح في الشكل 2d من الورقة، انظر أدناه لمثال على قناع الانتباه:
14+
15+
<div class="flex justify-center">
16+
<img scale="50 %" align="center" src="https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/local_attention_mask.png"/>
17+
</div>
18+
19+
وباستخدام مصفوفات الانتباه هذه التي تحتوي على عدد أقل من المعلمات، يسمح النموذج بمدخالات ذات طول تسلسل أكبر.
20+
21+
## حيل أخرى
22+
23+
### الترميزات الموضعية المحورية
24+
25+
يستخدم [Reformer](model_doc/reformer) ترميزات موضعية محورية: في نماذج المحول التقليدية، يكون الترميز الموضعي E مصفوفة بحجم \\(l\\) في \\(d\\)، حيث \\(l\\) هو طول التسلسل و\\(d\\) هو بعد الحالة المخفية. إذا كان لديك نصوص طويلة جدًا، فقد تكون هذه المصفوفة ضخمة وتستهلك مساحة كبيرة جدًا على وحدة معالجة الرسوميات (GPU). وللتخفيف من ذلك، تتكون الترميزات الموضعية المحورية من تحليل تلك المصفوفة الكبيرة E إلى مصفوفتين أصغر E1 وE2، بأبعاد \\(l_{1} \times d_{1}\\) و \\(l_{2} \times d_{2}\\)، بحيث \\(l_{1} \times l_{2} = l\\) و\\(d_{1} + d_{2} = d\\) (مع حاصل ضرب الأطوال، ينتهي الأمر بكونه أصغر بكثير). ويتم الحصول على الترميز للخطوة الزمنية \\(j\\) في E عن طريق ربط الترميزات للخطوة الزمنية \\(j \% l1\\) في E1 و \\(j // l1\\) في E2.

docs/source/ar/bertology.md

Lines changed: 18 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,18 @@
1+
# BERTology
2+
3+
يُشهد في الآونة الأخيرة نمو مجال دراسي يُعنى باستكشاف آلية عمل نماذج المحولات الضخمة مثل BERT (والذي يُطلق عليها البعض اسم "BERTology"). ومن الأمثلة البارزة على هذا المجال ما يلي:
4+
5+
- BERT Rediscovers the Classical NLP Pipeline بواسطة Ian Tenney و Dipanjan Das و Ellie Pavlick:
6+
https://arxiv.org/abs/1905.05950
7+
- Are Sixteen Heads Really Better than One? بواسطة Paul Michel و Omer Levy و Graham Neubig: https://arxiv.org/abs/1905.10650
8+
- What Does BERT Look At? An Analysis of BERT's Attention بواسطة Kevin Clark و Urvashi Khandelwal و Omer Levy و Christopher D.
9+
Manning: https://arxiv.org/abs/1906.04341
10+
- CAT-probing: A Metric-based Approach to Interpret How Pre-trained Models for Programming Language Attend Code Structure: https://arxiv.org/abs/2210.04633
11+
12+
لإثراء هذا المجال الناشئ، قمنا بتضمين بعض الميزات الإضافية في نماذج BERT/GPT/GPT-2 للسماح للناس بالوصول إلى التمثيلات الداخلية، والتي تم تكييفها بشكل أساسي من العمل الرائد لـ Paul Michel (https://arxiv.org/abs/1905.10650):
13+
14+
- الوصول إلى جميع الحالات المخفية في BERT/GPT/GPT-2،
15+
- الوصول إلى جميع أوزان الانتباه لكل رأس في BERT/GPT/GPT-2،
16+
- استرجاع قيم ومشتقات مخرجات الرأس لحساب درجة أهمية الرأس وحذفه كما هو موضح في https://arxiv.org/abs/1905.10650.
17+
18+
ولمساعدتك على فهم واستخدام هذه الميزات بسهولة، أضفنا مثالًا برمجيًا محددًا: [bertology.py](https://github.com/huggingface/transformers/tree/main/examples/research_projects/bertology/run_bertology.py) أثناء استخراج المعلومات وتقليص من نموذج تم تدريبه مسبقًا على GLUE.

0 commit comments

Comments
 (0)