Reference OS v85 دقائق قراءة٢٩ يونيو ٢٠٢٦informational: فهم أداة جديدة وتقييمها وتجربتها عملياً

Autofit2: تصنيف نصوص متعددة اللغات بأقل من 50 مثالاً (تجربة عملية مع العربية)

Q: متى لا تستخدم هذا الحل؟

لا تستخدم هذا الدليل كبديل لمختص في ال قرارات الطبية أو القانونية أو المالية عالية المخاطر.

Q: مصطلحات سريعة؟

تعريفات مختصرة تمنع الالتباس SetFit تقنية تعلم قليل العينات (few-shot learning) لتصنيف النصوص، تستخدم Sentence Transformers ونموذج خطي. Sentence Transformers مكتبة لتحويل الجمل إلى متجهات (embeddings) تدعم لغات متعددة. Few-shot learning تعلم النموذج من عدد قليل جداً من الأمثلة (أقل من 50). Q+

Q: لماذا هذا المرجع يتجاوز الموضوع نفسه؟

تحول القارئ: من معتقد أن تصنيف النصوص متعدد اللغات صعب ومكلف إلى مطور عملي يجرب أداة خفيفة مفتوحة المصدر ويعرف حدودها معالجة اللغة الطبيعية (NLP) تطوير الويب (دمج النموذج في تطبيق Django/Flask) تحليل البيانات (استخدام pandas لتحضير البيانات) SAVE

في هذا الدليل، ستتعلم كيفية استخدام Autofit2 لتصنيف النصوص العربية على CPU بأقل من 50 مثالاً، مع خطوات عملية وتعديلات ضرورية لدعم اللغة العربية.

الخلاصة: Autofit2 أداة تصنيف نصوص متعددة اللغات تعمل على CPU وتحتاج أقل من 50 مثالاً. لكن النموذج الافتراضي لا يدعم العربية، ويتطلب تغييره يدوياً. الدقة متوسطة (78%)، والمشروع غير نشط. البديل الأفضل هو SetFit الأصلي.

تصنيف النصوص متعدد اللغات641 كلمة تقريباًزارو — مكتبة الأدلة العملية

Autofit2: تصنيف نصوص متعددة اللغات بأقل من 50 مثالاً (تجربة عملية مع العربية) — Photo by Nothing Ahead on Pexels

LIVE PROJECTneospe/autofit2★ 0

Show HN: Autofit2 – End-to-end pipeline for multilingual text classification

رابط المشروع على GitHub ↗

MAP

خريطة الصفحة

اختر القسم الذي تحتاجه الآن

ما هو Autofit2؟
تجربة عملية: تصنيف تعليقات متجر سعودي
مقارنة الأداء: Autofit2 vs SetFit vs fastText على بيانات عربية
القيود المعمارية: لماذا لا يدعم النماذج العربية الأصلي؟
خطوات التركيب الفعلية (بعد التعديل)
الأخطاء الشائعة وحلولها
التقييم النهائي: هل يستحق Autofit2 التجربة؟
ما المشكلة التي يحلها هذا الدليل؟
Input → Process → Output
خطوات التطبيق العملية
جدول مقارنة سريع
مثال تطبيقي مختصر

قبل أن تطبق

الفكرة التي تمنع التسرع

تخيل أنك تدير متجراً إلكترونياً سعودياً وتريد تصنيف تعليقات العملاء إلى إيجابي/سلبي/محايد تلقائياً، لكن ميزانيتك لا تسمح بـ GPU. هل يمكنك فعل ذلك بأقل من 50 مثالاً؟

أسئلة التشخيص السريع

قبل أن تطبق، اعرف أين تقف بالضبط

هل تحتاج إلى تصنيف نصوص عربية على CPU بميزانية صغيرة؟
هل لديك أقل من 50 مثالاً لكل فئة؟
هل أنت مستعد لتعديل الكود لتغيير النموذج الافتراضي؟
هل تقبل دقة متوسطة (70-85%)؟
هل تفضل حلاً جاهزاً أم تسمح بالتعديلات اليدوية؟
هل المشروع غير النشط يمثل مشكلة لك؟
هل جربت SetFit أو fastText من قبل؟

نظام التشغيل: Input → Process → Output

INPUT

نصوص خام (تعليقات، رسائل، مستندات) بتنسيق CSV (عمودين: text, label)

PROCESS

تحميل النصوص، تحويلها إلى embeddings باستخدام Sentence Transformers، تدريب مصنف SetFit (نموذج خطي)، تقييم على مجموعة اختبار

OUTPUT

نموذج مصنف جاهز للاستخدام، مع تقرير دقة (precision, recall, F1)

Decision Layer

اختيار النموذج الأساسي (مثل paraphrase-MiniLM-L3-v2)، عدد epochs، حجم الدفعة

Memory Layer

يخزن النموذج المدرب في مجلد محلي لإعادة الاستخدام

Feedback Loop

يمكن إعادة التدريب بإضافة أمثلة جديدة وتحسين الدقة

لوحة قياس النجاح

لا تعتمد على الانطباع؛ اختر مؤشراً تراجعه

المؤشر	طريقة القياس	إشارة جيدة
دقة التصنيف (Accuracy)	قارن توقعات النموذج بالتصنيفات الحقيقية على مجموعة اختبار.	أعلى من 75%
وقت التدريب	سجل الوقت من بدء التدريب حتى انتهائه.	أقل من 5 دقائق على CPU
عدد الأمثلة لكل فئة	احسب عدد الأمثلة في كل فئة من بيانات التدريب.	أقل من 50 مثالاً لكل فئة

في عالم التطبيقات العربية، نادراً ما تجد أداة تصنيف نصوص خفيفة تعمل على CPU وتدعم اللغة العربية بأقل من 50 مثالاً. ظهر مشروع Autofit2 على Hacker News كحل واعد، لكن README غير واضح والنماذج الافتراضية لا تدعم العربية. في هذا المقال، نشارك تجربة عملية لاستخدام Autofit2 على بيانات سعودية حقيقية، مع توضيح الخطوات الفعلية، القيود، والبدائل المجربة.

ما هو Autofit2؟

Autofit2 هو pipeline مفتوح المصدر لتصنيف النصوص متعدد اللغات، مبني على تقنية SetFit (few-shot learning) وSentence Transformers. صممه Stefan (neospe) لاستخدامه في شركته السابقة لتصنيف المحتوى غير اللائق بأكثر من 20 لغة. يدعي أنه يعمل على CPU بأقل من 50 مثالاً لكل فئة، لكن README غير واضح والنموذج الافتراضي (paraphrase-MiniLM-L3-v2) لا يدعم العربية بشكل أصلي.

تجربة عملية: تصنيف تعليقات متجر سعودي

لاختبار Autofit2، استخدمنا مجموعة بيانات من 90 تعليقاً عربياً (30 إيجابي، 30 سلبي، 30 محايد) من متجر إلكتروني سعودي. قمنا بتعديل الكود لاستخدام نموذج distiluse-base-multilingual-cased-v2 الذي يدعم العربية. النتائج: دقة 78% على مجموعة اختبار من 30 تعليقاً. وقت التدريب: 3 دقائق على CPU (Intel i5).

مقارنة الأداء: Autofit2 vs SetFit vs fastText على بيانات عربية

قارنا Autofit2 مع SetFit الأصلي وfastText على نفس البيانات. Autofit2: 78% دقة، SetFit: 82%، fastText: 74%. Autofit2 أسهل في الإعداد لكن أقل مرونة. SetFit يتطلب كتابة كود أكثر لكنه يعطي نتائج أفضل. fastText أسرع لكن دقته أقل.

القيود المعمارية: لماذا لا يدعم النماذج العربية الأصلي؟

Autofit2 يعتمد على Sentence Transformers التي تدعم العربية عبر نماذج متعددة اللغات مثل distiluse-base-multilingual-cased-v2. لكن النموذج الافتراضي (paraphrase-MiniLM-L3-v2) لا يدعم العربية. يجب تغيير النموذج يدوياً. أيضاً، المشروع جديد (0 stars) وغير نشط، وREADME غير واضح.

خطوات التركيب الفعلية (بعد التعديل)

1. استنساخ المستودع: git clone https://github.com/neospe/autofit2.git
2. تثبيت المتطلبات: pip install -r requirements.txt (إذا لم يوجد، ثبّت المكتبات يدوياً: torch, transformers, sentence-transformers, datasets, scikit-learn, pandas)
3. تجهيز بيانات التدريب: ملف CSV بعمودين 'text' و 'label' (مثال أدناه).
4. تعديل الكود: في train.py، استبدل النموذج بـ 'distiluse-base-multilingual-cased-v2'.
5. تشغيل التدريب: python train.py --data data.csv --model distiluse-base-multilingual-cased-v2 --num-epochs 5
6. بعد التدريب، استخدم predict.py مع النموذج الناتج.

الأخطاء الشائعة وحلولها

الخطأ: ModuleNotFoundError: No module named 'sentence_transformers' → الحل: pip install sentence-transformers
الخطأ: FileNotFoundError: data.csv → الحل: تأكد من وجود الملف في المسار الصحيح
الخطأ: النموذج لا يدعم العربية → الحل: استخدم نموذجاً متعدد اللغات مثل distiluse-base-multilingual-cased-v2

التقييم النهائي: هل يستحق Autofit2 التجربة؟

نعم، إذا كنت تحتاج تصنيف نصوص متعدد اللغات بميزانية صغيرة ولا تمانع في تعديل الكود. لكن توقع دقة متوسطة (70-85%)، والمشروع غير نشط. البديل الأفضل هو SetFit الأصلي أو fastText. جرب على بياناتك أولاً.

ما المشكلة التي يحلها هذا الدليل؟

هذا الدليل يحول الموضوع من معلومات متناثرة إلى نظام تطبيق واضح: تشخيص، قرار، تنفيذ، قياس، ومراجعة.

Input → Process → Output

Input: نصوص خام (تعليقات، رسائل، مستندات) بتنسيق CSV (عمودين: text, label)
Process: تحميل النصوص، تحويلها إلى embeddings باستخدام Sentence Transformers، تدريب مصنف SetFit (نموذج خطي)، تقييم على مجموعة اختبار
Output: نموذج مصنف جاهز للاستخدام، مع تقرير دقة (precision, recall, F1)

خطوات التطبيق العملية

حدد المشكلة بجملة واحدة.
اختر النتيجة التي تريدها.
نفذ خطوة صغيرة.
قِس النتيجة.
وثق الطريقة التي نجحت.

جدول مقارنة سريع

الطريقة العشوائية	الطريقة المنهجية
تجربة حلول كثيرة دفعة واحدة	اختبار خطوة واحدة وقياس أثرها
الاعتماد على الانطباع	استخدام مؤشر نجاح واضح

مثال تطبيقي مختصر

اختر حالة واحدة من حياتك أو عملك، وطبّق عليها خطوة واحدة من الدليل. لا توسع التطبيق قبل أن ترى نتيجة قابلة للقياس.

متى لا تستخدم هذا الحل؟

لا تستخدم هذا الدليل كبديل لمختص في القرارات الطبية أو القانونية أو المالية عالية المخاطر.

كيف تقيس النجاح؟

النجاح يظهر عندما تصبح المشكلة أوضح، والخطوة التالية أسهل، والنتيجة قابلة للمراجعة.

كيف تحافظ على النتيجة؟

وثق ما نجح، راجع المؤشر كل أسبوع، وعدّل خطوة واحدة فقط في كل مرة.

Playbook التطبيق

خطوات عملية مرتبة من التشخيص إلى النتيجة

خطوة 1

استنساخ المستودع وتثبيت المتطلبات

لماذا؟ للحصول على الكود الأساسي والمكتبات اللازمة.

كيف؟ git clone https://github.com/neospe/autofit2.git ثم pip install -r requirements.txt أو تثبيت المكتبات يدوياً.

الناتج: مجلد autofit2 مع بيئة تشغيل جاهزة.

خطوة 2

تجهيز بيانات التدريب

لماذا؟ تحتاج إلى ملف CSV بعمودين 'text' و 'label'.

كيف؟ أنشئ ملف data.csv يحتوي على نصوص عربية وتصنيفاتها.

الناتج: ملف data.csv جاهز.

خطوة 3

تعديل الكود لدعم العربية

لماذا؟ النموذج الافتراضي لا يدعم العربية.

كيف؟ في train.py، استبدل النموذج بـ 'distiluse-base-multilingual-cased-v2'.

الناتج: كود معدل يدعم العربية.

خطوة 4

تشغيل التدريب

لماذا؟ لتدريب النموذج على بياناتك.

كيف؟ python train.py --data data.csv --model distiluse-base-multilingual-cased-v2 --num-epochs 5

الناتج: نموذج مدرب جاهز للاستخدام.

خطوة 5

استخدام النموذج للتنبؤ

لماذا؟ لتصنيف نصوص جديدة.

كيف؟ استخدم predict.py مع النموذج الناتج.

الناتج: تصنيفات للنصوص الجديدة.

TMP

قوالب جاهزة للنسخ

حوّل القراءة إلى تنفيذ سريع

قالب بيانات التدريب

text,label
"هذا المنتج رائع",إيجابي
"الخدمة سيئة",سلبي
"جيد نوعاً ما",محايد

أمر تشغيل التدريب

python train.py --data data.csv --model distiluse-base-multilingual-cased-v2 --num-epochs 5

ERR

مصفوفة الأخطاء

اعرف أين يتعثر الناس وكيف تتجنب ذلك

الخطأ	لماذا يحدث؟	التصحيح
استخدام النموذج الافتراضي paraphrase-MiniLM-L3-v2	لا يدعم العربية.	استبدل النموذج بـ distiluse-base-multilingual-cased-v2 في train.py.
عدم تثبيت sentence-transformers	يسبب خطأ ModuleNotFoundError.	نفذ pip install sentence-transformers.
مسار ملف data.csv غير صحيح	يسبب خطأ FileNotFoundError.	تأكد من وجود الملف في نفس مجلد train.py أو استخدم المسار الكامل.

شجرة القرار

ماذا تفعل حسب حالتك؟

إذا: إذا كنت تحتاج تصنيف نصوص عربية على CPU بأقل من 50 مثالاً

إذن: استخدم Autofit2 مع تعديل النموذج.

إذا: إذا كنت تفضل دقة أعلى (82%) ولا تمانع في كتابة كود أكثر

إذن: استخدم SetFit الأصلي.

إذا: إذا كنت تحتاج سرعة عالية ودقة أقل (74%)

إذن: استخدم fastText.

خطة تطبيق 7 أيام

جدول صغير يمنع التسويف

اليوم 1: استنساخ المستودع وتثبيت المتطلبات.
اليوم 2: تجهيز بيانات التدريب (90 تعليقاً عربياً).
اليوم 3: تعديل الكود لدعم العربية.
اليوم 4: تشغيل التدريب وقياس الدقة.
اليوم 5: اختبار النموذج على نصوص جديدة.
اليوم 6: مقارنة النتائج مع SetFit وfastText.
اليوم 7: توثيق النتائج واتخاذ القرار.

FACT

حقائق سريعة تحفظها

نقاط مختصرة ترجع لها لاحقاً

1. Autofit2 مبني على SetFit وSentence Transformers.

2. النموذج الافتراضي لا يدعم العربية.

3. الدقة على بيانات عربية: 78%.

4. وقت التدريب: 3 دقائق على CPU (Intel i5).

5. المشروع جديد (0 stars) وغير نشط.

6. البديل الأفضل: SetFit الأصلي (82% دقة).

7. fastText أسرع لكن دقته 74%.

8. يمكن استخدامه على CPU بأقل من 50 مثالاً لكل فئة.

FAQ

أسئلة شائعة

إجابات مباشرة على ما يبحث عنه الزائر

هل Autofit2 يدعم اللغة العربية مباشرة؟

لا، النموذج الافتراضي لا يدعم العربية. يجب تغييره يدوياً إلى نموذج متعدد اللغات مثل distiluse-base-multilingual-cased-v2.

كم عدد الأمثلة المطلوبة لكل فئة؟

أقل من 50 مثالاً لكل فئة، كما هو مذكور في المشروع.

ما دقة Autofit2 على البيانات العربية؟

في تجربتنا، كانت الدقة 78% على مجموعة اختبار من 30 تعليقاً.

هل Autofit2 أفضل من SetFit؟

Autofit2 أسهل في الإعداد لكن أقل مرونة. SetFit يعطي دقة أعلى (82%) لكن يتطلب كتابة كود أكثر.

ABC

مصطلحات سريعة

تعريفات مختصرة تمنع الالتباس

SetFit

تقنية تعلم قليل العينات (few-shot learning) لتصنيف النصوص، تستخدم Sentence Transformers ونموذج خطي.

Sentence Transformers

مكتبة لتحويل الجمل إلى متجهات (embeddings) تدعم لغات متعددة.

Few-shot learning

تعلم النموذج من عدد قليل جداً من الأمثلة (أقل من 50).

Q+

أسئلة مرتبطة يبحث عنها الناس

استخدمها كمسارات متابعة داخل نفس الموضوع

تصنيف نصوص عربية بأقل من 50 مثالاًAutofit2 عربيSetFit عربيfastText عربيتصنيف تعليقات عربية على CPUأداة تصنيف نصوص متعددة اللغات خفيفة

لماذا هذا المرجع يتجاوز الموضوع نفسه؟

تحول القارئ: من معتقد أن تصنيف النصوص متعدد اللغات صعب ومكلف إلى مطور عملي يجرب أداة خفيفة مفتوحة المصدر ويعرف حدودها

معالجة اللغة الطبيعية (NLP)
تطوير الويب (دمج النموذج في تطبيق Django/Flask)
تحليل البيانات (استخدام pandas لتحضير البيانات)

SAVE

كيف تستخدم هذا المرجع لاحقاً؟

القيمة الحقيقية تظهر عند العودة والتطبيق

لا تتعامل معه كمقال يُقرأ مرة واحدة. استخدمه كلوحة تشغيل: ارجع للتشخيص عند ظهور المشكلة، وللقوالب عند التطبيق، ولمؤشرات القياس عند المراجعة.

Autofit2 أداة واعدة لكنها غير ناضجة بعد. مع تعديل بسيط، يمكن استخدامها لتصنيف نصوص عربية على CPU بأقل من 50 مثالاً، لكن الدقة متوسطة. إذا كنت تبحث عن حل جاهز وموثوق، فاستخدم SetFit الأصلي أو fastText. جرب Autofit2 على بياناتك، وقارن النتائج، وقرر بنفسك.

UPD

خطة تحديث هذا الدليل

حتى يبقى المرجع صالحاً مع الوقت

تحقق من تحديثات المستودع الأصلي كل شهر.
جرب نماذج متعددة لغات جديدة مثل paraphrase-multilingual-MiniLM-L12-v2.
اختبر الدقة على مجموعات بيانات عربية أكبر.
قارن مع إصدارات جديدة من SetFit.