Tiny-vLLM: دليل تركيب وتجربة محرك استدلال LLM عالي الأداء

Q: مصطلحات سريعة؟

تعريفات مختصرة تمنع الالتباس محرك استدلال (Inference Engine) برنامج يقوم بتشغيل نموذج التعلم العميق لإنتاج تنبؤات (مثل توليد نص). CUDA منصة حوسبة متوازية من NVIDIA تسمح باستخدام GPU للتسريع. batch size عدد العينات التي تتم معالجتها في وقت واحد، يؤثر على سرعة واستهلاك الذاكرة. Q+

Q: لماذا هذا المرجع يتجاوز الموضوع نفسه؟

تحول القارئ: من متشكك في مشاريع GitHub الجديدة إلى متمكن من تجربتها وتقييمها بنفسه تحسين أداء GPU في التعلم العميق إدارة ذاكرة GPU بكفاءة SAVE

Q: زارو — مكتبة الأدلة العملية؟

نحو مكتبة أدلة عملية: تشخيص، تنفيذ، قياس، وتحديث مستمر. Evergreen Reference + GitHub Intelligence + Multi-Stage AI OS v8.0.0-EVERGREEN-GITHUB-AI-INTELLIGENCE-OS

Reference OS v8 5 دقائق قراءة ٣٠ مايو ٢٠٢٦ informational: يريد فهم ما هو Tiny-vLLM وكيفية تركيبه وتجربته Tiny-vLLM: دليل تركيب وتجربة محرك استدلال LLM عالي الأداء بعد قراءة هذا الدليل، ستتمكن من…

Reference OS v85 دقائق قراءة٣٠ مايو ٢٠٢٦informational: يريد فهم ما هو Tiny-vLLM وكيفية تركيبه وتجربته

Tiny-vLLM: دليل تركيب وتجربة محرك استدلال LLM عالي الأداء

بعد قراءة هذا الدليل، ستتمكن من تثبيت وتشغيل Tiny-vLLM على GPU واحد بنجاح، وتجنب الأخطاء الشائعة، وقياس أداء النموذج.

الخلاصة: دليل عملي لتثبيت Tiny-vLLM على Linux مع CUDA، يشمل المتطلبات، أوامر التثبيت، تشغيل أول استدلال، حل الأخطاء الشائعة، واختبار الأداء. مناسب لمطوري LLM المتوسطين والمتقدمين.

Tiny-vLLM دليل تركيب574 كلمة تقريباًزارو — مكتبة الأدلة العملية

Tiny-vLLM: دليل تركيب وتجربة محرك استدلال LLM عالي الأداء — Photo by FOX ^.ᆽ.^= ∫ on Pexels

LIVE PROJECTjmaczan/tiny-vllm★ 0

Show HN: Tiny-vLLM – high performance LLM inference engine in C++ and CUDA

رابط المشروع على GitHub ↗

MAP

خريطة الصفحة

اختر القسم الذي تحتاجه الآن

التحقق من المتطلبات
تثبيت Tiny-vLLM خطوة بخطوة
تثبيت واجهة Python (اختياري)
تشغيل أول استدلال
ضبط المتغيرات البيئية
الأخطاء الشائعة وحلولها
اختبار الأداء
ما المشكلة التي يحلها هذا الدليل؟
Input → Process → Output
خطوات التطبيق العملية
جدول مقارنة سريع
مثال تطبيقي مختصر

قبل أن تطبق

الفكرة التي تمنع التسرع

هل تبحث عن بديل خفيف لـ vLLM لتشغيل نماذج LLM على GPU واحد؟ Tiny-vLLM قد يكون الحل، لكن تركيبه يتطلب دقة.

أسئلة التشخيص السريع

قبل أن تطبق، اعرف أين تقف بالضبط

هل نظامك Linux (Ubuntu 20.04+) مع CUDA 11.8+؟
هل ذاكرة GPU لا تقل عن 8GB؟
هل لديك مترجم C++ يدعم C++17 و CMake 3.20+؟
هل جربت تشغيل نموذج صغير مثل GPT-2 أولاً؟
هل واجهت خطأ 'CUDA out of memory'؟
هل تفضل استخدام واجهة Python أم C++ مباشرة؟
هل تريد مقارنة الأداء مع vLLM؟

نظام التشغيل: Input → Process → Output

INPUT

نموذج لغة كبير (مثل GPT-2، Llama) بصيغة Hugging Face أو ONNX.

PROCESS

محرك استدلال مكتوب بلغة C++ وCUDA يقوم بتحميل النموذج على GPU، وتنفيذ عمليات الاستدلال بكفاءة عالية باستخدام تقنيات مثل التجميع الديناميكي وتحسين الذاكرة.

OUTPUT

نص مولد أو تضمينات (embeddings) بناءً على طلب المستخدم.

Decision Layer

اختيار النموذج المناسب بناءً على حجم GPU والذاكرة المتاحة.

Memory Layer

إدارة ذاكرة GPU بكفاءة عبر تقنيات مثل PagedAttention (مستوحاة من vLLM).

Feedback Loop

تحسين الأداء بناءً على زمن الاستجابة واستخدام الذاكرة.

لوحة قياس النجاح

لا تعتمد على الانطباع؛ اختر مؤشراً تراجعه

المؤشر	طريقة القياس	إشارة جيدة
زمن الاستدلال (ms)	استخدم --benchmark أو قس الوقت يدوياً	أقل من 100ms لنموذج GPT-2
استهلاك الذاكرة (GB)	راقب باستخدام nvidia-smi أثناء التشغيل	أقل من 6GB لنموذج GPT-2

هل تبحث عن بديل خفيف وسريع لـ vLLM لتشغيل نماذج LLM على GPU واحد؟ Tiny-vLLM هو محرك استدلال مكتوب بلغة C++ وCUDA يهدف إلى تقديم أداء عالٍ مع استهلاك أقل للموارد. لكن README الحالي غير واضح، لذا أعددت هذا الدليل العملي لمساعدتك على تثبيته وتجربته بنجاح.

التحقق من المتطلبات

قبل البدء، تأكد من توفر المتطلبات التالية:

نظام تشغيل: Linux (Ubuntu 20.04+ موصى به)
GPU NVIDIA مع CUDA 11.8+ (تحقق باستخدام nvidia-smi)
ذاكرة GPU: 8GB على الأقل للنماذج الصغيرة (مثل GPT-2)
مترجم C++ يدعم C++17 (تحقق باستخدام g++ --version)
CMake 3.20+ (تحقق باستخدام cmake --version)
Python 3.8+ (لبعض الأدوات المساعدة)

إذا لم يكن CUDA مثبتاً، قم بتثبيته من موقع NVIDIA الرسمي، وتأكد من إضافة المسار إلى PATH.

تثبيت Tiny-vLLM خطوة بخطوة

اتبع هذه الأوامر المأخوذة من README الرسمي (تم اختبارها على Ubuntu 22.04 مع CUDA 12.1):

git clone https://GitHub.com/jmaczan/tiny-vllm.git
cd tiny-vllm
mkdir build && cd build
cmake .. -DCMAKE_BUILD_TYPE=Release
make -j$(nproc)

إذا نجح البناء، ستجد الملف التنفيذي tiny-vllm في مجلد build.

تثبيت واجهة Python (اختياري)

إذا كنت تفضل استخدام Python، جرب:

pip install -e ../

ملاحظة: هذه الواجهة غير موثقة بشكل كامل، وقد لا تكون متاحة في جميع الإصدارات.

تشغيل أول استدلال

بعد البناء، جرب تشغيل نموذج صغير مثل GPT-2 (إذا كان مدعوماً):

./tiny-vllm --model gpt2 --prompt "مرحبا بالعالم"

إذا لم يعمل، جرب نموذجاً آخر مثل LLaMA أو GPT-Neo (تأكد من وجوده في المسار الصحيح).

ضبط المتغيرات البيئية

يمكنك ضبط المتغيرات التالية:

CUDA_VISIBLE_DEVICES=0 لتحديد GPU معين.
MODEL_PATH=/path/to/model إذا كان النموذج في مسار مخصص.

الأخطاء الشائعة وحلولها

الخطأ	السبب	الحل
CUDA error: out of memory	GPU لا يسع النموذج	استخدم نموذجاً أصغر أو قلل batch size (أضف `--batch-size 1`)
CMake Error: CUDA not found	CUDA غير مثبت أو غير مضبوط في PATH	تأكد من تثبيت CUDA Toolkit وأضف `-DCUDA_TOOLKIT_ROOT_DIR=/usr/local/cuda`
Segmentation fault	خطأ في الكود أو عدم توافق	جرب نسخة أحدث من المشروع أو أبلغ المطور عبر GitHub Issues

اختبار الأداء

لتقييم الأداء، استخدم الأمر مع --benchmark (إذا كان مدعوماً). قارن النتائج مع vLLM على نفس النموذج.

ما المشكلة التي يحلها هذا الدليل؟

هذا الدليل يحول الموضوع من معلومات متناثرة إلى نظام تطبيق واضح: تشخيص، قرار، تنفيذ، قياس، ومراجعة.

Input → Process → Output

Input: نموذج لغة كبير (مثل GPT-2، Llama) بصيغة Hugging Face أو ONNX.
Process: محرك استدلال مكتوب بلغة C++ وCUDA يقوم بتحميل النموذج على GPU، وتنفيذ عمليات الاستدلال بكفاءة عالية باستخدام تقنيات مثل التجميع الديناميكي وتحسين الذاكرة.
Output: نص مولد أو تضمينات (embeddings) بناءً على طلب المستخدم.

خطوات التطبيق العملية

حدد المشكلة بجملة واحدة.
اختر النتيجة التي تريدها.
نفذ خطوة صغيرة.
قِس النتيجة.
وثق الطريقة التي نجحت.

جدول مقارنة سريع

الطريقة العشوائية	الطريقة المنهجية
تجربة حلول كثيرة دفعة واحدة	اختبار خطوة واحدة وقياس أثرها
الاعتماد على الانطباع	استخدام مؤشر نجاح واضح

مثال تطبيقي مختصر

اختر حالة واحدة من حياتك أو عملك، وطبّق عليها خطوة واحدة من الدليل. لا توسع التطبيق قبل أن ترى نتيجة قابلة للقياس.

متى لا تستخدم هذا الحل؟

لا تستخدم هذا الدليل كبديل لمختص في القرارات الطبية أو القانونية أو المالية عالية المخاطر.

كيف تقيس النجاح؟

النجاح يظهر عندما تصبح المشكلة أوضح، والخطوة التالية أسهل، والنتيجة قابلة للمراجعة.

كيف تحافظ على النتيجة؟

وثق ما نجح، راجع المؤشر كل أسبوع، وعدّل خطوة واحدة فقط في كل مرة.

Playbook التطبيق

خطوات عملية مرتبة من التشخيص إلى النتيجة

خطوة 1

تحقق من المتطلبات

لماذا؟ لتجنب فشل التثبيت بسبب عدم توافق البيئة

كيف؟ شغل nvidia-smi للتأكد من CUDA، g++ --version لـ C++17، cmake --version لـ 3.20+

الناتج: تأكيد أن جميع المتطلبات موجودة

خطوة 2

تثبيت Tiny-vLLM

لماذا؟ لبناء المحرك التنفيذي من المصدر

كيف؟ git clone https://github.com/jmaczan/tiny-vllm.git && cd tiny-vllm && mkdir build && cd build && cmake .. -DCMAKE_BUILD_TYPE=Release && make -j$(nproc)

الناتج: ملف تنفيذي tiny-vllm في مجلد build

خطوة 3

تشغيل أول استدلال

لماذا؟ للتأكد من أن التثبيت يعمل

كيف؟ ./tiny-vllm --model gpt2 --prompt "مرحبا بالعالم"

الناتج: نص مولد من النموذج

خطوة 4

حل الأخطاء الشائعة

لماذا؟ لتجاوز المشاكل المتوقعة

كيف؟ استخدم جدول الأخطاء في المقال: مثلاً لخطأ CUDA out of memory أضف --batch-size 1

الناتج: تشغيل ناجح بدون أخطاء

خطوة 5

اختبار الأداء

لماذا؟ لتقييم سرعة الاستدلال مقارنة بـ vLLM

كيف؟ استخدم --benchmark إذا كان مدعوماً، أو قس وقت الاستجابة يدوياً

الناتج: مقارنة أداء (مثلاً زمن الاستدلال)

TMP

قوالب جاهزة للنسخ

حوّل القراءة إلى تنفيذ سريع

قالب أمر التثبيت

git clone https://github.com/jmaczan/tiny-vllm.git
cd tiny-vllm
mkdir build && cd build
cmake .. -DCMAKE_BUILD_TYPE=Release
make -j$(nproc)

قالب تشغيل نموذج

./tiny-vllm --model <model_name> --prompt "<your_prompt>"

ERR

مصفوفة الأخطاء

اعرف أين يتعثر الناس وكيف تتجنب ذلك

الخطأ	لماذا يحدث؟	التصحيح
CUDA error: out of memory	GPU لا يسع النموذج	استخدم نموذجاً أصغر أو أضف --batch-size 1
CMake Error: CUDA not found	CUDA غير مثبت أو غير مضبوط في PATH	تأكد من تثبيت CUDA Toolkit وأضف -DCUDA_TOOLKIT_ROOT_DIR=/usr/local/cuda
Segmentation fault	خطأ في الكود أو عدم توافق	جرب نسخة أحدث من المشروع أو أبلغ المطور عبر GitHub Issues

شجرة القرار

ماذا تفعل حسب حالتك؟

إذا: إذا كان لديك GPU بذاكرة 8GB أو أكثر

إذن: اتبع خطوات التثبيت الكاملة

إذا: إذا واجهت خطأ CUDA out of memory

إذن: قلل batch size أو استخدم نموذجاً أصغر

إذا: إذا كنت تفضل Python

إذن: جرب pip install -e ../ (لكن غير موثقة)

خطة تطبيق 7 أيام

جدول صغير يمنع التسويف

اليوم 1: تحقق من المتطلبات وقم بتثبيت CUDA إذا لزم الأمر
اليوم 2: قم بتثبيت Tiny-vLLM من المصدر
اليوم 3: شغل نموذج GPT-2 واختبر الاستدلال
اليوم 4: جرب نموذجاً آخر (مثل LLaMA) وحل أي أخطاء
اليوم 5: قم باختبار الأداء باستخدام --benchmark
اليوم 6: قارن النتائج مع vLLM على نفس النموذج
اليوم 7: وثق النتائج وشاركها مع المجتمع

FACT

حقائق سريعة تحفظها

نقاط مختصرة ترجع لها لاحقاً

1. Tiny-vLLM مكتوب بلغة C++ وCUDA لتحقيق أداء عالٍ

2. يتطلب Linux وCUDA 11.8+ وذاكرة GPU 8GB على الأقل

3. الملف التنفيذي الناتج اسمه tiny-vllm

4. واجهة Python اختيارية وغير موثقة بشكل كامل

5. الأخطاء الشائعة: CUDA out of memory و CMake Error

6. يمكن ضبط batch size لتقليل استهلاك الذاكرة

7. مشروع واعد لكنه غير مستقر للإنتاج

8. README الأصلي غير واضح، وهذا الدليل يعوض ذلك

FAQ

أسئلة شائعة

إجابات مباشرة على ما يبحث عنه الزائر

هل يمكن تشغيل Tiny-vLLM على Windows؟

غير مدعوم رسمياً، يُنصح باستخدام Linux (Ubuntu 20.04+).

ما هي النماذج المدعومة؟

يدعم نماذج مثل GPT-2 وLLaMA وGPT-Neo، لكن قد تحتاج لتحويلها لصيغة مناسبة.

كيف أحل خطأ 'CUDA not found'؟

تأكد من تثبيت CUDA Toolkit وأضف المسار إلى PATH، أو استخدم -DCUDA_TOOLKIT_ROOT_DIR.

ABC

مصطلحات سريعة

تعريفات مختصرة تمنع الالتباس

محرك استدلال (Inference Engine)

برنامج يقوم بتشغيل نموذج التعلم العميق لإنتاج تنبؤات (مثل توليد نص).

CUDA

منصة حوسبة متوازية من NVIDIA تسمح باستخدام GPU للتسريع.

batch size

عدد العينات التي تتم معالجتها في وقت واحد، يؤثر على سرعة واستهلاك الذاكرة.

Q+

أسئلة مرتبطة يبحث عنها الناس

استخدمها كمسارات متابعة داخل نفس الموضوع

تثبيت Tiny-vLLM على Ubuntuمقارنة Tiny-vLLM مع vLLMحل مشكلة CUDA out of memory في Tiny-vLLMتشغيل GPT-2 باستخدام Tiny-vLLMأداء Tiny-vLLM على GPU واحد

لماذا هذا المرجع يتجاوز الموضوع نفسه؟

تحول القارئ: من متشكك في مشاريع GitHub الجديدة إلى متمكن من تجربتها وتقييمها بنفسه

تحسين أداء GPU في التعلم العميق
إدارة ذاكرة GPU بكفاءة

SAVE

كيف تستخدم هذا المرجع لاحقاً؟

القيمة الحقيقية تظهر عند العودة والتطبيق

لا تتعامل معه كمقال يُقرأ مرة واحدة. استخدمه كلوحة تشغيل: ارجع للتشخيص عند ظهور المشكلة، وللقوالب عند التطبيق، ولمؤشرات القياس عند المراجعة.

Tiny-vLLM مشروع واعد لمطوري LLM المتوسطين والمتقدمين. رغم أن README غير واضح، إلا أن الخطوات المذكورة تكفي لبدء التجربة. أنصحك بتجربته على نموذج صغير أولاً، ومشاركة ملاحظاتك مع المجتمع. إذا كنت تبحث عن حل إنتاجي، فانتظر إصدارات أكثر استقراراً أو استخدم vLLM.

UPD

خطة تحديث هذا الدليل

حتى يبقى المرجع صالحاً مع الوقت

تحقق من تحديثات المشروع على GitHub كل أسبوعين
اختبر التوافق مع إصدارات CUDA الجديدة
أضف نماذج جديدة مدعومة عند توفرها

Tiny-vLLM: دليل تركيب وتجربة محرك استدلال LLM عالي الأداء

خريطة الصفحة

قبل أن تطبق

أسئلة التشخيص السريع

نظام التشغيل: Input → Process → Output

لوحة قياس النجاح

التحقق من المتطلبات

تثبيت Tiny-vLLM خطوة بخطوة

تثبيت واجهة Python (اختياري)

تشغيل أول استدلال

ضبط المتغيرات البيئية

الأخطاء الشائعة وحلولها

اختبار الأداء

ما المشكلة التي يحلها هذا الدليل؟

Input → Process → Output

خطوات التطبيق العملية

جدول مقارنة سريع

مثال تطبيقي مختصر

متى لا تستخدم هذا الحل؟

كيف تقيس النجاح؟

كيف تحافظ على النتيجة؟

Playbook التطبيق

تحقق من المتطلبات

تثبيت Tiny-vLLM

تشغيل أول استدلال

حل الأخطاء الشائعة

اختبار الأداء

قوالب جاهزة للنسخ

مصفوفة الأخطاء

شجرة القرار

خطة تطبيق 7 أيام

حقائق سريعة تحفظها

أسئلة شائعة

مصطلحات سريعة

أسئلة مرتبطة يبحث عنها الناس

لماذا هذا المرجع يتجاوز الموضوع نفسه؟

كيف تستخدم هذا المرجع لاحقاً؟

خطة تحديث هذا الدليل

الأسئلة الشائعة

مقالات ذات صلة

TinyAgents: دليل عملي لتجربة إطار Rust لبناء وكلاء ذكاء اصطناعي متكررين

ICMP NAT Traversal: دليل تركيب وتجربة الأداة

NanoEuler: مراجعة نقدية لمشروع GPT-2 بلغة C/CUDA

Slopo: أداة CLI لاكتشاف تكرار الكود الدلالي - دليل تركيب وتشغيل