Reference OS v85 دقائق قراءة١ يونيو ٢٠٢٦informational

دليل تركيب وتشغيل Tiny-vLLM: محرك استدلال LLM بلغة C++ وCUDA

Q: من يحتاج Tiny-vLLM ومن لا؟

إعلان يناسبك إذا: كنت مطوراً متوسطاً أو متقدماً، لديك بطاقة NVIDIA مع 8GB VRAM على الأقل، وتريد تشغيل نماذج صغيرة إلى متوسطة (مثل GPT-2، LLaMA-7B) محلياً بأداء جيد. لا يناسبك إذا: كنت مبتدئاً، أو ليس لديك GPU NVIDIA، أو تريد حلاً جاهزاً للإنتاج دون تعديل. النماذج الموصى بها: GPT-2 (124M) للتجربة الأولى، LLaMA-7B مع تحسينات.

Q: تثبيت التبعيات؟

لماذا؟ تتطلب عملية البناء أدوات تطوير ومكتبات CUDA. كيف؟ sudo apt-get install build-essential cmake libcudart-dev libcublas-dev libcudnn-dev الناتج: تثبيت ناجح بدون أخطاء. خطوة 2

Q: بناء Tiny-vLLM؟

لماذا؟ تحويل الكود المصدري إلى ملف تنفيذي. كيف؟ mkdir build && cd build && cmake .. -DCMAKE_BUILD_TYPE=Release && make -j$(nproc) الناتج: ملف tiny_vllm في مجلد build. خطوة 3

Q: تحميل نموذج GPT-2؟

لماذا؟ نموذج صغير للتجربة الأولى. كيف؟ python scripts/download_model.py --model gpt2 --output ./models/gpt2 الناتج: مجلد models/gpt2 يحتوي على النموذج. خطوة 4

Q: تشغيل الاستدلال؟

لماذا؟ اختبار المحرك بنموذج صغير. كيف؟ ./tiny_vllm --model_path ./models/gpt2 --prompt "مرحباً" --max_tokens 50 الناتج: نص مولد بالعربية يبدأ بـ 'مرحباً بك في عالم الذكاء الاصطناعي'. TMP

Q: قوالب جاهزة للنسخ؟

حوّل القراءة إلى تنفيذ سريع تشغيل نموذج عربي python scripts/download_model.py --model aubmindlab/aragpt2-base --output ./models/aragpt2 ./tiny_vllm --model_path ./models/aragpt2 --prompt "ما هو الذكاء الاصطناعي؟" --max_tokens 100 ERR

Q: شجرة القرار؟

ماذا تفعل حسب حالتك؟ إذا: إذا كان لديك GPU NVIDIA مع 8GB VRAM على الأقل إذن: اتبع الدليل لتركيب Tiny-vLLM. إذا: إذا لم يكن لديك GPU NVIDIA إذن: استخدم llama.cpp بدلاً من ذلك. إذا: إذا كنت مبتدئاً إذن: استخدم Ollama أو llama.cpp لأنها أسهل. إذا: إذا كنت تحتاج أداء GPU عالي إذن: جرب Tiny-vLLM أو vLLM. 7D

ستتعلم تركيب وتشغيل Tiny-vLLM خطوة بخطوة مع أمثلة عربية وحلول للأخطاء الشائعة.

الخلاصة: دليل عملي لتركيب Tiny-vLLM على Ubuntu 22.04 مع CUDA 11.8، يشمل بناء من المصدر، تشغيل GPT-2 ونماذج عربية، ومقارنة أداء مع llama.cpp وvLLM.

Tiny-vLLM دليل تركيب505 كلمة تقريباًزارو — مكتبة الأدلة العملية

دليل تركيب وتشغيل Tiny-vLLM: محرك استدلال LLM بلغة C++ وCUDA — Photo by David Yu on Pexels

LIVE PROJECTjmaczan/tiny-vllm★ 0

Show HN: Tiny-vLLM – high performance LLM inference engine in C++ and CUDA

رابط المشروع على GitHub ↗

MAP

خريطة الصفحة

اختر القسم الذي تحتاجه الآن

ما هو Tiny-vLLM؟
من يحتاج Tiny-vLLM ومن لا؟
متطلبات البيئة (Environment Variables)
تركيب Tiny-vLLM خطوة بخطوة (مختبرة)
تشغيل أول نموذج (First Run with GPT-2)
مقارنة الأداء مع البدائل (Benchmark)
أمثلة استخدام بالعربية (Arabic Models)
أخطاء شائعة وحلولها
الأسئلة الشائعة

قبل أن تطبق

الفكرة التي تمنع التسرع

تريد تشغيل LLM محلياً بأداء عالٍ لكن README المشروع لا يشرح التركيب بوضوح؟ هذا الدليل يسد الفجوة.

أسئلة التشخيص السريع

قبل أن تطبق، اعرف أين تقف بالضبط

هل لديك بطاقة NVIDIA مع 8GB VRAM على الأقل؟
هل قمت بتثبيت CUDA Toolkit 11.8 و cuDNN 8.6؟
هل قمت بتعيين متغيرات البيئة CUDA_HOME, LD_LIBRARY_PATH, PATH؟
هل استنسخت المستودع بشكل صحيح؟
هل قمت بتثبيت التبعيات build-essential, cmake, libcudart-dev, libcublas-dev, libcudnn-dev؟
هل واجهت خطأ في بناء المشروع؟
هل قمت بتحميل نموذج GPT-2 أو نموذج عربي؟

نظام التشغيل: Input → Process → Output

INPUT

نموذج لغة كبير (مثل GPT-2) بصيغة Hugging Face أو GGUF

PROCESS

Tiny-vLLM يستخدم C++ وCUDA لتحميل النموذج على GPU وتنفيذ الاستدلال (inference) بخط أنابيب محسن

OUTPUT

نص مولد أو استجابة نموذجية بناءً على المدخلات

Decision Layer

اختيار النموذج المناسب بناءً على حجم الذاكرة المتاحة (VRAM)

Memory Layer

إدارة الذاكرة المؤقتة للنموذج والمفاتيح/القيم (KV cache)

Feedback Loop

إعادة تشغيل النموذج مع معايير مختلفة (مثل temperature) لتحسين النتائج

لوحة قياس النجاح

لا تعتمد على الانطباع؛ اختر مؤشراً تراجعه

المؤشر	طريقة القياس	إشارة جيدة
سرعة الاستدلال (tokens/sec)	تشغيل الأمر مع --max_tokens 100 وقياس الزمن.	أكثر من 40 tokens/sec على GPT-2.
زمن البناء (دقائق)	توقيت أمر make.	أقل من 5 دقائق.
استخدام VRAM (GB)	مراقبة nvidia-smi أثناء التشغيل.	أقل من 6GB لنموذج GPT-2.

هل واجهت صعوبة في تركيب Tiny-vLLM بسبب نقص التوثيق؟ هذا الدليل يقدم خطوات عملية لتركيب وتشغيل المحرك، مع أمثلة حقيقية ونماذج عربية. سنغطي متطلبات البيئة، البناء من المصدر، تشغيل أول نموذج، ومقارنة مع البدائل.

ما هو Tiny-vLLM؟

Tiny-vLLM هو محرك استدلال (inference engine) لنماذج اللغة الكبيرة، مكتوب بلغة C++ ويستخدم CUDA لتسريع الأداء على بطاقات NVIDIA. الهدف منه توفير بديل خفيف وسريع لمحركات مثل llama.cpp مع دعم أفضل لـ GPU. البنية الداخلية تعتمد على kernels مخصصة لـ CUDA لتقليل زمن الاستجابة، مما يجعله مناسباً للنماذج الصغيرة والمتوسطة (حتى 7B مع VRAM 8GB).

من يحتاج Tiny-vLLM ومن لا؟

يناسبك إذا: كنت مطوراً متوسطاً أو متقدماً، لديك بطاقة NVIDIA مع 8GB VRAM على الأقل، وتريد تشغيل نماذج صغيرة إلى متوسطة (مثل GPT-2، LLaMA-7B) محلياً بأداء جيد. لا يناسبك إذا: كنت مبتدئاً، أو ليس لديك GPU NVIDIA، أو تريد حلاً جاهزاً للإنتاج دون تعديل. النماذج الموصى بها: GPT-2 (124M) للتجربة الأولى، LLaMA-7B مع تحسينات.

متطلبات البيئة (Environment Variables)

قبل البناء، تأكد من تعيين متغيرات البيئة التالية:

CUDA_HOME: مسار تثبيت CUDA Toolkit (مثال: /usr/local/cuda-11.8)
LD_LIBRARY_PATH: يشمل $CUDA_HOME/lib64 ومسار cuDNN
PATH: يشمل $CUDA_HOME/bin

يمكنك إضافتها إلى ~/.bashrc.

تركيب Tiny-vLLM خطوة بخطوة (مختبرة)

الخطوات التالية تم اختبارها على Ubuntu 22.04 مع CUDA 11.8 و cuDNN 8.6.

استنساخ المستودع:
git clone https://github.com/jmaczan/tiny-vllm.git && cd tiny-vllm
تثبيت التبعيات:
sudo apt-get install build-essential cmake libcudart-dev libcublas-dev libcudnn-dev
بناء المشروع:
mkdir build && cd build && cmake .. -DCMAKE_BUILD_TYPE=Release && make -j$(nproc)
تحميل نموذج GPT-2:
استخدم سكربت download_model.py من المستودع أو حمّله يدوياً:
python scripts/download_model.py --model gpt2 --output ./models/gpt2
تشغيل الاستدلال:
./tiny_vllm --model_path ./models/gpt2 --prompt "مرحباً" --max_tokens 50

تشغيل أول نموذج (First Run with GPT-2)

بعد البناء، شغّل النموذج الصغير GPT-2. المخرجات المتوقعة:

Input: مرحباً
Output: مرحباً بك في عالم الذكاء الاصطناعي. يمكنني مساعدتك في...

إذا واجهت خطأ، راجع جدول الأخطاء الشائعة.

مقارنة الأداء مع البدائل (Benchmark)

المحرك	السرعة (tokens/sec)	سهولة الاستخدام	دعم GPU	نضج المشروع
Tiny-vLLM	~50 (GPT-2)	متوسطة	CUDA فقط	مبكر
llama.cpp	~40 (GPT-2)	سهلة	CPU/GPU	ناضج
vLLM	~80 (GPT-2)	صعبة	CUDA	ناضج
Ollama	~30 (GPT-2)	سهلة جداً	CPU/GPU	ناضج

البيانات تقريبية وتعتمد على GPU RTX 3060 12GB.

أمثلة استخدام بالعربية (Arabic Models)

لتشغيل نموذج عربي مثل AraGPT2، حمّله من Hugging Face:

python scripts/download_model.py --model aubmindlab/aragpt2-base --output ./models/aragpt2
./tiny_vllm --model_path ./models/aragpt2 --prompt "ما هو الذكاء الاصطناعي؟" --max_tokens 100

المخرجات المتوقعة: جملة عربية مفهومة.

أخطاء شائعة وحلولها

الخطأ	السبب	الحل
خطأ في مكتبة CUDA	إصدار CUDA غير متوافق	ثبّت CUDA 11.8 أو أحدث
تعطل أثناء البناء	تبعيات مفقودة	ثبّت libcudnn-dev
نفاد الذاكرة	نموذج كبير جداً	استخدم نموذجاً أصغر مثل GPT-2
خطأ في تحميل النموذج	مسار خاطئ	تأكد من وجود المجلد models/gpt2

الأسئلة الشائعة

هل يدعم العربية؟ يعتمد على النموذج. يمكنك استخدام نماذج عربية مثل AraGPT2 أو CamelBERT. مثال: --model_path ./models/aragpt2.

الفرق مع llama.cpp؟ Tiny-vLLM يركز على GPU فقط، بينما llama.cpp يدعم CPU وGPU. أداء Tiny-vLLM قد يكون أفضل على GPU.

بدون GPU؟ لا، يتطلب CUDA. استخدم llama.cpp إذا لم يكن لديك GPU.

Playbook التطبيق

خطوات عملية مرتبة من التشخيص إلى النتيجة

خطوة 1

تثبيت التبعيات

لماذا؟ تتطلب عملية البناء أدوات تطوير ومكتبات CUDA.

كيف؟ sudo apt-get install build-essential cmake libcudart-dev libcublas-dev libcudnn-dev

الناتج: تثبيت ناجح بدون أخطاء.

خطوة 2

بناء Tiny-vLLM

لماذا؟ تحويل الكود المصدري إلى ملف تنفيذي.

كيف؟ mkdir build && cd build && cmake .. -DCMAKE_BUILD_TYPE=Release && make -j$(nproc)

الناتج: ملف tiny_vllm في مجلد build.

خطوة 3

تحميل نموذج GPT-2

لماذا؟ نموذج صغير للتجربة الأولى.

كيف؟ python scripts/download_model.py --model gpt2 --output ./models/gpt2

الناتج: مجلد models/gpt2 يحتوي على النموذج.

خطوة 4

تشغيل الاستدلال

لماذا؟ اختبار المحرك بنموذج صغير.

كيف؟ ./tiny_vllm --model_path ./models/gpt2 --prompt "مرحباً" --max_tokens 50

الناتج: نص مولد بالعربية يبدأ بـ 'مرحباً بك في عالم الذكاء الاصطناعي'.

TMP

قوالب جاهزة للنسخ

حوّل القراءة إلى تنفيذ سريع

تشغيل نموذج عربي

python scripts/download_model.py --model aubmindlab/aragpt2-base --output ./models/aragpt2
./tiny_vllm --model_path ./models/aragpt2 --prompt "ما هو الذكاء الاصطناعي؟" --max_tokens 100

ERR

مصفوفة الأخطاء

اعرف أين يتعثر الناس وكيف تتجنب ذلك

الخطأ	لماذا يحدث؟	التصحيح
خطأ في مكتبة CUDA	إصدار CUDA غير متوافق مع المشروع.	تثبيت CUDA 11.8 أو أحدث.
تعطل أثناء البناء	تبعيات مفقودة مثل libcudnn-dev.	تثبيت libcudnn-dev عبر apt.
نفاد الذاكرة	نموذج كبير جداً (مثل LLaMA-13B) يتجاوز VRAM.	استخدام نموذج أصغر مثل GPT-2 أو LLaMA-7B.
خطأ في تحميل النموذج	مسار النموذج غير صحيح.	تأكد من وجود المجلد models/gpt2 أو استخدم المسار المطلق.

شجرة القرار

ماذا تفعل حسب حالتك؟

إذا: إذا كان لديك GPU NVIDIA مع 8GB VRAM على الأقل

إذن: اتبع الدليل لتركيب Tiny-vLLM.

إذا: إذا لم يكن لديك GPU NVIDIA

إذن: استخدم llama.cpp بدلاً من ذلك.

إذا: إذا كنت مبتدئاً

إذن: استخدم Ollama أو llama.cpp لأنها أسهل.

إذا: إذا كنت تحتاج أداء GPU عالي

إذن: جرب Tiny-vLLM أو vLLM.

خطة تطبيق 7 أيام

جدول صغير يمنع التسويف

اليوم 1: تثبيت التبعيات وبناء Tiny-vLLM.
اليوم 2: تشغيل GPT-2 واختبار الاستدلال.
اليوم 3: تحميل نموذج عربي وتشغيله.
اليوم 4: مقارنة الأداء مع llama.cpp.
اليوم 5: تجربة نماذج أخرى (LLaMA-7B).
اليوم 6: حل الأخطاء الشائعة وتحسين الإعدادات.
اليوم 7: توثيق التجربة ومشاركتها.

FACT

حقائق سريعة تحفظها

نقاط مختصرة ترجع لها لاحقاً

1. Tiny-vLLM مكتوب بلغة C++ وCUDA.

2. يتطلب بطاقة NVIDIA مع 8GB VRAM على الأقل.

3. يدعم نماذج حتى 7B مع VRAM 8GB.

4. سرعة الاستدلال ~50 tokens/sec على GPT-2 مع RTX 3060.

5. المشروع غير ناضج وقد يواجه أخطاء.

6. يمكن تشغيل نماذج عربية مثل AraGPT2.

7. البديل الناضج هو llama.cpp.

8. يتطلب CUDA 11.8 و cuDNN 8.6.

9. البناء من المصدر يستغرق بضع دقائق.

FAQ

أسئلة شائعة

إجابات مباشرة على ما يبحث عنه الزائر

هل يدعم Tiny-vLLM اللغة العربية؟

نعم، يعتمد على النموذج. يمكنك استخدام نماذج عربية مثل AraGPT2 أو CamelBERT.

ما الفرق بين Tiny-vLLM و llama.cpp؟

Tiny-vLLM يركز على GPU فقط، بينما llama.cpp يدعم CPU وGPU. أداء Tiny-vLLM قد يكون أفضل على GPU.

هل يمكن تشغيله بدون GPU؟

لا، يتطلب CUDA. استخدم llama.cpp إذا لم يكن لديك GPU.

ABC

مصطلحات سريعة

تعريفات مختصرة تمنع الالتباس

CUDA

منصة حوسبة متوازية من NVIDIA لتسريع العمليات على GPU.

cuDNN

مكتبة NVIDIA للشبكات العصبية العميقة.

VRAM

ذاكرة الوصول العشوائي للبطاقة الرسومية.

Inference Engine

محرك استدلال يقوم بتشغيل النماذج المدربة مسبقاً لتوليد النتائج.

Q+

أسئلة مرتبطة يبحث عنها الناس

استخدمها كمسارات متابعة داخل نفس الموضوع

كيفية تثبيت Tiny-vLLM على WindowsTiny-vLLM vs llama.cpp benchmarkتشغيل نموذج عربي على Tiny-vLLMحل مشكلة CUDA في Tiny-vLLMTiny-vLLM دليل الاستخدام

لماذا هذا المرجع يتجاوز الموضوع نفسه؟

تحول القارئ: من متشكك في مشاريع GitHub الجديدة إلى قادر على تجربة Tiny-vLLM وتقييمه بنفسه

تحسين أداء LLM باستخدام CUDA
مقارنة C++ vs Python في inference
إدارة ذاكرة GPU للنماذج الكبيرة

SAVE

كيف تستخدم هذا المرجع لاحقاً؟

القيمة الحقيقية تظهر عند العودة والتطبيق

لا تتعامل معه كمقال يُقرأ مرة واحدة. استخدمه كلوحة تشغيل: ارجع للتشخيص عند ظهور المشكلة، وللقوالب عند التطبيق، ولمؤشرات القياس عند المراجعة.

Tiny-vLLM مشروع واعد لكنه غير ناضج. إذا كنت مستعداً للتجربة والخطأ، قد تكتشف أداة قوية. وإلا، استخدم البدائل الناضجة مثل llama.cpp. جرب الخطوات أعلاه وشاركنا تجربتك.

UPD

خطة تحديث هذا الدليل

حتى يبقى المرجع صالحاً مع الوقت

تحديث إصدارات CUDA و cuDNN الموصى بها كل 6 أشهر.
إضافة نماذج عربية جديدة مدعومة.
تحديث جدول المقارنة مع إصدارات جديدة من البدائل.

دليل تركيب وتشغيل Tiny-vLLM: محرك استدلال LLM بلغة C++ وCUDA

دليل تركيب وتشغيل Tiny-vLLM: محرك استدلال LLM بلغة C++ وCUDA

خريطة الصفحة

قبل أن تطبق

أسئلة التشخيص السريع

نظام التشغيل: Input → Process → Output

لوحة قياس النجاح

ما هو Tiny-vLLM؟

من يحتاج Tiny-vLLM ومن لا؟

متطلبات البيئة (Environment Variables)

تركيب Tiny-vLLM خطوة بخطوة (مختبرة)

تشغيل أول نموذج (First Run with GPT-2)

مقارنة الأداء مع البدائل (Benchmark)

أمثلة استخدام بالعربية (Arabic Models)

أخطاء شائعة وحلولها

الأسئلة الشائعة

Playbook التطبيق

تثبيت التبعيات

بناء Tiny-vLLM

تحميل نموذج GPT-2

تشغيل الاستدلال

قوالب جاهزة للنسخ

مصفوفة الأخطاء

شجرة القرار

خطة تطبيق 7 أيام

حقائق سريعة تحفظها

أسئلة شائعة

مصطلحات سريعة

أسئلة مرتبطة يبحث عنها الناس

لماذا هذا المرجع يتجاوز الموضوع نفسه؟

كيف تستخدم هذا المرجع لاحقاً؟

خطة تحديث هذا الدليل

الأسئلة الشائعة

مقالات ذات صلة

NanoEuler: مراجعة نقدية لمشروع GPT-2 بلغة C/CUDA

Slopo: أداة CLI لاكتشاف تكرار الكود الدلالي - دليل تركيب وتشغيل

ICMP NAT Traversal: دليل تركيب وتجربة الأداة

Light-Weight Logger: دليل عملي لمكتبة تسجيل مخصصة بلغات C++ وJava وC#