Tiny-vLLM: دليل تركيب وتشغيل محرك استدلال LLM بلغة C++ وCUDA

Q: ما هو Tiny-vLLM؟

Tiny-vLLM هو محرك استدلال (inference engine) لنماذج اللغة الكبيرة (LLM) مكتوب بلغة C++ ويستخدم CUDA لتسريع الأداء على بطاقات الرسوميات NVIDIA. الهدف منه توفير بديل خفيف وسريع لمحركات مثل vLLM وllama.cpp. المشروع جديد (ظهور على Hacker News ) وعدد نجومه 0، مما يعني أنه في مرحلة مبكرة جداً. README قصير ولا يوضح خطوات التركيب، لذا هذا الدليل يعتمد على تحليل بنية المشروع (ملفات المصدر، CMakeLists.txt، إلخ).

Q: لمن هذا المشروع؟

إعلان من يحتاجه: مطور يريد تشغيل LLM محلياً بأداء عالٍ على GPU NVIDIA. باحث يختبر محركات استدلال جديدة. صاحب مشروع صغير يبحث عن حل استدلال مفتوح المصدر بتكلفة منخفضة. من لا يحتاجه: مبتدئ في البرمجة (يتطلب خبرة في C++ وCUDA). من يريد حلاً جاهزاً للإنتاج (المشروع غير مستقر). من لا يملك GPU NVIDIA (لا يدعم CPU).

Q: هل Tiny-vLLM يدعم النماذج العربية؟

يدعم أي نموذج بصيغة Hugging Face أو GGUF، بما في ذلك النماذج العربية مثل AraGPT2.

Q: ما الفرق بين Tiny-vLLM و vLLM الأصلي؟

Tiny-vLLM أصغر حجماً وأقل ميزات، لكنه أسرع في بعض السيناريوهات.

Q: هل يمكن تشغيله على CPU فقط؟

لا، يعتمد على CUDA ولا يدعم CPU.

Q: ما هي متطلبات الذاكرة (VRAM)؟

نموذج صغير مثل GPT-2 يحتاج 2-4GB. نماذج أكبر تحتاج 8GB+.

Q: كيف أحصل على نموذج متوافق؟

من Hugging Face أو حول نموذج إلى GGUF باستخدام llama.cpp.

Q: هل المشروع مستقر للإنتاج؟

لا، في مرحلة مبكرة جداً.

Q: أين أجد الدعم والمجتمع؟

عبر Issues في GitHub أو Hacker News . DO

Q: Playbook التطبيق؟

خطوات عملية مرتبة من التشخيص إلى النتيجة خطوة 1

Reference OS v8 5 دقائق قراءة ٢ يونيو ٢٠٢٦ informational Tiny-vLLM: دليل تركيب وتشغيل محرك استدلال LLM بلغة C++ وCUDA ستتعلم خطوات عملية لتثبيت وتشغيل Tiny-vLLM على GPU NVIDIA، مع حلول للأخطاء…

Reference OS v85 دقائق قراءة٢ يونيو ٢٠٢٦informational

Tiny-vLLM: دليل تركيب وتشغيل محرك استدلال LLM بلغة C++ وCUDA

ستتعلم خطوات عملية لتثبيت وتشغيل Tiny-vLLM على GPU NVIDIA، مع حلول للأخطاء الشائعة.

الخلاصة: Tiny-vLLM محرك استدلال LLM بلغة C++ وCUDA، سريع لكنه غير ناضج. يتطلب GPU NVIDIA وCUDA Toolkit. التركيب عبر CMake، والتشغيل على نماذج صغيرة مثل GPT-2. غير مناسب للإنتاج.

Tiny-vLLM دليل تركيب612 كلمة تقريباًزارو — مكتبة الأدلة العملية

Tiny-vLLM: دليل تركيب وتشغيل محرك استدلال LLM بلغة C++ وCUDA — Photo by Optical Chemist on Pexels

LIVE PROJECTjmaczan/tiny-vllm★ 0

Show HN: Tiny-vLLM – high performance LLM inference engine in C++ and CUDA

رابط المشروع على GitHub ↗

MAP

خريطة الصفحة

اختر القسم الذي تحتاجه الآن

ما هو Tiny-vLLM؟
لمن هذا المشروع؟
المتطلبات الأساسية
خطوات التركيب (مبنية على تحليل الكود)
شرح متغيرات البيئة
تشغيل أول استدلال (مثال عملي)
أخطاء شائعة وحلولها
مقارنة أداء مع vLLM وllama.cpp
الأسئلة الشائعة

قبل أن تطبق

الفكرة التي تمنع التسرع

هل تبحث عن محرك استدلال LLM خفيف وسريع؟ Tiny-vLLM قد يكون الحل، لكن تركيبه ليس سهلاً. في هذا الدليل، ستتعلم خطوات عملية لتثبيته وتشغيله على جهازك.

أسئلة التشخيص السريع

قبل أن تطبق، اعرف أين تقف بالضبط

هل لديك GPU NVIDIA مع دعم CUDA (حساب 7.0+)؟
هل أنت على دراية بـ C++ وCUDA؟
هل تبحث عن حل إنتاجي أم تجريبي؟
هل جربت vLLM أو llama.cpp من قبل؟
هل لديك نموذج LLM بصيغة Hugging Face أو GGUF؟
هل ذاكرة GPU لديك 4GB على الأقل؟

نظام التشغيل: Input → Process → Output

INPUT

نموذج LLM (مثل GPT-2، LLaMA) بصيغة Hugging Face أو GGUF

PROCESS

Tiny-vLLM يستخدم C++ وCUDA لتحميل النموذج على GPU وتنفيذ الاستدلال (inference) بسرعة عالية

OUTPUT

نص مولد (generated text) بناءً على الإدخال (prompt)

Decision Layer

اختيار النموذج المناسب لحجم VRAM المتاح

Memory Layer

إدارة ذاكرة GPU (VRAM) لتحميل النموذج ومعالجة الدفعات (batch)

Feedback Loop

ضبط معاملات التوليد (temperature, top_p) بناءً على جودة المخرجات

لوحة قياس النجاح

لا تعتمد على الانطباع؛ اختر مؤشراً تراجعه

المؤشر	طريقة القياس	إشارة جيدة
زمن الاستدلال لكل token	استخدم time command أو سجل الزمن من البرنامج	< 50ms لكل token على GPU متوسطة
استخدام VRAM	nvidia-smi	أقل من 80% من VRAM المتاحة

هل تبحث عن محرك استدلال LLM خفيف وسريع؟ Tiny-vLLM قد يكون الحل، لكن تركيبه ليس سهلاً. في هذا الدليل، ستتعلم خطوات عملية لتثبيته وتشغيله على جهازك. سنغطي المتطلبات الدقيقة، خطوات التركيب المبنية على تحليل الكود، تشغيل أول نموذج، وأخطاء شائعة مع حلولها. الدليل موجه للمطور العربي الذي يريد تشغيل نماذج LLM محلياً بأداء عالٍ.

ما هو Tiny-vLLM؟

Tiny-vLLM هو محرك استدلال (inference engine) لنماذج اللغة الكبيرة (LLM) مكتوب بلغة C++ ويستخدم CUDA لتسريع الأداء على بطاقات الرسوميات NVIDIA. الهدف منه توفير بديل خفيف وسريع لمحركات مثل vLLM وllama.cpp. المشروع جديد (ظهور على Hacker News) وعدد نجومه 0، مما يعني أنه في مرحلة مبكرة جداً. README قصير ولا يوضح خطوات التركيب، لذا هذا الدليل يعتمد على تحليل بنية المشروع (ملفات المصدر، CMakeLists.txt، إلخ).

لمن هذا المشروع؟

من يحتاجه: مطور يريد تشغيل LLM محلياً بأداء عالٍ على GPU NVIDIA. باحث يختبر محركات استدلال جديدة. صاحب مشروع صغير يبحث عن حل استدلال مفتوح المصدر بتكلفة منخفضة.

من لا يحتاجه: مبتدئ في البرمجة (يتطلب خبرة في C++ وCUDA). من يريد حلاً جاهزاً للإنتاج (المشروع غير مستقر). من لا يملك GPU NVIDIA (لا يدعم CPU).

المتطلبات الأساسية

GPU NVIDIA مع دعم CUDA (حساب 7.0 فأعلى)
CUDA Toolkit 11.8+ (يوصى بـ 12.x)
مكتبة C++17 (GCC 9+, MSVC 2019+)
CMake 3.22+
نموذج LLM بصيغة Hugging Face (مثل GPT-2) أو GGUF (غير مؤكد الدعم)

خطوات التركيب (مبنية على تحليل الكود)

تحذير: README لا يوضح خطوات التركيب. الخطوات التالية مبنية على تحليل بنية المشروع (ملفات المصدر في src/، ملف CMakeLists.txt). قد تختلف حسب إصدار المشروع.

استنساخ المستودع: git clone https://GitHub.com/jmaczan/tiny-vllm.git
الدخول إلى المجلد: cd tiny-vllm
إنشاء مجلد build: mkdir build && cd build
تشغيل CMake: cmake .. -DCMAKE_BUILD_TYPE=Release
بناء المشروع: cmake --build . --config Release
بعد البناء، سيكون الملف التنفيذي في مجلد build (اسمه المحتمل: tiny_vllm أو inference).

شرح متغيرات البيئة

المشروع لا يحتوي على ملف .env. الإعدادات تمرر عبر وسائط سطر الأوامر. تأكد من تعيين متغيرات البيئة التالية:

CUDA_HOME: مسار تثبيت CUDA Toolkit (مثل /usr/local/cuda-11.8)
PATH: أضف $CUDA_HOME/bin
LD_LIBRARY_PATH: أضف $CUDA_HOME/lib64

تشغيل أول استدلال (مثال عملي)

لتشغيل نموذج GPT-2 (صغير الحجم، يناسب GPU بذاكرة 4GB):

تحميل النموذج من Hugging Face: git lfs install && git clone https://huggingface.co/gpt2
تشغيل Tiny-vLLM: ./tiny_vllm --model ./gpt2 --prompt "Once upon a time" --max-tokens 50

إذا لم يعمل، جرب صيغاً أخرى مثل GGUF (استخدم أداة تحويل مثل llama.cpp).

أخطاء شائعة وحلولها

الخطأ	السبب	الحل
CUDA error: out of memory	النموذج أكبر من VRAM	استخدم نموذجاً أصغر (مثل GPT-2) أو قلل --max-tokens
CMake Error: CUDA not found	CUDA Toolkit غير مثبت	ثبت CUDA 11.8+ وأضف PATH
Segmentation fault	عدم توافق النموذج	جرب نموذجاً بصيغة Hugging Face أو حول إلى GGUF

مقارنة أداء مع vLLM وllama.cpp

ملاحظة: المقارنة مبنية على افتراضات نظرية، حيث لا توجد معايير رسمية. Tiny-vLLM قد يكون أسرع في بعض السيناريوهات بسبب خفة وزنه، لكنه يفتقر إلى الميزات المتقدمة.

المحرك	اللغة	دعم GPU	النضج
vLLM	Python	CUDA	ناضج
llama.cpp	C++	CUDA, CPU	ناضج
Tiny-vLLM	C++	CUDA	مبكر جداً

الأسئلة الشائعة

هل Tiny-vLLM يدعم النماذج العربية؟

يدعم أي نموذج بصيغة Hugging Face أو GGUF، بما في ذلك النماذج العربية مثل AraGPT2.

ما الفرق بين Tiny-vLLM و vLLM الأصلي؟

Tiny-vLLM أصغر حجماً وأقل ميزات، لكنه أسرع في بعض السيناريوهات.

هل يمكن تشغيله على CPU فقط؟

لا، يعتمد على CUDA ولا يدعم CPU.

ما هي متطلبات الذاكرة (VRAM)؟

نموذج صغير مثل GPT-2 يحتاج 2-4GB. نماذج أكبر تحتاج 8GB+.

كيف أحصل على نموذج متوافق؟

من Hugging Face أو حول نموذج إلى GGUF باستخدام llama.cpp.

هل المشروع مستقر للإنتاج؟

لا، في مرحلة مبكرة جداً.

أين أجد الدعم والمجتمع؟

عبر Issues في GitHub أو Hacker News.

Playbook التطبيق

خطوات عملية مرتبة من التشخيص إلى النتيجة

خطوة 1

تثبيت المتطلبات الأساسية

لماذا؟ لضمان بيئة بناء صحيحة

كيف؟ ثبت CUDA Toolkit 11.8+، CMake 3.22+، ومترجم C++17

الناتج: بيئة جاهزة للبناء

خطوة 2

استنساخ وبناء Tiny-vLLM

لماذا؟ للحصول على الملف التنفيذي

كيف؟ git clone https://github.com/jmaczan/tiny-vllm.git && cd tiny-vllm && mkdir build && cd build && cmake .. -DCMAKE_BUILD_TYPE=Release && cmake --build . --config Release

الناتج: ملف تنفيذي tiny_vllm في مجلد build

خطوة 3

تحميل نموذج صغير

لماذا؟ لتجربة الاستدلال

كيف؟ git lfs install && git clone https://huggingface.co/gpt2

الناتج: مجلد gpt2 يحتوي على النموذج

خطوة 4

تشغيل أول استدلال

لماذا؟ لاختبار المحرك

كيف؟ ./tiny_vllm --model ./gpt2 --prompt "Once upon a time" --max-tokens 50

الناتج: نص مولد من النموذج

TMP

قوالب جاهزة للنسخ

حوّل القراءة إلى تنفيذ سريع

أمر تشغيل أساسي

./tiny_vllm --model <path_to_model> --prompt "<your_prompt>" --max-tokens <number>

أمر بناء مع خيارات

cmake .. -DCMAKE_BUILD_TYPE=Release -DCUDA_TOOLKIT_ROOT_DIR=/usr/local/cuda-12.0

ERR

مصفوفة الأخطاء

اعرف أين يتعثر الناس وكيف تتجنب ذلك

الخطأ	لماذا يحدث؟	التصحيح
CUDA error: out of memory	النموذج أكبر من VRAM	استخدم نموذجاً أصغر مثل GPT-2 أو قلل --max-tokens
CMake Error: CUDA not found	CUDA Toolkit غير مثبت أو غير مضبوط	ثبت CUDA 11.8+ وأضف PATH و LD_LIBRARY_PATH
Segmentation fault	عدم توافق النموذج	جرب نموذجاً بصيغة Hugging Face أو حول إلى GGUF

شجرة القرار

ماذا تفعل حسب حالتك؟

إذا: إذا كان لديك GPU NVIDIA وتبحث عن تجربة سريعة

إذن: اتبع خطوات التركيب وجرب نموذج GPT-2

إذا: إذا كنت مبتدئاً أو تريد حل إنتاجي

إذن: استخدم vLLM أو llama.cpp بدلاً من ذلك

إذا: إذا واجهت خطأ out of memory

إذن: استخدم نموذجاً أصغر أو قلل max-tokens

خطة تطبيق 7 أيام

جدول صغير يمنع التسويف

اليوم 1: تثبيت المتطلبات واستنساخ المشروع
اليوم 2: بناء المشروع وحل أخطاء CMake
اليوم 3: تحميل نموذج GPT-2 وتشغيله
اليوم 4: تجربة نماذج أخرى (مثل AraGPT2)
اليوم 5: اختبار أداء ومقارنة مع llama.cpp
اليوم 6: توثيق النتائج والأخطاء
اليوم 7: مشاركة التجربة على GitHub Issues

FACT

حقائق سريعة تحفظها

نقاط مختصرة ترجع لها لاحقاً

1. Tiny-vLLM مكتوب بلغة C++ ويستخدم CUDA.

2. عدد نجوم المشروع 0 على GitHub.

3. يتطلب GPU NVIDIA مع حساب 7.0+.

4. يدعم نماذج Hugging Face و GGUF (غير مؤكد).

5. نموذج GPT-2 يحتاج 2-4GB VRAM.

6. المشروع غير مستقر للإنتاج.

7. ظهر على Hacker News مؤخراً.

8. README لا يوضح خطوات التركيب.

9. البناء يتم عبر CMake.

FAQ

أسئلة شائعة

إجابات مباشرة على ما يبحث عنه الزائر

هل يدعم النماذج العربية؟

يدعم أي نموذج بصيغة Hugging Face أو GGUF، بما في ذلك AraGPT2.

ما الفرق بين Tiny-vLLM و vLLM؟

Tiny-vLLM أصغر حجماً وأقل ميزات، لكنه أسرع في بعض السيناريوهات.

هل يمكن تشغيله على CPU؟

لا، يعتمد على CUDA ولا يدعم CPU.

ABC

مصطلحات سريعة

تعريفات مختصرة تمنع الالتباس

CUDA

منصة حوسبة متوازية من NVIDIA لتسريع العمليات على GPU.

GGUF

صيغة ملفات لنماذج LLM محسنة للاستدلال، تستخدمها llama.cpp.

VRAM

ذاكرة الوصول العشوائي للبطاقة الرسومية.

Q+

أسئلة مرتبطة يبحث عنها الناس

استخدمها كمسارات متابعة داخل نفس الموضوع

تثبيت Tiny-vLLM على WindowsTiny-vLLM vs llama.cpp أداءتشغيل نموذج عربي على Tiny-vLLMحل خطأ CUDA out of memory Tiny-vLLMTiny-vLLM دليل كامل

لماذا هذا المرجع يتجاوز الموضوع نفسه؟

تحول القارئ: من مطور يظن أن تشغيل LLM محلياً صعب إلى قادر على تجربة Tiny-vLLM وتقييمه بنفسه

تحسين أداء الاستدلال باستخدام CUDA
إدارة ذاكرة GPU في تطبيقات الذكاء الاصطناعي
مقارنة لغات البرمجة لأداء LLM (C++ vs Python)

SAVE

كيف تستخدم هذا المرجع لاحقاً؟

القيمة الحقيقية تظهر عند العودة والتطبيق

لا تتعامل معه كمقال يُقرأ مرة واحدة. استخدمه كلوحة تشغيل: ارجع للتشخيص عند ظهور المشكلة، وللقوالب عند التطبيق، ولمؤشرات القياس عند المراجعة.

Tiny-vLLM مشروع واعد لكنه غير ناضج. إذا كنت تبحث عن تجربة سريعة ومجانية، جربه على جهاز اختبار. للإنتاج، استخدم vLLM أو llama.cpp. تابع المشروع على GitHub للتحديثات.

UPD

خطة تحديث هذا الدليل

حتى يبقى المرجع صالحاً مع الوقت

تحقق من تحديثات المشروع على GitHub أسبوعياً.
اختبر مع إصدارات CUDA الجديدة.
أضف نماذج جديدة مدعومة.

Tiny-vLLM: دليل تركيب وتشغيل محرك استدلال LLM بلغة C++ وCUDA

خريطة الصفحة

قبل أن تطبق

أسئلة التشخيص السريع

نظام التشغيل: Input → Process → Output

لوحة قياس النجاح

ما هو Tiny-vLLM؟

لمن هذا المشروع؟

المتطلبات الأساسية

خطوات التركيب (مبنية على تحليل الكود)

شرح متغيرات البيئة

تشغيل أول استدلال (مثال عملي)

أخطاء شائعة وحلولها

مقارنة أداء مع vLLM وllama.cpp

الأسئلة الشائعة

هل Tiny-vLLM يدعم النماذج العربية؟

ما الفرق بين Tiny-vLLM و vLLM الأصلي؟

هل يمكن تشغيله على CPU فقط؟

ما هي متطلبات الذاكرة (VRAM)؟

كيف أحصل على نموذج متوافق؟

هل المشروع مستقر للإنتاج؟

أين أجد الدعم والمجتمع؟

Playbook التطبيق

تثبيت المتطلبات الأساسية

استنساخ وبناء Tiny-vLLM

تحميل نموذج صغير

تشغيل أول استدلال

قوالب جاهزة للنسخ

مصفوفة الأخطاء

شجرة القرار

خطة تطبيق 7 أيام

حقائق سريعة تحفظها

أسئلة شائعة

مصطلحات سريعة

أسئلة مرتبطة يبحث عنها الناس

لماذا هذا المرجع يتجاوز الموضوع نفسه؟

كيف تستخدم هذا المرجع لاحقاً؟

خطة تحديث هذا الدليل

الأسئلة الشائعة

مقالات ذات صلة

ICMP NAT Traversal: دليل تركيب وتجربة الأداة

NanoEuler: مراجعة نقدية لمشروع GPT-2 بلغة C/CUDA

Light-Weight Logger: دليل عملي لمكتبة تسجيل مخصصة بلغات C++ وJava وC#

Light-Weight Logger: دليل عملي لمكتبة تسجيل مخصصة بلغات C++ وJava وC#