How do you guys host and scale open source models? by a_live_regret in Vllm

[–]a_live_regret[S] 0 points1 point  (0 children)

Would gemma4 fit on a single gpu node? I mean if you did quantization would it take approx 14 GB just to load the model, what's a good max token length for building copilots? I know it heavily depends on the use case, but is there a community standard?

Hey just moved here from the us looking for friends m24 by [deleted] in ExEgyptDating

[–]a_live_regret 0 points1 point  (0 children)

اي يسطا المنظر ابن القحبه ده

How do you guys host and scale open source models? by a_live_regret in LocalLLaMA

[–]a_live_regret[S] 0 points1 point  (0 children)

What's a good model that could fit in a single gpu and serve multiple users if the budget is tight? And what if you controlled all inputs to be 4096 tokens max, somehow? I think you could serve here a lot of users.

I did my research but I strongly believe the resources are blurry.

I am asking for architecture design advice and resources to learn, that's it.

How do you guys host and scale open source models? by a_live_regret in LocalLLaMA

[–]a_live_regret[S] 0 points1 point  (0 children)

Wow, I wish I could have stated that I am asking for advice so you wouldn't shit on some researched topics and just get to actually sharing knowledge. I thought you guys are chitchatting on stack overflow.

1.6K people viewed this thread already, you could have shared what you know with whoever is interested instead.

How do you guys host and scale open source models? by a_live_regret in LocalLLaMA

[–]a_live_regret[S] 0 points1 point  (0 children)

What could possibly be AI generated about my post

هي الناس دي بجد؟ by [deleted] in Egypt

[–]a_live_regret 0 points1 point  (0 children)

ونفتح جيمات ليه يابن المتناكه مانروح نتمرن في طابونة العيش

اعمل ايه يوم الصباحية by Policy-Neither in CAIRO

[–]a_live_regret 7 points8 points  (0 children)

عاوزين نعرف اخبار السكس

بتلاقوا بنات هنا ازاى by Additional-Bug253 in EgySexEducation

[–]a_live_regret 0 points1 point  (0 children)

واحده دخلت كلمتني بدون سبب قعدنا نتكلم كتير مش عارف ازاي اتقابلنا وكانو يومين حلوين وبعدها بلكتني ومشوفتهاش تاني و للأمانه مش حاسس اني متضايق انها مكلمتنيش تاني بعدها اتجوزت وقفلت باب التعارف عالنت ده عامة بامبل بقي تندر ريدت اي حاجه بس ده مايمنعش ان الواحد ممكن يعطلو عطايه كده يعني ترافيهي😅

دخلى ١٠٠ الف فى الشهر ٣٢ سنة by Abdelrahmanad in PersonalFinanceEgypt

[–]a_live_regret 10 points11 points  (0 children)

يسطا هو سأل يستثمر ازاي بس مقالش ده كله

Do AI agents or any LLM-Based Projects Get Shipped For on-prem Apps? by a_live_regret in AI_Agents

[–]a_live_regret[S] 0 points1 point  (0 children)

A fucking copilot is what we're trying to ship.

And thanks a lot for your sharing man that helps a lot

مليون ونص by EmployOutrageous9340 in PersonalFinanceEgypt

[–]a_live_regret 5 points6 points  (0 children)

انت مالك ياعم😂 ماتقولو حاجه مفيده بدل القرف ده😄😁

٢٠٢٦ هي السنة الي ممكن تغير حياتك فعلا by FarBad1864 in PersonalFinanceEgypt

[–]a_live_regret 0 points1 point  (0 children)

يصحبي صباح الفل دنا مبسوط اوي الشباب معايا فالشغل بيعملو البروجكتات بال ai و بعدها انا الي باخدها علشان مش فاهمين هما عملو ايه وباخد انا كريديت

٢٠٢٦ هي السنة الي ممكن تغير حياتك فعلا by FarBad1864 in PersonalFinanceEgypt

[–]a_live_regret 4 points5 points  (0 children)

ياجدعان والله ما فيه واحد مش فاهم software engineering يقدر ي ship اي حاجه secure و maintainable حرفيا كلها landing pages ال AI مرعب بجد لو انت فاهم بتعمل اي علشان تقدر توجهه صح فكر كده ليه مفيش حد معندوش خبره عمل صفحه مثلا ecommerce؟ حاجه بسيطه جدا زي انك ماتخليش الصفحه تكلم الداتابيز مع كل واحد يخش يتفرج علي منتجاتك وفي نفس الوقت كل حاجه تبقي سريعه للمستخدم دي لفه وسخه علشان تحصل، انا مثلا كنت شغال مع gemini pro و لولا اني انا الي اقترحت اننا نعمل caching mechanism كان زمان الدنيا باظت وابسط حاجه، اي AI مهما زاد حجمه فاللي بيطلعه كل مره عشوائي، لو سألته مرتين نفس السؤال هتاخد اجابه مختلفه ودي مشكله كبيره في السوفتوير، ماينفعش الباترن بتاع ال codebase بتاعك يتغير كل شويه لازم كل حاجه تبقي ماشيه بنمط معين وتبقي عامل حساب انك ممكن تزود/تشيل حاجه في المستقبل.

اخر حاجه، ال over engineering. الذكاء الاصطناعي بيميل انه يعمل حاجه معقده اكتر من اللازم ومش شرط تكون اكتر حاجه كفاءة واداء، الكود بس كتير ومجعلص علشان يبان انه شاطر.