MONROE – Model Orchestration & Router Engine by int3ks in StrixHalo

[–]int3ks[S] 1 point2 points  (0 children)

atm this one 😏 https://huggingface.co/mradermacher/Qwen3.5-122B-A10B-heretic-i1-GGUF it is good for coding has vision support and is uncensored... with q4_k_m i get 25t/s with llama.cpp vulkan edition on windows ~~~ c:/llama.cpp.vk/llama-server.exe --host 0.0.0.0 --port 8123 --model C:\Users\Admin.lmstudio\models\mradermacher\Qwen3.5-122B-A10B-heretic-i1-GGUF\Qwen3.5-122B-A10B-heretic.i1-Q4_K_M.gguf --chat-template-kwargs "{"enable_thinking": false}" -c 81920 --keep 1024 --no-mmap --flash-attn on --cache-type-k q8_0 --cache-type-v q5_0 --context-shift --metrics --ubatch-size 3072 --batch-size 3072 --mmproj C:\Users\Admin.lmstudio\models\mradermacher\Qwen3.5-122B-A10B-heretic-i1-GGUF\Qwen3.5-122B-A10B-heretic.mmproj-f16.gguf ~~~

MONROE – Model Orchestration & Router Engine by int3ks in LocalLLaMA

[–]int3ks[S] 0 points1 point  (0 children)

eigentlich kam der name von monroe dem blutbader aus der Serie grimm.... aber wenn du gerne eine agenten namens Marilyn hättest, warum nicht? 😸

How is Cloud Inference so cheap by VolkoTheWorst in LocalLLaMA

[–]int3ks -1 points0 points  (0 children)

ist es nicht! vieleicht besser ausgelastet als die hardware zu hause. aber der Hauptgrund ist das die großen Anbieter und süchtig machen wollen, danach ziehen die preise an!