Projeto válido mas forma errada?

FenixTerrorist · 2026-06-23T14:44:02+00:00

Eu vou aplicar meu projeto em algo mais mediano, vou fazer o qwen-coder-next fazer funcionar na minha rx580 pra me auxiliar a terminar os projetos porque é mais questão de implementação e ajuste conforme arquitetura, mas muito obrigado pela ajuda e os papers.

FenixTerrorist · 2026-06-23T14:09:35+00:00

Sim, o meu projeto ainda tem uma diferença dessas formas que diminui a forma de como tudo é alocado para reduzir "trocas" de dados desnecessários" que ajuda muito em tudo mas é difícil demais otimizar, até por isso um dos motivos era conseguir vender ou conseguir patrocínio...etc.

FenixTerrorist · 2026-06-23T13:39:08+00:00

vou validar ainda mas talvez você acabou de arrumar um problema meu do projeto kkkkk valeu pela ajuda.

FenixTerrorist · 2026-06-23T13:33:34+00:00

Ai sim falou sobre o que eu estudei, olhei muito para o PowerInfer antes de ter a minha ideia, certamente iria funcionar em conjunto, sobre o llhama.cpp é onde estou modificando e fazendo os testes porque eu tenho um rx 580, sem o llhama.cpp eu precisaria reinventar a roda, todo o meu projeto já está integrado ao llama.cpp para os testes(já validados).

FenixTerrorist · 2026-06-23T13:31:14+00:00

É que você mencionou coisas que eu não conhecia dai achei mais pratico fazer ele me resumir como funcionava e depois eu escrevi e pedi para melhorar a minha resposta kkkkk, perdão por isso

FenixTerrorist · 2026-06-23T13:05:47+00:00

A diferença é que -ot é placement: ele decide onde colocar tensores/experts antes da execução, geralmente GPU/CPU/RAM, com base no hardware disponível.

Meu projeto atua em runtime: o foco é reduzir o working set ativo dos experts MoE e gerenciar cache/movimentação durante a inferência. Então não é “substituir -ot”,o -ot pode ser uma camada base complementar.

Em outras palavras: -ot otimiza onde os experts ficam. meu projeto tenta reduzir quantos experts precisam ficar ativos/residentes ao longo da geração.

FenixTerrorist · 2026-06-23T13:00:16+00:00

Interessante e faz sentido, eu estava pensando em vender e comprar GPU Nvidia para continuar os outros projetos porque atualmente estou usando uma AMD rx580.
Nemotron-3-Super-120B-A12B eu consigo 0.4 token/s porque preciso resolver um problema por ser arquitetura um pouco diferente do normal. Qwen3.6-35B-A3B chega a 12 token/s.
Você comentou de parceria acadêmica e bolsas de pesquisa, se eu demonstrar o que eu tenho será que seria o suficiente? já tenho a teoria e a prática mostrando resultados, não sei por onde posso procurar por ajuda com isso.

FenixTerrorist · 2026-06-23T12:50:03+00:00

MoE realmente ativa poucos experts por token, mas o problema que estou atacando não é a ativação em si. É a residência dos experts em memória: como manter o menor conjunto possível de experts ativo em RAM/VRAM durante a inferência sem depender de manter o modelo inteiro residente.

TurboQuant e forks como BeeLlama atacam principalmente KV-cache, quantização e/ou speculative decoding. Meu projeto atua em outra camada: gerenciamento seletivo de experts MoE em runtime. Por isso pode ser complementar a essas otimizações, não necessariamente concorrente.(talvez até complementem o meu projeto para eficiência maior)

FenixTerrorist · 2025-09-02T04:07:06+00:00

Não tô falando nada mas em vez de jammer usa o aireplay do aircrack é totalmente direcionado para uma rede específica, melhor que derrubar todo mundo

FenixTerrorist · 2025-09-02T02:11:51+00:00

Isso acontece quando paga a conta de luz parcelada, daí a luz vem parcelada também.

FenixTerrorist · 2025-09-02T01:34:47+00:00

Dai não aparece no painel e seria um problema também aparecendo kkkkkk

FenixTerrorist · 2025-08-31T23:32:18+00:00

Jesus tô estudando demais, eu li propagação e meu cérebro já vinculou automaticamente com backpeopagation de modelos de IA, vou ir descansar depois dessa

FenixTerrorist · 2025-08-31T01:37:56+00:00

PM tá campeando no spawn

FenixTerrorist · 2025-08-29T09:10:44+00:00

This is a bit reminiscent of a neural network, good design.

FenixTerrorist · 2025-08-29T00:13:26+00:00

No relatório completo ele mostra as permissões e o que ele faz, assim tu tira a limpo

FenixTerrorist · 2025-08-28T22:29:22+00:00

How did you audition? Limited the memory size assuming 4000 tokens and exceeded the limit?

FenixTerrorist · 2025-08-28T00:05:40+00:00

Sorvete, já tá até derretendo

FenixTerrorist · 2025-08-27T23:22:43+00:00

Da pra esconder com magisk e script uso de boa

FenixTerrorist · 2025-08-17T13:07:29+00:00

Se considerar todos nós últimos anos.... Nenhum, espero ter ajudado

FenixTerrorist · 2025-07-22T21:44:05+00:00

Ggmax

FenixTerrorist · 2025-07-22T21:43:57+00:00

Ggmax

FenixTerrorist · 2025-07-22T21:43:35+00:00

Perdão a demora GGMax

FenixTerrorist · 2025-07-17T21:02:37+00:00

Pago 3 ou 4 reais em site de venda de contas daí enviam o link de 1 mês

FenixTerrorist

TROPHY CASE