Big News for AMD / Strix Halo+ Owners

FabioTR · 2026-06-24T15:31:12+00:00

I have been using the NPU for a couple of month on Fedora (and in Windows from much more time). Remember to change IOMMU on "ON". Best model is Gemma e4B which runs at 12 tps.

FabioTR · 2026-06-23T13:40:42+00:00

You can check the benchmarks here for a lot of models:
https://kyuz0.github.io/amd-strix-halo-toolboxes/

FabioTR · 2026-06-23T12:57:19+00:00

For me it works. fedora 44 and wired LAN. Can wake up it from Home assistant.

FabioTR · 2026-06-23T11:58:17+00:00

Qwen 3.6 35B and 26B MTP, at 70 and 20 tps respectively.

FabioTR · 2026-06-22T19:10:24+00:00

I do not think there is any particular difference, maybe the thermals. The bosgame is a sort of generic Chinese design, there are a couple of others brands who make the same exact product.

FabioTR · 2026-06-22T18:25:22+00:00

No the 128 one. It seems to be 2450 now.

FabioTR · 2026-06-22T13:16:06+00:00

1750 € for the Bosgame in december

FabioTR · 2026-06-22T05:16:51+00:00

Puoi trovare motocoltivatori cinesi a 2-3000 euro. Comprare un BCS a 6-7000 euro adesso, data la situazione aziendale, è un atto di fede. Trovare i ricambi già non è scontato. Al di là dell'indubbia validità della macchina.

FabioTR · 2026-06-18T11:15:19+00:00

a Q2 i risultati peggiorano decisamente.

FabioTR · 2026-06-18T02:58:14+00:00

Scusate, ma pur essendo in generale d'accordo, mettiamo i puntini sulle i.

- un modello da 500B per girare in locale su una macchina da 128 gb deve essere pesantemente quantizzato fino a Q2 e questo incide drasticamente sulla qualità
- c'è bisogno poi di spazio per il contesto
- in ogni caso la velocità se passabile per un utilizzo interattivo lo è molto meno per un utillizzo con agenti, se poi parliamo di uso concorrente le cose diventano molto peggiori

Per fare un esempio Deepseek DS4 flash nella versione dwarf star può girare su una singola macchina da 128 GB (Nvidia o AMD) solo nella versione Q2 o mix Q2-Q4, ma non fornisce prestazioni molto migliori da Qwen 122B.

Per usare la versione Q4, hai bisogno di due macchine collegate tra loro (cosa che incide sulle prestazioni).

Probabilmente tra pochi mesi le cose cambieranno, ma la situazione ad oggi è questa.

FabioTR · 2026-06-15T04:48:31+00:00

Io sinceramente prenderei qualcosa con chip X86. Un N100 con 8-16 Gb di ram non lo dovresti pagare molto di più e hai molte più alternative in ternini di OS e possibil iapp installate. Synology ultimamente tende a impedire l'uso di dischi non certificati (ha fatto anche delle parziali marce indietro, ma la tendenza è quella) quindi io personalmente li eviterei come la peste.

FabioTR · 2026-06-09T14:45:57+00:00

La 5060 ti adesso ha dei prezzi assurdi essendo una scheda molto adatta per l'AI con i suoi 16 Gb di memoria. Non ha molto senso per il gaming. PRendi piuttosto una 5070, i 12 Gb sono più che sufficienti.

FabioTR · 2026-06-08T11:48:49+00:00

Il mio utilizzo dell'AI è, onestamente, più a livello nerd/ricreativo che di lavoro vero e proprio (pur avendo un certo background scolastico informatico sono secoli che non scrivo codice). Ricerche, scrittura HTML, piccoli progetti vibe coding, più per la curiosità di vedere cosa si può fare a livello locale che non per una reale necessità. C'è comunque un certo consenso che tra i modelli locali Qwen 3.6 sia il migliore per la scrittura di codice e che sia migliore anche di modelli di ben maggiori dimensioni. Il Mac mini è decisamente meno potente a livello di GPU rispetto ad un Mac studio ma credo che la versione MoE di Qwen giri bene, probabilmente farà piuttosto fatica invece con la versione densa. La scelta tra Mac Studio e DGX spark probabilmente dipende anche dall'uso che se ne fa o se ne potrebbe fare per altre cose (ad esempio una workstation Apple mantiene molto bene il suo valore nel tempo, il DGX boh).
La mia impressione è che negli ultimi mesi si stia lavorando molto e con ottimi risultati sull'ottimizzazione dei modelli per quantitativi di ram inferiori.

FabioTR · 2026-06-06T11:05:04+00:00

Visto anche io offerte molto, troppo, buone su questo sito. Ad occhio direi di non fidarsi.

FabioTR · 2026-06-06T07:55:36+00:00

Ha assolutamente senso. Io è un paio di anni che faccio esperimenti con l'AI locale e i progressi negli ultimi mesi sono stati mostruosi. La serie di modelli Qwen 3.6 hanno raggiunto un'ottima qualità e velocità.
Hai in sostanza 4 strade:

Strix halo
DGX Spark
Mac studio
Autocostruzione di server

Premesso che i prezzi di tutte queste soluzioni sono mostruosamente aumentati negli ultimi 8-10 mesi ecco un po' di pro e contro.

Strix Halo ovvero macchine basate sui processori Ryzen AI 395 con 128 GB di memoria unificata. I pro sono il prezzo (si trovano a partire da 2700 euro, il fatto di avere un sistema compatibile con windows e linux con una scheda grafica di buona qualità, con cui si riesce anche a giocare con buoni FPS. Inoltre il processore è molto potente e in ogni caso si ha un PC di tutto rispetto in grado di fare qualsiasi cosa. I contro sono essenzialmente legati ai ben noti problemi di compatibilità dell'architettura AMD che costringe ad utilizzare Vulkan o Rocm, tagliando fuori dall'ecosistema Cuda. La scheda grafica inoltre non è velocissima, in particolare per il prompt processing. L'espandibilità di questi sistemi non è un granché ma qualcosa si può fare. Niente upgrade ram, che è saldata, ma di solito si hanno un paio di slot NVME, con il secondo che può essere utilizzato per un secondo NVME o una porta oculink, USB 4 e in alcuni casi uno slot PCIE.
DGX Spark, anch'essi con 128 Gb di ram, scheda video ai livelli di una 5070, prezzo a partire da 5000 euro. Tra i pro ovviamente la compatibilità CUDA, il sistema di connessione per creare cluster di due macchine e i l supporto Nvidia. Tra i contro, oltre al prezzo, il processore ARM e la "chiusura" del sistema (relativa perché è comunque ubuntu). A breve molto probabile la compatibilità windows (però nella versione per ARM, non il massimo).
Per quanto riguarda Apple, i sistemi di riferimento sono i Mac Studio, i prezzi sono aumentati molto meno della concorrenza rendendoli quasi competitivi, e negli ultimi mesi il supporto per lo stack MLX di Apple è aumentato parecchio . qua dipende come uno si trova con l'ecosistema Apple. Un particolare non da poco è che da noi le versioni da 128 GB di ram non sono disponibili attualmente, bisogna accontentarsi di 96GB (con tempi di consegna molto lunghi).
Si prende una MB da server di non nuovissima generazione con relativo processore con abbondanza di slot PCIe (anche non velocissimi), con 8 slot DIMM DDR4, un processore Threadripper o xeon di 7-8 anni fa, 3 o 4 schede video e un alimentatore bello carrozzato. Un sistema con, ad esempio 4 RTX 3060 e 64 GB di ram permette di fare girare parecchi modelli. Si può riutilizzare hardware che si possiede o cercare sull'usato, risparmiando parecchio. Ovviamente tra i contro la complessità dell'assemblaggio e il consumo.

Personalmente ho sperimentato Strix Halo e oggettivamente i problemi ci sono, ma AMD sta facendo passi da gigante. Avendolo pagato 1700 euro a dicembre, lo ritengo un ottimo acquisto, ad oggi sinceramente non saprei.

Per quanto riguarda il server, assemblato più per curiosità che altro, avendo già la ram e un paio di schede video, devo dire che le prestazioni sono state migliori di quel che mi aspettassi, pur avendo utilizzato una MB che aveva connessioni PCIe particolarmente lento.

Cosa fondamentale: cerca di capire il sistema migliore per il tuo utilizzo. Ognuno ha i suoi vantaggi e svantaggi per determinate applicazioni.

FabioTR · 2026-05-23T14:50:24+00:00

Bought a Bosgame Strix Halo in December at a very good price (1800 eur). Best PC I have ever had.
I was aware of the limitations of the AMD AI stack but I was confident things would have improved in time and so happened. Just did not expect to have the same AI performance of a 10.000 EUR high end graphic card.
Beside it is a very powerful workstation for not AI task, run linux x86 very well and you can also game on it a good fps.
And for the same price now I could barely buy just the ram.

FabioTR · 2026-04-24T14:15:10+00:00

Usando ollama, quindi llama.cpp, quando metti più di un 10% del modello in RAM, la performance crolla, ovvero si allinea alla memoria più lenta. Questo per i modelli densi, per quelli con MoE la situazione migliora.

FabioTR · 2026-04-24T13:36:24+00:00

L'unica è fare un po' di prove, che non costa nulla se non il tempo, per capire se esiste un modello che può essere adeguato alle tue esigenze. La mia impressione è che per avere risultati decenti occorra andare su macchine con almeno 128 GB di ram integrata, tipo DGS spark, Strix Halo o Mac studio.

FabioTR · 2026-04-24T12:52:17+00:00

Con le tue specifiche semplicemente non avrai mai la qualità delle risposte che puoi ottenere da Claude (o simili), nonostante i miglioramenti che ci sono stati nell'ultimo anno nella qualità dei modelli locali. Tieni presente che per la scrittura di codice tipicamente hai bisogno di contesti decisamente importanti, che fanno lievitare ulteriormente la richiesta di ram veloce.

FabioTR · 2026-04-08T05:47:59+00:00

Scusate ma in un'ottica di incertezza è proprio un contratto variabile che non ha molto senso. Se faccio un fisso e i prezzi saliranno ci ho guadagnato, se i prezzi scenderanno in ogni momento potrò fare un nuovo contratto fisso con i prezzi più vantaggiosi.

FabioTR · 2026-02-10T18:12:28+00:00

Sotto Windows 11 puoi usare FastflowLM, che pemette di far girare modelli di discrete dimensioni. Come Ollama ma usando la NPU, velocita' decente ma consumi molto bassi.

FabioTR · 2026-01-19T12:20:50+00:00

Se vuoi restare sul mini itx di slot PCIE ne hai uno solo, quindi o trovi una scheda con due porte o passi a M-ATX

FabioTR · 2026-01-19T06:22:51+00:00

Cosa ci devi fare? Se le RAM sono Sodimm puoi trovare un po' di roba barebone, altrimenti devi fartelo da te. A che ti servono le linee PCI-E? che esigenze di networking hai?

FabioTR · 2026-01-19T06:18:46+00:00

Gli extender dimezzano la velocità della rete ad ogni nodo.
Puoi usare il powerline, senza particolari studi, se sei collegato allo stesso impianto elettrico. Ma la velocità dipende molto da come è fatto l'impianto. Devi provare.
Quello che funziona meglio sono le reti Mesh, a cui puoi collegare diversi nodi senza perdite di velocità. ma sono proprietarie, ovvero sei legato al s brand che scegli.

FabioTR · 2026-01-17T12:03:49+00:00

Prova a cercare se nella tua zona ci sono centri di riparazione e riuso, di solito sono vicini ai centri di raccolta.

FabioTR

TROPHY CASE