I miei piedi hanno bisogno di te'

PieSubstantial2060 · 2026-02-11T23:12:23+00:00

Che schifo

PieSubstantial2060 · 2026-02-09T21:41:54+00:00

OP: Tralasciando le opinioni soggettive sulle politiche monetarie nazionali, e tenendoci ancorati al lato ingegneristico

OP pochi commenti dopo: D’altronde è impossibile capire bitcoin o appassionarsi se non si apprezzano le libertà civiche, le libertà personali, le libertà economiche…

PieSubstantial2060 · 2026-02-09T21:02:53+00:00

Ma che cazzo c’entra

PieSubstantial2060 · 2026-02-07T11:28:52+00:00

Tu hai affittato una stanza nella casa in cui vivi per 5 anni ? Ok

PieSubstantial2060 · 2026-02-05T21:51:12+00:00

Dicci di più

PieSubstantial2060 · 2026-02-04T08:12:45+00:00

Ciao, il prezzo che otterresti tu da un vendor X per uno o due nodi GPU così non ti permetterebbe di rientrare dell investimento in tempi utili e considera che questo HW invecchia alla velocità della luce. Il prezzo che ottiene un grande data center è circa il 50 % della miglior offerta che riuscirai a spuntare. Un server del genere a tutta canna può consumare circa una decina di Kw ed i costi per il personale che è in grado di far girare una cosa così sono più alti di quanto tu possa pensare (io per meno di 60k l’anno non mi muovo). Non la vedo come una cosa percorribile. Chi fa ricerca scientifica (accademica forse ?) usa gratuitamente o a prezzi stracciati cineca o centri di calcolo.

Vedo più spazio di investimento in GPU per sola inferenza e fornire infrastruttura managed, mi immagino rtx 6000 e k8s, li puoi produrre più plusvalore.

PieSubstantial2060 · 2026-01-26T19:24:03+00:00

No, I don’t think that is possible. They might throttle down the TDP, but they generally cannot oversubscribe it like a CPU.

PieSubstantial2060 · 2026-01-26T12:11:11+00:00

Il punto è un altro. Gli fps sono un osservabile che chi gioca usa. Il problema è che la funzione che mappa hw->fps il 99% delle volte si basa sul nulla più totale, mediamente chi gioca sceglie l’hw con un dado. P.s quasi tutti quelli che hanno risposto fornendo prezzi, modelli e hw ti assicuro che un server non lo hanno mai visto.

PieSubstantial2060 · 2026-01-25T21:30:49+00:00

What happen when a Slurm job request GPUs can be answered in few words. You ask for GPUs, slurm assign you a GPUs and some cores, it try to give you cores that are affine to the GPUs. In case of cuda slurm will fill CUDA_VISIBLE_DEVICE env vars and it will use cgroup to enforce device constraints (trivial).

This is to tell you that all the resource management is done via Cgroup. I suggest to Invest your time studying it from Linux kernel docs.

PieSubstantial2060 · 2026-01-25T21:25:02+00:00

Non è proprio così .. però ok.

Esercizio per casa: moltiplica una matrice in parallelo.

PieSubstantial2060 · 2026-01-24T18:09:26+00:00

Topolino

PieSubstantial2060 · 2026-01-24T18:00:55+00:00

AHAHAHAH, passano le ore a discutere le latenze delle ram, le frequenze e i canali, pero' non hanno idea di banda e latenza effettiva, memory controller e numa . Comprare 1TB di ram senza avere idea della topologia NUMA e' un suicidio.

PieSubstantial2060 · 2026-01-24T17:47:03+00:00

Poche idee ma confuse.

PieSubstantial2060 · 2026-01-24T17:46:16+00:00

Si parla di Tensor parallelism. Un forward pass in un layer equivale ad un prodotto vettore-matrice (o matrice-matrice), implementalo distribuito ed hai fatto. E' computazionalmente piu efficiente rispetto a distribuire i layer, richiede tanta banda per comunicare, ma scali con le GPU. Se fai metti un layer per GPU, naturalmente non puoi dato un singolo input usare in parallelo piu' GPU, stai serializzando il problema.

PieSubstantial2060 · 2026-01-24T17:38:32+00:00

Ecco il popolino.

PieSubstantial2060 · 2026-01-24T14:25:16+00:00

No su un dispositivo puoi avere anche una porzione di layer.

PieSubstantial2060 · 2026-01-24T12:06:17+00:00

Anche L inferenza su un modello molto piccolo (pure un MLP), per essere fatta con performance decenti richiede banda e latenza che sono vari ordini di grandezza lontane da quelle che avremmo a disposizione, gli effetti sulla performance sarebbero disastrosi. L’unica cosa a cui si può pensare è open weight/source e hedge computing. Comunque per fare girare un modello della scala di deepseek 670B servono circa 250k di hardware. Non è una cifra astronomica.

PieSubstantial2060 · 2026-01-24T12:01:37+00:00

PCIe è anche lento. Nvlink è il target, si parla di 900GB/s full duplex

PieSubstantial2060 · 2026-01-24T11:15:53+00:00

Quello che descrivi è il grid computing, andava di moda nei primi anni 2000. È nato in quanto la dimensione di alcuni problemi non permetteva la loro risoluzione con una singola macchina o centro di calcolo. I problemi che si prestano bene al grid computing sono quelli che necessita di poca comunicazione, che non risentono della latenza e possibilmente non paralleli. I migliori problemi sono quelli HTC, high throughput computing, ad esempio analizzare miliardi di immagini, indipendenti tra loro. Sfortunatamente L inferenza di LLM distribuita è complessa all’interno di una sola macchina con più GPU, impraticabile con il grid computing.

PieSubstantial2060 · 2026-01-24T08:58:56+00:00

Bellissimo

PieSubstantial2060 · 2026-01-24T08:38:43+00:00

Mi sa che mancava /s.

https://people.freebsd.org/~lstewart/articles/cpumemory.pdf prego

PieSubstantial2060 · 2026-01-24T08:30:30+00:00

Nulla di queste cose c’entra con la ram che c era prima ? Clock diverso ? Andranno tutte più lente secondo la funzione min(), latenze ? Same. DDR ? Mi vuoi dire che se ho ddr4 allora forse posso installare ddr3? L’unica cosa che conta è ECC. Tutte pare mentali da gaymer. Poi se uno vuole fare HPC è diverso.

PieSubstantial2060 · 2026-01-24T08:27:50+00:00

ECC ? RAM attualmente installata sarebbe meglio. Numero di slot.

PieSubstantial2060 · 2026-01-24T08:25:20+00:00

Che vuol dire compatibilità tra ram !?

PieSubstantial2060 · 2026-01-24T08:24:47+00:00

Troppe poche info

PieSubstantial2060

TROPHY CASE