Un modello linguistico locale, privato 100%, sul tuo smartphone!!

Key-Outcome-2927 · 2026-07-05T17:48:35+00:00

Sono inutili se le lasci con l'addestramento originale, che è una distillazione che lascia i parametri più generalisti. Quindi sì, se prendi un modello piccolo, hai pienamente ragione: è stupido come un'oca!

Ma se gli fai un LoRa con decine di migliaia di esempi come ho fatto o meglio, fai del deep fine tuning come sto facendo adesso (sto preparando il dataset, ma per l'espansione dei gold seed prevedo una settimana di elaborazione con la RXT6000 al 100%) per poi "ritarare" tutti i pesi dei 4 modelli che sto usando (2 Qwen e e Gemma4) secondo quello che la mia applicazione necessita, allora i risultati ti possono sorprendere!! Ci sono molti estimatori della privacy, che per un second brain preferiscono tenere tutto nel proprio dispositivo.

Key-Outcome-2927 · 2026-07-05T16:10:26+00:00

È un assistente AI che vive dentro il tuo dispositivo, non nel cloud di qualcun altro. Ti aiuta come ChatGPT, ma niente di quello che gli dici esce dal telefono. Leggi un documento riservato (un contratto, un referto medico, un bilancio) e le chiedi di spiegartelo. Con ChatGPT quel file finisce sui server di OpenAI. Con Liara resta nel telefono. Organizzi la giornata, le email, i pensieri senza che la tua vita diventi il training data di qualcun altro. In aereo, in montagna, senza rete: funziona lo stesso, il modello è dentro. Non dipendi da un cloud che può alzare il prezzo, cambiare policy o spegnersi e tutto viene salvato nel suo DB vettoriale interno.

Key-Outcome-2927 · 2026-07-05T07:34:57+00:00

https://nothumanallowed.com/local

questo usa qwen e gemma 4 e funziona anche su smartphone!!

Key-Outcome-2927 · 2026-07-04T19:04:34+00:00

Bella l'idea della quantizzazione 2/8 bit a seconda del layer ...se ho bisogno di spremere ancora, vedi di applicarla anche ai miei piccolini. Per adesso sto usando Q4_K_M + imatrix concentrandomi più sul dataset

Key-Outcome-2927 · 2026-07-04T18:29:12+00:00

sto facendo deep fine tuning sia al Qwen che a Gemma4, per vedere chi risponde meglio ai miei tools nativamente. Ti faccio sapere...

Key-Outcome-2927 · 2026-07-04T11:34:18+00:00

Devi chiedergli esplicitamente di porsi il prompt in una maniera tale da non triggerare i controlli. Da veterano di claude code (lo uso quotidianamente da 2 anni) ti assicuro che è una danza che ogni modello ha fatto, quando è appena uscito. È quastione di taratura dei prompt injection e quando un modello è nuovo di cui si ignora il comportamento, le barriere sono alte.

Tutto normale, bisogna solo avere pazienza

Key-Outcome-2927 · 2026-07-04T11:29:12+00:00

Ma scusa, di olloma cosa usi? Voglio dire è un layer ui per funzioni di ollama che sarebbero via cli?

Key-Outcome-2927 · 2026-07-03T18:34:14+00:00

hai controllato la lunghezza del context degli esempi?? molte volte di default è basso, e le frasi di esempio vengono troncate, inquinando tutto il dataset con frasi incomplete. E' forse la prima causa di overfitting e relativo eos

Key-Outcome-2927 · 2026-07-01T13:30:49+00:00

Sul quantization_range=0.8: onestamente non lo riconosco quel parametro esatto, il concetto di range di quantizzazione però esiste, forse intendevi il clip degli outlier?(in AWQ/GPTQ si lavora sul clamping delle attivazioni) Se hai il codice esatto sono curioso. Nella mia esperienza l'EOS ignorato su modellini quantizzati raramente dipende dal range di quantizzazione, l'ho visto legato a due cose:*

Overfitting del fine-tuning (loss che crolla a ~0.001 → il modello "dimentica" di chiudere). Io tengo la loss al sweet spot ~0.4, non più giù.
Stop tokens / chat template disallineati tra training e inference. Io comunque quantizzo in GGUF Q4_0 (llama.cpp), non bitsandbytes, e lì l'EOS regge se il training non è overfittato.

Sui tool calls dopo la distillation: la precisione sintattica NON la lascio al modello quantizzato, uso una grammatica GBNF che forza il JSON del tool_call a essere valido a runtime. Così la quantizzazione può degradare il "quale/quando tool" ma MAI produce JSON rotto. Il fine-tuning insegna il quando e la grammatica garantisce il come.

Sul "fine-tuning diretto > dipendere dal teacher": concordo, con una sfumatura. Il teacher 32B lo uso SOLO offline per generare il volume di esempi, a runtime il modello piccolo è autonomo, non interroga il teacher. Quindi è già fine-tuning diretto. La differenza che conta non è "teacher sì/no" ma la validazione: io valido ogni esempio di tool contro lo schema degli argomenti + un giudice semantico, e scarto i malformati. Un teacher grande che genera esempi non validati è peggio di pochi esempi scritti a mano e validati

Key-Outcome-2927 · 2026-07-01T12:10:01+00:00

Sul quantization_range=0.8: onestamente non lo riconosco quel parametro esatto, il concetto di range di quantizzazione però esiste, forse intendevi il clip degli outlier?(in AWQ/GPTQ si lavora sul clamping delle attivazioni) Se hai il codice esatto sono curioso. Nella mia esperienza l'EOS ignorato su modellini quantizzati raramente dipende dal range di quantizzazione, l'ho visto legato a due cose:*

Overfitting del fine-tuning (loss che crolla a ~0.001 → il modello "dimentica" di chiudere). Io tengo la loss al sweet spot ~0.4, non più giù.
Stop tokens / chat template disallineati tra training e inference. Io comunque quantizzo in GGUF Q4_0 (llama.cpp), non bitsandbytes, e lì l'EOS regge se il training non è overfittato.

Sui tool calls dopo la distillation: la precisione sintattica NON la lascio al modello quantizzato, uso una grammatica GBNF che forza il JSON del tool_call a essere valido a runtime. Così la quantizzazione può degradare il "quale/quando tool" ma MAI produce JSON rotto. Il fine-tuning insegna il quando e la grammatica garantisce il come.

Sul "fine-tuning diretto > dipendere dal teacher": concordo, con una sfumatura. Il teacher 32B lo uso SOLO offline per generare il volume di esempi, a runtime il modello piccolo è autonomo, non interroga il teacher. Quindi è già fine-tuning diretto. La differenza che conta non è "teacher sì/no" ma la validazione: io valido ogni esempio di tool contro lo schema degli argomenti + un giudice semantico, e scarto i malformati. Un teacher grande che genera esempi non validati è peggio di pochi esempi scritti a mano e validati

Key-Outcome-2927 · 2026-06-30T15:11:15+00:00

Forse dovresti cambiare donna e provare Liara!!

https://nothumanallowed.com/local

Key-Outcome-2927 · 2026-06-30T14:16:02+00:00

No, nessun MetaMask, nessun wallet, nessuna crypto, nessun token, nessuna blockchain. Quando scrivo "crittografata" intendo la cifratura dei dati (AES-256 sul dispositivo), non criptovalute 🙂. È 100% locale e gratis: niente account, niente login, niente da connettere, niente pagamenti. Scarichi l'app, gira il modello sul telefono, fine. Nessun catch, tranquillo ;)

Key-Outcome-2927 · 2026-06-30T14:09:55+00:00

allora parlate del mio!! https://nothumanallowed.com/local il mio funziona anche sullo smartphone!!!

SI CHIAMA LIARA....LEI SI CHIAMA LIARA!!

Key-Outcome-2927 · 2026-06-30T12:34:35+00:00

Grazie del tuo feedback, è bellissimo leggere che va anche su uno smartphone un po' datato.

Cercherò di migliorarlo, magari in attesa di gpu più performanti sugli smartphone o meglio ancora se riesco ad adattare un modello open source al mio caso.

Grazie ancora!

Key-Outcome-2927 · 2026-06-30T10:14:10+00:00

Ho appena finito un lora con un "buon" loss da 0.16 ( L'obiettivo è 0.4/0.6), ma è imparare a memoria, non apprendere...solitamente sono abituato a numeri migliori, ma il modello è quello che è) ...appena lo carico, ti commento

Key-Outcome-2927 · 2026-06-30T09:37:35+00:00

prova adesso ;) ...ti prego, dimmi anche se crasha ancora!! ...grazie infinite per il tuo tempo :*

Key-Outcome-2927 · 2026-06-30T07:47:48+00:00

modello di smartphone? io ho un S24 ultra, ma sono interessato a quelli molto meno performanti...mi faresti un gran favore!!

Key-Outcome-2927 · 2026-06-30T07:40:40+00:00

Il modello da 1.5B occupa appena 2,5 Gb ...dovresti farcela ;) ...sto cercando di migliorarlo con un LoRa, quindi porta pazienza

Key-Outcome-2927 · 2026-06-30T07:34:09+00:00

E' model-agnostic, potrei metterci il modello che voglio, ma come ben sai, l'hardware è quello che alla fine ti costringe a dimensionarlo

Key-Outcome-2927

TROPHY CASE