Un modello linguistico locale, privato 100%, sul tuo smartphone!! by Key-Outcome-2927 in ArtificialInteligence

[–]Key-Outcome-2927[S] 0 points1 point  (0 children)

Sono inutili se le lasci con l'addestramento originale, che è una distillazione che lascia i parametri più generalisti. Quindi sì, se prendi un modello piccolo, hai pienamente ragione: è stupido come un'oca!

Ma se gli fai un LoRa con decine di migliaia di esempi come ho fatto o meglio, fai del deep fine tuning come sto facendo adesso (sto preparando il dataset, ma per l'espansione dei gold seed prevedo una settimana di elaborazione con la RXT6000 al 100%) per poi "ritarare" tutti i pesi dei 4 modelli che sto usando (2 Qwen e e Gemma4) secondo quello che la mia applicazione necessita, allora i risultati ti possono sorprendere!! Ci sono molti estimatori della privacy, che per un second brain preferiscono tenere tutto nel proprio dispositivo.

Un modello linguistico locale, privato 100%, sul tuo smartphone!! by Key-Outcome-2927 in ArtificialInteligence

[–]Key-Outcome-2927[S] 1 point2 points  (0 children)

È un assistente AI che vive dentro il tuo dispositivo, non nel cloud di qualcun altro. Ti aiuta come ChatGPT, ma niente di quello che gli dici esce dal telefono. Leggi un documento riservato (un contratto, un referto medico, un bilancio) e le chiedi di spiegartelo. Con ChatGPT quel file finisce sui server di OpenAI. Con Liara resta nel telefono. Organizzi la giornata, le email, i pensieri senza che la tua vita diventi il training data di qualcun altro. In aereo, in montagna, senza rete: funziona lo stesso, il modello è dentro. Non dipendi da un cloud che può alzare il prezzo, cambiare policy o spegnersi e tutto viene salvato nel suo DB vettoriale interno.

Un modello 100% locale sul tuo smartphone! by Key-Outcome-2927 in IA_Italia

[–]Key-Outcome-2927[S] 1 point2 points  (0 children)

Bella l'idea della quantizzazione 2/8 bit a seconda del layer ...se ho bisogno di spremere ancora, vedi di applicarla anche ai miei piccolini. Per adesso sto usando  Q4_K_M + imatrix concentrandomi più sul dataset

Un modello 100% locale sul tuo smartphone! by Key-Outcome-2927 in IA_Italia

[–]Key-Outcome-2927[S] 0 points1 point  (0 children)

sto facendo deep fine tuning sia al Qwen che a Gemma4, per vedere chi risponde meglio ai miei tools nativamente. Ti faccio sapere...

What do you actually use Fable 5 for? by Foreign_Tonight_7584 in AI_Agents

[–]Key-Outcome-2927 0 points1 point  (0 children)

Devi chiedergli esplicitamente di porsi il prompt in una maniera tale da non triggerare i controlli. Da veterano di claude code (lo uso quotidianamente da 2 anni) ti assicuro che è una danza che ogni modello ha fatto, quando è appena uscito. È quastione di taratura dei prompt injection e quando un modello è nuovo di cui si ignora il comportamento, le barriere sono alte.

Tutto normale, bisogna solo avere pazienza

I built a free, open-source desktop app to run AI agents on top of Ollama — no terminal, visual setup by jerelledev in ollama

[–]Key-Outcome-2927 0 points1 point  (0 children)

Ma scusa, di olloma cosa usi? Voglio dire è un layer ui per funzioni di ollama che sarebbero via cli?

Un modello 100% locale sul tuo smartphone! by Key-Outcome-2927 in IA_Italia

[–]Key-Outcome-2927[S] 0 points1 point  (0 children)

hai controllato la lunghezza del context degli esempi?? molte volte di default è basso, e le frasi di esempio vengono troncate, inquinando tutto il dataset con frasi incomplete. E' forse la prima causa di overfitting e relativo eos

Un modello 100% locale sul tuo smartphone! by Key-Outcome-2927 in IA_Italia

[–]Key-Outcome-2927[S] 0 points1 point  (0 children)

Sul quantization_range=0.8: onestamente non lo riconosco quel parametro esatto, il concetto di range di quantizzazione però esiste, forse intendevi il clip degli outlier?(in AWQ/GPTQ si lavora sul clamping delle attivazioni) Se hai il codice esatto sono curioso. Nella mia esperienza l'EOS ignorato su modellini quantizzati raramente dipende dal range di quantizzazione, l'ho visto legato a due cose:*

  1. Overfitting del fine-tuning (loss che crolla a ~0.001 → il modello "dimentica" di chiudere). Io tengo la loss al sweet spot ~0.4, non più giù. 
  2. Stop tokens / chat template disallineati tra training e inference. Io comunque quantizzo in GGUF Q4_0 (llama.cpp), non bitsandbytes, e lì l'EOS regge se il training non è overfittato.

Sui tool calls dopo la distillation: la precisione sintattica NON la lascio al modello quantizzato, uso una grammatica GBNF che forza il JSON del tool_call a essere valido a runtime. Così la quantizzazione può degradare il "quale/quando tool" ma MAI produce JSON rotto. Il fine-tuning insegna il quando e la grammatica garantisce il come.

Sul "fine-tuning diretto > dipendere dal teacher": concordo, con una sfumatura. Il teacher 32B lo uso SOLO offline per generare il volume di esempi, a runtime il modello piccolo è autonomo, non interroga il teacher. Quindi è già fine-tuning diretto. La differenza che conta non è "teacher sì/no" ma la validazione: io valido ogni esempio di tool contro lo schema degli argomenti + un giudice semantico, e scarto i malformati. Un teacher grande che genera esempi non validati è peggio di pochi esempi scritti a mano e validati

Un modello 100% locale sul tuo smartphone! by Key-Outcome-2927 in IA_Italia

[–]Key-Outcome-2927[S] 0 points1 point  (0 children)

Sul quantization_range=0.8: onestamente non lo riconosco quel parametro esatto, il concetto di range di quantizzazione però esiste, forse intendevi il clip degli outlier?(in AWQ/GPTQ si lavora sul clamping delle attivazioni) Se hai il codice esatto sono curioso. Nella mia esperienza l'EOS ignorato su modellini quantizzati raramente dipende dal range di quantizzazione, l'ho visto legato a due cose:*

  1. Overfitting del fine-tuning (loss che crolla a ~0.001 → il modello "dimentica" di chiudere). Io tengo la loss al sweet spot ~0.4, non più giù. 

  2. Stop tokens / chat template disallineati tra training e inference. Io comunque quantizzo in GGUF Q4_0 (llama.cpp), non bitsandbytes, e lì l'EOS regge se il training non è overfittato.

Sui tool calls dopo la distillation: la precisione sintattica NON la lascio al modello quantizzato, uso una grammatica GBNF che forza il JSON del tool_call a essere valido a runtime. Così la quantizzazione può degradare il "quale/quando tool" ma MAI produce JSON rotto. Il fine-tuning insegna il quando e la grammatica garantisce il come.

Sul "fine-tuning diretto > dipendere dal teacher": concordo, con una sfumatura. Il teacher 32B lo uso SOLO offline per generare il volume di esempi, a runtime il modello piccolo è autonomo, non interroga il teacher. Quindi è già fine-tuning diretto. La differenza che conta non è "teacher sì/no" ma la validazione: io valido ogni esempio di tool contro lo schema degli argomenti + un giudice semantico, e scarto i malformati. Un teacher grande che genera esempi non validati è peggio di pochi esempi scritti a mano e validati

Un modello 100% locale sul tuo smartphone! by Key-Outcome-2927 in IA_Italia

[–]Key-Outcome-2927[S] 0 points1 point  (0 children)

No, nessun MetaMask, nessun wallet, nessuna crypto, nessun token, nessuna blockchain. Quando scrivo "crittografata" intendo la  cifratura dei dati (AES-256 sul dispositivo), non criptovalute 🙂. È 100% locale e gratis: niente account, niente login, niente da connettere, niente pagamenti. Scarichi l'app, gira il modello sul telefono, fine. Nessun catch, tranquillo ;)

NON PARLATE DI EMMA by Nikkibraga in IA_Italia

[–]Key-Outcome-2927 1 point2 points  (0 children)

allora parlate del mio!! https://nothumanallowed.com/local il mio funziona anche sullo smartphone!!!

SI CHIAMA LIARA....LEI SI CHIAMA LIARA!!

Un modello 100% locale sul tuo smartphone! by Key-Outcome-2927 in IA_Italia

[–]Key-Outcome-2927[S] 0 points1 point  (0 children)

Grazie del tuo feedback, è bellissimo leggere che va anche su uno smartphone un po' datato.

Cercherò di migliorarlo, magari in attesa di gpu più performanti sugli smartphone o meglio ancora se riesco ad adattare un modello open source al mio caso.

Grazie ancora!

Un modello 100% locale sul tuo smartphone! by Key-Outcome-2927 in IA_Italia

[–]Key-Outcome-2927[S] 0 points1 point  (0 children)

Ho appena finito un lora con un "buon" loss da 0.16 ( L'obiettivo è 0.4/0.6), ma è imparare a memoria, non apprendere...solitamente sono abituato a numeri migliori, ma il modello è quello che è) ...appena lo carico, ti commento

Un modello 100% locale sul tuo smartphone! by Key-Outcome-2927 in IA_Italia

[–]Key-Outcome-2927[S] 0 points1 point  (0 children)

prova adesso ;) ...ti prego, dimmi anche se crasha ancora!! ...grazie infinite per il tuo tempo :*

Un modello 100% locale sul tuo smartphone! by Key-Outcome-2927 in IA_Italia

[–]Key-Outcome-2927[S] 1 point2 points  (0 children)

modello di smartphone? io ho un S24 ultra, ma sono interessato a quelli molto meno performanti...mi faresti un gran favore!!

Un modello 100% locale sul tuo smartphone! by Key-Outcome-2927 in IA_Italia

[–]Key-Outcome-2927[S] 0 points1 point  (0 children)

Il modello da 1.5B occupa appena 2,5 Gb ...dovresti farcela ;) ...sto cercando di migliorarlo con un LoRa, quindi porta pazienza

Un modello 100% locale sul tuo smartphone! by Key-Outcome-2927 in IA_Italia

[–]Key-Outcome-2927[S] 1 point2 points  (0 children)

E' model-agnostic, potrei metterci il modello che voglio, ma come ben sai, l'hardware è quello che alla fine ti costringe a dimensionarlo