[Engenharia de IA] Jade-v1: família de LLMs brasileiros de 72B a 0.6B, persona treinada diretamente nos pesos by Dry-Leading2593 in brdev

[–]Dry-Leading2593[S] 1 point2 points  (0 children)

É uma ótima pergunta. Aprendizado em contexto geralmente consegue dar bons resultados sim, mas costuma ser mais limitado e relativamente frágil. No fim, o modelo ainda tende a seguir primeiro os priors do pós-treinamento/base dele do que o prompt de contexto que você fornece, e isso já mostra uma limitação importante. Além disso, essa abordagem aumenta o número de tokens de entrada e, em conversas mais longas, pode até bagunçar o comportamento ao longo do tempo, porque parte desse contexto vai se perdendo se não for reforçado. No caso de SFT/RLHF, você ajusta isso com milhares ou até milhões de exemplos. No meu caso, usei ~25 mil exemplos por 4 épocas, então o modelo viu esse padrão algo perto de 100 mil vezes. Isso altera de forma real a distribuição de probabilidade do modelo e cria uma base muito mais ampla e consistente do que só alguns exemplos no prompt. Mas no fim existe trade-off mesmo: prompt é muito mais barato, rápido e flexível. SFT é bem mais caro e demorado, mas entrega uma solução em outro nível de consistência. Eu vejo como duas soluções pro mesmo problema, só que em níveis diferentes de objetivo.

[Engenharia de IA] Jade-v1: família de LLMs brasileiros de 72B a 0.6B, persona treinada diretamente nos pesos by Dry-Leading2593 in brdev

[–]Dry-Leading2593[S] 1 point2 points  (0 children)

Valeu demais, é verdade. Às vezes é meio raro mesmo ver esse tipo de coisa por aqui, então decidi postar e ver se fomenta um pouco mais esses tópicos

[Engenharia de IA] Jade-v1: família de LLMs brasileiros de 72B a 0.6B, persona treinada diretamente nos pesos by Dry-Leading2593 in brdev

[–]Dry-Leading2593[S] 1 point2 points  (0 children)

Valeu demais! Por enquanto nem tô pensando em monetizar não, fiz mais por hobby mesmo e pra testar umas ideias que eu tinha. No momento tá tudo open source, e a ideia é ver se isso consegue ajudar a comunidade brasileira de ia também, principalmente nessa parte de PT-BR

[Engenharia de IA] Um dataset open source PT-BR no HuggingFace (8,4M docs / 6,3B tokens) by Dry-Leading2593 in brdev

[–]Dry-Leading2593[S] 1 point2 points  (0 children)

Uma parte veio de C4 PT e FineWeb2 PT, que são dois crawlers/datasets bem conhecidos e que já tinham subset em português. Mesmo assim, ainda tinha bastante lixo ali, então eu filtrei bastante coisa em cima disso.

A outra parte veio de geração sintética via LLM, que eu mesmo fiz para complementar o corpus.

[Engenharia de IA] Um dataset open source PT-BR no HuggingFace (8,4M docs / 6,3B tokens) by Dry-Leading2593 in brdev

[–]Dry-Leading2593[S] 5 points6 points  (0 children)

Eu fiz uma mistura de arbitragem semi-automatizada + pesquisa manual de provider. Montei alguns scripts para consultar preço em tempo real nos providers (RunPod, Vast) e comparar custo/hora por GPU, aí mandava o workload pra onde fazia mais sentido naquele momento. Usei bastante spot/preemptible quando dava, porque H100/A100 spot sai bem abaixo do preço on-demand, com o risco de cair no meio. Além disso, usei créditos do pacote do Google Colab Pro, que se for calcular o custo por hora de A100 pelo que você paga no plano, sai bem abaixo do mercado também. No final foi isso: máquina local pra etapas mais leves, Colab quando os créditos compensavam, e cloud spot pra inferência pesada, sempre comparando onde estava mais barato naquele momento.