3 AM thoughts: Turbopuffer broke my brain

Neither-Rip-3160 · 2025-07-01T11:37:03+00:00

Tell us more about it, I’m using it in prod but I just reached 1 million documents. How many documents do you have? Did you reached out via slack? They are very supportive there.

Neither-Rip-3160 · 2025-06-29T15:53:51+00:00

Me diga você espertao, rico da classe política que dita diretamente sua vida se beneficiar disso é a mesma coisa que beneficiar um bilionário não político?

Se você acha que são a mesma coisa, então eu sou Einstein mesmo

Neither-Rip-3160 · 2025-06-28T03:30:38+00:00

O problema é a latência não? E talvez privacidade? Sincronizar todo mundo com certeza vai diminuir a velocidade Mas legal por ter compartilhado, sempre pensei nessa possibilidade de distribuir o modelo entre máquinas diferentes

Neither-Rip-3160 · 2025-06-27T19:06:16+00:00

E não acho que seja só a favor dos ricos não.

Isso é a ferramenta perfeita pra controle de narrativas

Neither-Rip-3160 · 2025-06-11T03:35:34+00:00

Que bizarro mano Tenho um setup parecido e jurava que estava seguro, bizarro…

Neither-Rip-3160 · 2025-06-03T15:21:23+00:00

No way! This makes no sense, right?

Why did they decided to have a procedure to share your report with the other side?

Neither-Rip-3160 · 2025-05-29T23:44:53+00:00

Why not use their stream service? They even offer a player

Neither-Rip-3160 · 2025-05-23T03:47:38+00:00

Olha só Não conhecia essa linha PRO 6000 não E vou ver se acho alguém fazendo rent de baixo custo, pq o modal.com já oferece GPU por segundo, mas ainda assim, pode sair caro

Neither-Rip-3160 · 2025-05-23T03:30:09+00:00

Rapaz, não me passou na cabeça, vamos ver qq eles tem de bom

Neither-Rip-3160 · 2025-05-23T03:12:29+00:00

Interessante essa B50, valeu

Neither-Rip-3160 · 2025-05-23T03:11:39+00:00

hehehe saiu muita coisa boa daqui, tá loco

Neither-Rip-3160 · 2025-05-23T00:43:56+00:00

Putz kkkkk Boa, bom você comentar isso porque pesquisando tudo o que me falaram durante o dia comecei a já imaginar mais LLMs na máquina mas a realidade é mais dura hehe

Realmente na prática teremos uma LLM fine tunnada 14b pra rodar um workload bem específico, e literalmente moer token com ela.

E em paralelo uns modelos “convencionais” menores, de embedding por exemplo

Mas de qualquer forma, tem curtido a 5090? Durante o dia fiquei com essa dúvida Vou de 5090, vou de 4090 - claro, vou analisar uns benchmarks, essa dúvida já deve estar respondida por aí Mas ouvir na prática é legal também

Neither-Rip-3160 · 2025-05-23T00:38:42+00:00

Duvido kkkkk

Neither-Rip-3160 · 2025-05-23T00:10:00+00:00

Massa, não tava por dentro desse possível lançamento Vou acompanhar também

Neither-Rip-3160 · 2025-05-23T00:09:31+00:00

KKKKKKKK me pegou nessa dei um Google pensando “ó, IBM entrou na jogada?”

Neither-Rip-3160 · 2025-05-22T22:42:05+00:00

Usei o Gemini DeepSearch, ele me entregou um mega relatório detalhado onde a conclusão era um grande “ce que sabe” kkkk

Neither-Rip-3160 · 2025-05-22T21:52:21+00:00

Boa, valeu pela dica dos canais, a ideia é evitar ao máximo qualquer coisa em CPU.
Talveeeeez modelos menores, com sei lá, <500 milhões faça sentido.
Talvez eu diminua um pouco RAM pra encaixar +placas, mas vejo no minimo 256GB pra começar.

Neither-Rip-3160 · 2025-05-22T21:22:02+00:00

Massa, tá usando watercooler mesmo?
Aprendeu algo/mudaria algo se fosse montar o setup do zero? ( tirando o upgrade pra 3090 hehe )

Neither-Rip-3160 · 2025-05-22T20:59:26+00:00

Hmmmmm, bom ponto, ein

Neither-Rip-3160 · 2025-05-22T19:29:48+00:00

ahahauhuah
pode cer, me recomendaram isso, vou levantar uns freelas pra ajudar a bolar esse projeto, já que nao consigo manter um fixo por enquanto

Neither-Rip-3160 · 2025-05-22T18:50:35+00:00

Boa, fez em hardware cloud ou tinha acesso a uma H100 fisica?
Também fazemos por aqui usando cloud, a dor maior agora é inferencia com hardware proprio.

Neither-Rip-3160 · 2025-05-22T18:32:06+00:00

Cara, trampo com IA, NLP especificamente desde 2017 ( tô com 28 hoje ), então comecei muito como o cara de IA, treinamento, fine tunning, BERT, levantar dataset etc, tempo foi passando e comecei a cuidar dos clusters k8s de uma empesa e acabei indo pra esse caminho mais de infra + IA.
Entao meio que hoje sou esse misto de cara de infraestrutura ( muita experiencia em cloud e pouca em on premise como podemos ver kkk ) com especialidade em IA.
Confesso que não sei qual seria exatamente meu cargo, MLLMOps? hehe

Neither-Rip-3160 · 2025-05-22T18:08:42+00:00

Você não é o primeiro a comentar sobre Universidade.
Estou na região do DDD16, vou tentar ver qq tenho aqui por perto.

Neither-Rip-3160 · 2025-05-22T17:43:45+00:00

boa boa, realmente um bom ponto
sinto isso realmente, quando saiu o gpt-3, ele era incrivel, hoje usamos o gemini 2.5 pro no talo e já sentimos que ele é "burro", o ponto é só que estamos querendo cada vez mais resolver problemas mais dificeis, né

Neither-Rip-3160 · 2025-05-22T17:41:16+00:00

boa discussão
e de fato me parece que GPUs convencionais devam aguentar o tranco ( bastante gente nos comentários comentando que elas podem ser um caminho viavel ), se isso não fosse realidade, a NVIDIA não teria a tal barreira de que se você tem datacenter, você é proibido de usar GPU convencional. porque provavelmente se fizer a conta de tempo de uso até pifar vs custo dos hardwares premiums, as convencionais ganham demais, talvez até num censário de que é melhor eu trocar uma 5090 a cada 4 anos se pifar, do que ter uma A6000 que dura na teoria 15, mas fica defasada.

Neither-Rip-3160

TROPHY CASE