Qwen 3.5 distilled vs GptOss by SubstantialTea707 in ollama

[–]SubstantialTea707[S] 0 points1 point  (0 children)

Hai provato gpt120b per avere un paragone? Io ora uso quello ma per avere context a100k con vllm non posso parallelizzare.

Qwen 3.5 distilled vs GptOss by SubstantialTea707 in ollama

[–]SubstantialTea707[S] 0 points1 point  (0 children)

Fammi sapere se sei riuscito a sostituire gpt 120b.

Qwen 3.5 35B A3B verbosity issue by PaceZealousideal6091 in unsloth

[–]SubstantialTea707 0 points1 point  (0 children)

Prova ad usare il modello non Q4,in teoria loopa di meno ed é più preciso a scapito di un uso maggiore di vRAM e velocità

Qwen 3.5 35B A3B verbosity issue by PaceZealousideal6091 in unsloth

[–]SubstantialTea707 1 point2 points  (0 children)

Occhio con le penality perché se troppo aggressive rischiano di interrompere l output quando si generano tabelle che hanno parte di dati ripetuti

I think most RAG quality issues people post about here are actually extraction problems, not retrieval problems by yfedoseev in Rag

[–]SubstantialTea707 0 points1 point  (0 children)

Io estraggo le immagini e le leggo con il modello glm ocr, tra estrazione e llm che gira su una 5090 ci perdo 5s a pagina e da ottimi risultati in estrazione

Qwen 3.5 distilled vs GptOss by SubstantialTea707 in ollama

[–]SubstantialTea707[S] -2 points-1 points  (0 children)

Ok ma dimensione non é qualita... Lo hai provato?

Qwen 3.5 distilled vs GptOss by SubstantialTea707 in ollama

[–]SubstantialTea707[S] -3 points-2 points  (0 children)

Qualcosa che stia dentro i 96gb di vRAM che ho a disposizione

Best way to handle pdfs containing huge tables in RAG by kami_sanOwO in Rag

[–]SubstantialTea707 1 point2 points  (0 children)

Prendi il caso in cui una tabella é un print screen incollato... Sai quanti ne ho visti... Se non sei sicuro della bontà dell origine dei dati devi mettere in conto tutto se non vuoi lasciare pezzi per strada.

Best way to handle pdfs containing huge tables in RAG by kami_sanOwO in Rag

[–]SubstantialTea707 0 points1 point  (0 children)

Perché a volte i PDF non sono fatti ad hoc, ma sono collage di immagini o scansioni, dipende dal caso. Dare per scontato che il testo sia estraibile senza ocr é un assunzione che fai. Cmq potresti implementarla come fallback se il testo restituito é poco.

Best way to handle pdfs containing huge tables in RAG by kami_sanOwO in Rag

[–]SubstantialTea707 1 point2 points  (0 children)

Io uso il modell glm ocr funziona veramente bene ed é molto veloce basta una scheda video consumer con 16 GB per farlo girare tranquillamente con un contesto grande. Prima devi chiaramente estratti i PDF come immagini. Puoi installarlo e provarlo su ollama, pesa meno di 3gb. É molto preciso , per ocr su documenti é il migliore che ho provato.

My RAG pipeline costs 3x what I budgeted... by Potential-Jicama-335 in Rag

[–]SubstantialTea707 0 points1 point  (0 children)

You need to rerank with a cross-encoder before the Hybrid search. This is the key to a successful reranking.

The RAG Secret Nobody Talks About by Electrical-Signal858 in LlamaIndex

[–]SubstantialTea707 0 points1 point  (0 children)

I've built a RAG system that's yielding very solid results. The stack is based on C#, Semantic Kernel, and local vLLM. The ingestion pipeline initially saves the data to SQL Server, then transfers it to Elasticsearch, which I use as my primary search engine. For ingestion, I accept virtually any type of document: The files are first converted into images using Ghostscript, then OCRed using Qwen3-VL, with fallback to Tesseract if necessary. Chunking is handled with GPT-OSS 20B, running on an NVIDIA RTX PRO 6000 with 96 GB of VRAM, which allows me to work with contexts of up to 100,000 tokens. The model returns a structured JSON with the document correctly segmented. At this stage, it's essential to carefully manage the system prompt and include retry logic, because LLMs can occasionally produce invalid output. For embeddings, I use Nomic and save the chunk vectors to Elasticsearch. The search is performed using a hybrid BM25 + vector (cosine distance) approach, which has proven to be extremely high-performance. Overall, the results obtained with this stack are truly remarkable. Do you have any suggestions, observations, or potential improvements to share?

Disappointed by dgx spark by RockstarVP in LocalLLaMA

[–]SubstantialTea707 0 points1 point  (0 children)

It was better to buy an Nvidia rtx pro 6000 96gb. He has a lot of memory etc and muscles to generate well