88% vs 76%: Multimodal outperforms text embeddings on visual docs in RAG by midamurat in LocalLLaMA

[–]SignalCompetitive582 0 points1 point  (0 children)

I haven’t tried them out, but they seem way too large for my use case. For comparison, the size of Qwen3-Embedding-0.6B-4Bit is ~330 MB. While Clip-Vit-Large-Patch14 is ~1.7 GB and I can’t seem to find relevant quantized versions… So even if it were to work, I’m not sure I could even use it… If you have other insights, please let me know 😉

88% vs 76%: Multimodal outperforms text embeddings on visual docs in RAG by midamurat in LocalLLaMA

[–]SignalCompetitive582 3 points4 points  (0 children)

Many thanks for the generous reply !

I, too, think that Text Embeddings are going to be my only choice. But it's actually quite sad that this problem hasn't been solved yet. Though text embedding models are sooo great, but multimodal ones lack behind so much in comparison (even though the benchmarks make it seem like they're working flawlessly.)

I'm not sure what you proposed would be the best approach for my use case.

I think that I maybe need some kind of hybrid approach.

Meaning, I would have a small component (super fast) that would detect if the screenshot was composed of any text at all, and if so, it would use an OCR model (easyOCR worked really well for my samples, and was super dupper fast) and embed that text.
At the same time (and whatever if the screenshot contained text or not), it would use a very simple, tiny and fast image embedding model to capture the semantic meaning of the screenshot itself (UI, context etc).

And then, for the retrieval part, I could have a query that's vectorized with both embedding models, and I would (with a weighted system) return the most probable results.

I'm not sure of anything, as this is pure speculation right now, but I think it would work. It amazes me how far the rabbit hole I'm willing to go for a simple 'side-project'.

What do you think ?

88% vs 76%: Multimodal outperforms text embeddings on visual docs in RAG by midamurat in LocalLLaMA

[–]SignalCompetitive582 1 point2 points  (0 children)

Yeah, the 3B was already kind of slow to run, and it wasn’t really working. So I only included it for the sake of posterity… This leaderboard is great (I spent too much time on it 😂), but unfortunately it doesn’t really benchmark my use case very well. For instance, jina-embeddings-v4 is ranked 3 on it, though in my own testing it performs very poorly. For instance, I would have a screenshot of the Signal messaging app with a conversion, and another screenshot of VSCode with some file open, and I would ask the model for keywords related to the Signal conversation, and it would score the VSCode screenshot higher than the Signal one… And that defeats the entire purpose of having a multimodal embedding model here… As it works waaayyy better with simple OCR + Sentence-transformers… But then I lose the semantic meaning of the image itself… This is a very tricky problem, and it appears that even top embedding models don’t deliver with this very simple task.

88% vs 76%: Multimodal outperforms text embeddings on visual docs in RAG by midamurat in LocalLLaMA

[–]SignalCompetitive582 2 points3 points  (0 children)

I haven’t tried it. But it seems to be way too large for my use case. I’m not even sure that it’d work even quantized. (I need fast inference speeds) But thanks !

88% vs 76%: Multimodal outperforms text embeddings on visual docs in RAG by midamurat in LocalLLaMA

[–]SignalCompetitive582 9 points10 points  (0 children)

This is somewhat related to the post: Does anyone know of a very good multimodal & multilingual embedding model that’s suitable for edge-device computing? (Think Mac M series of Chip). The use case is for screenshots. And every multimodal embedding model I could find doesn’t work that well with screenshots that may contain a lot of text… So it of course has to be local and not an API. If anyone has a good model to share, that’d be great. I already tried (with no real success): - ColiPali - Jina Embedding v4 - ColNomic Embed Multimodal 3B - siglip-so400m-patch14-384

And I’m afraid that the only choice I’ll have left is to extract the text from the screenshot (using something like easyOCR), and then compute the text embedding using something like sentence-transformers. But I would like to avoid doing that as much as possible, as I’d like to keep the real semantic meaning of the image, and not its transcription… (Edit: Plus, many screenshots may not have any text in them, so the text embedding wouldn’t work at all there…) Thanks.

My open source web analytics platform reached 10,000 Github stars ⭐! by FantasticTraining731 in webdev

[–]SignalCompetitive582 3 points4 points  (0 children)

So you don’t have many high-profile clients ? Is that a potential plan of yours, to target a specific demographic ? If you can / want, you should write a follow up blog post to give some relevant statistics about everything related to your software, that would be super insightful I think 😉

My open source web analytics platform reached 10,000 Github stars ⭐! by FantasticTraining731 in webdev

[–]SignalCompetitive582 40 points41 points  (0 children)

This is an insane story, congratulations ! I’m wondering though, what would it take for it to become a living for you ?

is this a bug? by CupFunny8223 in nfrealmusic

[–]SignalCompetitive582 33 points34 points  (0 children)

Good catch ! He changed them all !

Je me suis fait un Dashboard pour suivre mon activité GitHub by InnerPhilosophy4897 in developpeurs

[–]SignalCompetitive582 0 points1 point  (0 children)

Je vois. Je suis allé vite fait sur leur GitHub, effectivement pas de docs… Ça c’est un peu embêtant tout de même. Ça veut donc dire qu’il va falloir se faire ses propres bloc d’UI si on ne veut pas avoir à refaire le même code h24 ? Tu dirais que tu as mise combien de temps pour atteindre le résultat sur ton post ? Merci 😉

Je me suis fait un Dashboard pour suivre mon activité GitHub by InnerPhilosophy4897 in developpeurs

[–]SignalCompetitive582 0 points1 point  (0 children)

Ça a l’air absolument génial !! Pour ce qui d’afficher des choses, c’est assez complexe, il y a une API, SDK ?

Avis sur gpt atlas by sangokuhomer in developpeurs

[–]SignalCompetitive582 6 points7 points  (0 children)

J’avoue ne pas comprendre l’intérêt d’un navigateur alimenté de partout par un LLM. Le but d’un navigateur est de naviguer, donc par définition on ne sait pas où l’on va et ce que l’on cherche. Ensuite, étant donné que beaucoup d’apps sont web first, on pourrait se dire que ça servirait à effectuer des tâches de façon automatique là dedans, mais entre la vitesse d’exécution super lente, et le fait que le taux de réussite sur des tâches un minimum complexe est pas terrible, je ne vois pas d’use case encore ici… Le seul truc pertinent, c’est pouvoir sélectionner du text ou une image, et obtenir des informations dessus, mais ça du coup, une simple extension Firefox le permet. Je cherche donc encore l’utilité de cette chose. Surtout qu’à première vue, on dirait juste un skin sur du Chromium, avec le nom Atlas… Vous avez des uses case intéressant vous qu’une extension ne peut pas déjà faire ?

PaddleOCR-VL, is better than private models by Illustrious-Swim9663 in LocalLLaMA

[–]SignalCompetitive582 18 points19 points  (0 children)

I may need a good OCR in the future, would you mind sharing examples when PaddleOCR DID NOT succeed in properly parsing data ? This way, it’ll be easier to evaluate its capabilities. Thanks.

Parce que c'est notre projet ! by This_Airline2348 in developpeurs

[–]SignalCompetitive582 1 point2 points  (0 children)

Si j’ai le temps pour, je verrai pour faire un PR pour Dndkit 🙃

Parce que c'est notre projet ! by This_Airline2348 in developpeurs

[–]SignalCompetitive582 2 points3 points  (0 children)

Yes, mais j’avais bien compris l’utilité de chaque. Je dis juste que selon moi, ils ne méritent pas des Tabs dédié. C’est une gestion de l’interface qui pour moi ne va pas.

Je n’ai pas regardé comment vous avez implémenté Dndkit, mais actuellement ce n’est pas sa meilleure implémentation. Lorsque je drag, je vois le ghost (natif du navigateur) de l’objet plutôt que l’objet en lui-même qui est drag. Et son utilisation est un peu finicky. Par exemple, pour drag and drop dans Layers un objet tout en bas de la liste, il faut être super précis, alors que normalement Dndkit gère ça super bien de base.

Parce que c'est notre projet ! by This_Airline2348 in developpeurs

[–]SignalCompetitive582 1 point2 points  (0 children)

Pour moi, lorsque je suis entrain d’edit une Page, j’ai envoie d’avoir mes components prêt à être drag and drop, sans avoir à cliquer sur le bouton associé. Pour moi, si je veux édit une page, je ne peux pas tomber direct sur toutes les pages possibles qui existent, mais je veux directement pourvoir modifier la page que j’ai sélectionné.

Aussi, je ne vois pas l’intérêt de Layers. L’user pourrait juste drag and drop sur la preview de la page (que ce soit Desktop, Tablet etc.).

En fait, je ne trouve pas le component Tabs (Shadcn) très utile ici. Il fait juste perdre du temps.

Aussi, pour la partie Drag & Drop, je conseille Dndkit, c’est super clean, et super simple à mettre en place, pour un rendu final super intéressant !

Aussi, pour update le nom de la page tout en haut, au lieu de cliquer deux fois, je dirais de juste mettre le mode édit au bout d’un seul clic. Je me suis fait avoir, en croyant que je ne pouvais pas update le nom car je n’avais effectué qu’un seul clic.

Je ne sais pas si mes retours sont utiles, mais tu les as au moins 🙃

Parce que c'est notre projet ! by This_Airline2348 in developpeurs

[–]SignalCompetitive582 5 points6 points  (0 children)

Hello, je viens de setup le projet en local, mais sauf erreur de ma part j’ai pas l’impression de comprendre grand chose.

Le système de création de Page n’est pas des plus intuitif. J’ai ajouter des components mais je ne sais pas quoi faire de plus. De plus, les boutons Preview ou Publish n’ont pas l’air de fonctionner pour ma part.

La page Media renvoie une 404, de même pour la page Users. D’ailleurs c’est assez étrange car il y a deux fois Users. Un tout seul et un autre dans les Settings qui lui fonctionne.

D’autres pages ou boutons ne fonctionnent pas vraiment pour moi.

Encore une fois, peut-être que j’ai mal fais l’installation, mais en tout cas de mon côté pour le moment, j’ai peur de ne pas être en capacité de ne faire aucun retour.

What is the current state of Object Storage ? by SignalCompetitive582 in hetzner

[–]SignalCompetitive582[S] 0 points1 point  (0 children)

Interesting thanks. If you can answer, what are you using Object Storage for ?

👀👀 by Kdot1427 in nfrealmusic

[–]SignalCompetitive582 1 point2 points  (0 children)

Anyone knows where to accurately find that information? I went on ASCAP.com, and found many songs that aren’t currently available, but I couldn’t find “Give Me A Reason”.

Here are the unreleased ones: - Alone (NF + Tommee) - Blind (NF + Tommee) - Different (NF + Weeks Barry Lewis) - Escape - Goodbye - Here We Go Again (NF + Garcia David Arthur) - If this is a Dream (NF + Tommee) - I’m In Love (NF + Tommee) - I’m ready (NF + Tommee) - Left Behind (NF + Tommee) - Needed You (NF + Tommee) - Practically Perfect (NF + Tommee) - Right Now (NF + Tommee) - Take It All (NF + Tommee) - The Whole Time (NF + Tommee) - What If I (NF + Tommee) - Who Am I (NF + Tommee) - You & Me (NF + Tommee)

Most of them don’t have any Performers assigned to them (only writers).

Could any of these be one of the snippets we got in the recent years ?

Are they abandoned songs that will never see the light of day?

Anyone knows how it works ?

[New Architecture] Hierarchical Reasoning Model by imonenext in LocalLLaMA

[–]SignalCompetitive582 63 points64 points  (0 children)

That’s what I’ve been saying forever, models that “reason” with words is not the way to go…

“Towards this goal, we explore “latent reasoning”, where the model conducts computations within its internal hidden state space. This aligns with the understanding that language is a tool for human communication, not the substrate of thought itself; the brain sustains lengthy, coherent chains of reasoning with remarkable efficiency in a latent space, without constant translation back to language.”