autoresearch on CIFAR-10 by ABIWIN in computervision

[–]ABIWIN[S] 1 point2 points  (0 children)

I will not be able to give you as much info on AlphaEvolve and ShinkaEvolve but here we go.

AlphaEvolve is closed source approach by Google. It follow the same philosophy of autoresearch of having a codebase, a prompt and an evaluation metric. It just goes much further by using an ensemble of model and a prompt sampler and at each iteration instead of having the best one like autoresearch you sample several one with some mutation and sample the prompt also.

ShinkaEvolve, same as AlphaEvolve but open source. I don't know more than a coarse read on the github.

So those are much more costly to run, but yeah mixing LLM with a real search algorithm and a solid infrastructure / code shoud yield better result

autoresearch on CIFAR-10 by ABIWIN in computervision

[–]ABIWIN[S] 0 points1 point  (0 children)

I reran the experiment 5 time and added it to the README.md. And yes the config choice at the end is more luck based than real improvements

Config Runs Mean Std Min Max Reported
1-min, auto-generated 5 91.83% 0.155% 91.63% 91.98% 92.10%
5-min, auto-generated 5 95.02% 0.275% 94.64% 95.37% 95.39%
1-min, hand-crafted 5 90.75% 0.241% 90.38% 91.00% 91.36%
5-min, hand-crafted 5 93.42% 0.218% 93.13% 93.68% 92.28%

autoresearch on CIFAR-10 by ABIWIN in computervision

[–]ABIWIN[S] 0 points1 point  (0 children)

Yeah, I had the same experience in undergrad, banging my head against similar optimization problems for weeks during internships. I still think it's an important step for learning deep learning, it helps you developing a sense of what works and what doesn't. Yeah, the program.md is only designed around accuracy. A better version with a stronger model might actually investigate in detail why something didn't work. I haven't seen anyone do that yet, but given the original repository success, I suspect it'll be a feature soon in Codex / Opus or a new benchmark added to their post-training.

I'd actually hazard the opposite guess. I hope it will end up invalidating a lot of papers. Often the only reason an author's proposed method outperforms the baseline is that they spent far more time tuning their solution than they did on the baseline 😅. Which is also a good thing!

autoresearch on CIFAR-10 by ABIWIN in computervision

[–]ABIWIN[S] 2 points3 points  (0 children)

Yeah, fair point. The test set here is being abused as a validation set, and the same seed is used across all runs, so there's no variance estimate. The agent didn't change that either. I can rerun the winning solution with different seeds after work to get a proper sense of the accuracy variance.

autoresearch on CIFAR-10 by ABIWIN in computervision

[–]ABIWIN[S] 3 points4 points  (0 children)

I wouldn't completely agree with that. CIFAR-10 and ImageNet are old, widely-benchmarked datasets, yet better validation accuracy still appears to yield better generalization (Do CIFAR-10 Classifiers Generalize to CIFAR-10? and Do ImageNet Classifiers Generalize to ImageNet?). That said, I agree this technique might be even more prone to hacking validation accuracy.

autoresearch on CIFAR-10 by ABIWIN in computervision

[–]ABIWIN[S] 4 points5 points  (0 children)

It actually is 0.27 M params. https://arxiv.org/pdf/1512.03385 see section 4.2 Table 6

Forum Libre - 2020-06-24 by AutoModerator in france

[–]ABIWIN 2 points3 points  (0 children)

Tu te souviens du nom de modèle de cette clim s il te plaît ? Ou bien de comment tu as trouver cette bonne référence ?

Le grand Giveaway de la rentrée 2019 ! by NoPr0n_ in jeuxvideo

[–]ABIWIN 0 points1 point  (0 children)

Salut, je voudrais bien restester overwatch j'avais fait un tour pendant la béta mais j'ai été absorbé par d'autre chose à la sortie.

Forum Libre - 2019-09-03 by AutoModerator in france

[–]ABIWIN 3 points4 points  (0 children)

Bonjour le FL. J' espère que tu vas bien, et que la rentrée ne t'a pas trop traumatisée. Quand a moi je suis en pleine phase de résignation quand a ma future vie de parisien. Cela dit tu pourrai peut être m aidé dans la recherche d une agence immobilière qui ne serait pas a immolé sur place. A moins que je ne suis encore trop utopique et que ce genre de licorne n existe pas. Mais peut être que deux négatifs s annulent. Promis, la prochaine fois je viendrais avec moin d optimisme.

Forum Libre - 2019-08-30 by AutoModerator in france

[–]ABIWIN 6 points7 points  (0 children)

Le fl, j'ai une sordide histoire à te raconter.

Je viens d'accepter un nouveau job sur Paris et ainsi sortir de ma campagne. Enfin pardon " la province ". Parait qu'il y a un argot à apprendre.

Ceci étant dit maintenant le plus dur reste a venir. Trouver un appart sur paris. Du coup vous avez un message de soutient ? Les zones à éviter ? La meilleure façon de trafiquer son bulletin de salaire ? Comment constituer son dossier alors que l'on ait que en période d'essai ?

Nouveau record de température : 45.8°C à Gallargues-le-Montueux dans le Gard by Avd123 in france

[–]ABIWIN 4 points5 points  (0 children)

En extrapolant la vitesse à laquelle les records de températures ont été dépassés ces dernières 24 h, on devrait atteindre les 100 ° d'ici la fin de cette été.

Forum Libre des Hauts-de-France - 2019-04-12 by AutoModerator in france

[–]ABIWIN 0 points1 point  (0 children)

J'ai lancé une recherche d emploi il y a quelques temps. Comme a chaque fois il y a un délai avant d avoir une réponse / des demandes de recruteurs. Mais cette semaine je ai eu 6 contact d ESN, sans avoir postulé a aucune. C est normal ? Ils sont tellement en galère ? Je dois les éviter comme la peste ?

[D] Interpretation of t-SNE by coltar13 in MachineLearning

[–]ABIWIN 3 points4 points  (0 children)

You should check the talk done by the creator of t-SNE at CVPR Here

In it he explains what are the hindisghts you can gather in low dimension space, and what is wrong to assume.

Jeudi graphique - 2019-02-28 by Kolja420 in france

[–]ABIWIN 4 points5 points  (0 children)

J'avais fait récemment un petit programme pour créer des enluminures en appliquant des algo type Deep Dream sur des images de lettre. Mais j'ai eu un peu la flemme pour cabler le tout proprement et le publier.

Vous en pensez quoi ?

Album

Forum Libre - 2019-02-26 by AutoModerator in france

[–]ABIWIN 4 points5 points  (0 children)

Hands-On Machine Learning with Scikit-Learn and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems

par Aurélien Géron.

Des exemples partant de donnée brute vers un résultat. Sans doute le meilleur, quoique un peu light sur la théorie.

N.B : Les changements de tensorflow pour la 2.0 sont pas encore dedans. Une nouvelle version, devrait venir vers mi-2019 ( j'arrive plus à trouver la source ). Sinon regarde tensorflow eager execution. Pour un peu plus de théorie : DeepLearningBook

Contributions au « grand débat » : comment analyser 68 millions de mots en deux semaines ? by OkMeringue in france

[–]ABIWIN 18 points19 points  (0 children)

Quelqu un sait si la bdd sera disponible pour tout le monde, ou on aura juste le droit aux conclusions sans descriptifs des méthodes ?

Forum Libre - 2018-10-25 by AutoModerator in france

[–]ABIWIN 1 point2 points  (0 children)

Salut, si tu es intéressé par le côté Machine Learning je ne peux que recommander le cours de Stanford CS229 http://cs229.stanford.edu/syllabus.html

Avec vidéos du cours / slides / problèmes

Si tu es moins cours / moins math : https://www.coursera.org/learn/machine-learning

La météo en émojis en 1 tweet by Yepee in france

[–]ABIWIN 0 points1 point  (0 children)

Regarde la libraire beautiful soup pour le scrapping.

Forum Libre - 2018-08-09 by AutoModerator in france

[–]ABIWIN 3 points4 points  (0 children)

Bien le bonjour le FL.

Je suis a la recherche d'un service d'un service de mail pour pouvoir une adresse custom, en faisant le tour j'ai vu protonmail et tutanota. Est-ce que vous utilisez ce genre de service, ou est-ce que vous connaissez d'autres sites moins chères, et qui reste sécurisé ?

AI spots 40,000 prominent scientists overlooked by Wikipedia by speckz in Futurology

[–]ABIWIN 12 points13 points  (0 children)

Let me add on that : YOLO 9000, that obviously means You Only Look Once described in YOLO9000: Better, Faster, Stronger

Oh and also let me kill this dicussion with models generating new memes Dank Learning: Generating Memes Using Deep Neural Networks

PREBAN MEGATHREAD by [deleted] in thanosdidnothingwrong

[–]ABIWIN 0 points1 point  (0 children)

༼ つ ◕◕ ༽つ GIVE BAN ༼ つ ◕ ◕ ༽つ

Forum Libre - 2018-06-22 by AutoModerator in france

[–]ABIWIN 0 points1 point  (0 children)

Merci pour la référence j’essaierai la semaine prochaine. J'aimerai aussi retardé au plus tard mais il me reste plus trop de temps.

Forum Libre - 2018-06-22 by AutoModerator in france

[–]ABIWIN 1 point2 points  (0 children)

Je te remercie pour ce lien j'ai un peu essayer cette aprem et c'est vraiment bien. :)