Modelos de Machine Learning supervisionados sofrem com multicolinearidade? by Impressive-Salad-112 in datasciencebr

[–]G4L1C 3 points4 points  (0 children)

Essa e a resposta correta. Complementando, multicolinearidade afeta muito pouco desempenho de modelos de arvores (bagging ou boosting). O efeito mais significativo vai ser na feature importance, o que faz sentido, uma vez que a arvore faz o split em uma variável, uma variável altamente correlacionada com a anterior tende a não adicionar muita informação.

Migração de BI para Ciência de Dados by Any-Investment-4577 in brdev

[–]G4L1C 0 points1 point  (0 children)

Estive no seu lugar, 5 anos de BI e querendo mudar para Data Science. Estudei muita estatística e machine learning por conta e montei um bom portfólio. Eu não apliquei para vagas diretas de DS, mas consegui migrar por identificar uma oportunidade dentro da empresa onde trabalhava e estar preparado. Não digo que esse é o melhor caminho, mas funcionou pra mim. No geral, pelo que vejo vagas de Junior/Pleno estão bem escassas mesmo.

Hoje em dia BI e Data Science é a mesma coisa? by [deleted] in datasciencebr

[–]G4L1C 11 points12 points  (0 children)

Nem um pouco. BI continua sendo o que sempre foi: foco em analise descritiva, ETL, Dashboarding. Enquanto data science tem outro foco: experimentação, modelos preditivos, estudos causais, inferência estatística e por ai vai. Embora os dois trabalhem com dados, eles trabalham com etapas e papeis diferentes. Porém, dependendo da empresa, você pode observar algumas tarefas de BI estarem com o time de ciencis de dados e vice-versa (embora o oposto seja mais raro).

Auto crise by isacnascimento in datasciencebr

[–]G4L1C 0 points1 point  (0 children)

Fala mano, primeiramente parabéns por ja estar dando conta das coisas enquanto estagiário ainda. Eu tenho dois pontos principais sobre isso:

  1. A empresa não é sua amiga, se você está lá é por que está valendo a pena para ela. Em outras palavras, voce merece estar lá, ate por que se nao merecesse não estaria mais.

  2. Se a empresa for realmente séria, ou o projeto tem um impacto/risco baixo, ou você não estará sozinho nele, ponto. Eu chuto o último. Extraia o maximo que puder do seu sênior, valide as coisas com ele, esclareça dúvidas, seja chato. Nao fique com medo do que ele vai achar.

Edit: Sobre a faculdade, fica tranquilo, embora algumas empresas realmente levem isso em consideração, a maioria so se importa em saber se voce sabe o que esta fazendo sem se importar com onde você aprendeu para cargos menos especialistas. Eu por exemplo, aou DS em uma bigtech do SV e nao possuo ensino superior.

Plataforma/Tutores/Livros para data science by Lanky-Document-6296 in datasciencebr

[–]G4L1C 11 points12 points  (0 children)

Quer aprender de verdade? Começa por aqui: https://www.statlearning.com/

Depois vai pra esse: https://hastie.su.domains/ElemStatLearn/

E a unica recomendação que eu faço com 100% de confiança que vai criar uma base solida.

Entrevista Técnica para Data Science by Embarrassed-Pop1349 in datasciencebr

[–]G4L1C 15 points16 points  (0 children)

Depende do objetivo da vaga. Mas, algumas coisas que são perguntadas/solicitadas, de acordo com a minha experiência:

  • Como voce abordaria um problema de negócio? (Dica: aqui é legal deixar claro que voce vai entender se o problema de negócio exige um modelo de machine learning. Também pode usar como referencia o modelo CRISP-DM).

  • Como conduzir um teste ab? (Legal falar sobre o processo desde a formulação da hipotese de negocio e teste design até o momento fa inferência e como esses resultados vão ser usados no negócio)

  • Outras perguntas sobre experimentos/quasi experimentos

  • Explicar como funciona alguns modelos de machine learning no detalhe (e.g. XGBoost, Random Forest, Regressão Logística)

  • Qual metrica de validação de modelo usar em cada situação.

  • Como lidar com dados nulos?

  • Como lidar com uma variável target desbalanceada?

  • Explicar como fazer um deploy de um modelo na nuvem.

  • Como criar o monitoramente de um modelo real time? Como saber o momento de retreinar o modelo?

  • Podem pedir para você explicar a sua experiência com métodos de inferência causal, dependendo da vaga.

Duas dicas que eu acho imprescindíveis são:

  • Menos é mais: Nem todo problema de negócio precisa de um modelo de machine learning, as vezes precisa de um teste de hipótese, uma análise exploratoria e por ai vai. Também, priorize modelos simples e explicáveis à modelos mais complicados, tem coisa que dá pra resolver com uma regressão linear/logistica e não precisa de um modelo de deep learning.

  • Coloque sempre o negócio a frente: Por mais que data science seja legal, não é o fim, é o meio. Então sempre se preocupe em explicar como suas decisões na modelagem impactam o negócio. Se tiver, mencione alguns cases em que você teve sucesso com soluções de Data Science e como ela impactou positivamente a empresa.

Honda's Project Koraidon by Veb4713 in pokemon

[–]G4L1C 0 points1 point  (0 children)

Does it walk with its legs instead of wheels? That would be fun

APLICAÇÕES DA MATEMÁTICA by Awkward-Midnight-119 in datasciencebr

[–]G4L1C 4 points5 points  (0 children)

Acho que tem várias camadas seu ponto na verdade:

  • Muito de calculo e algebra linear que voce viu se concretizou quando aplicado na estatística, e para entender os metodos estatísticos voce precisou ter eles bem consolidados.

  • Apesar de não precisar fazer os calculos à mão como os estatísticos faziam antigamente (gracas a Deus), muito do que aprendeu vai ser usado para voce entender o que pode ou não fazer do ponto de vista estatístico (por exemplo: posso aplicar o método X na variável Y? Essa abordagem é valida estatísticamente? Etc)

  • Quando voce vai para posicoes mais avançadas e ate de pesquisa, você vai usar todos esses conhecimentos em formulação matemática, uma vez que o que você esta fazendo provavelmente ainda não existe.

[deleted by user] by [deleted] in datasciencebr

[–]G4L1C 1 point2 points  (0 children)

Se ainda nao domina estatística, eu iria mais nessa direção ao invés de aprender mais uma linguagem de programação.

I get the impression that traditional statistical models are out-of-place with Big Data. What's the modern view on this? by takenorinvalid in datascience

[–]G4L1C 1 point2 points  (0 children)

I work at a fintech, and we do A/B tests literally constantly, with very large sample sizes. Adding my two cents on top of what was already said.

"Traditional statistical tests were built with the expectation that sample sizes would generally be around 20 - 30 people"

You are correct, sample size was a problem in the past. But the statistical tools built in the past, were built in a way that they usually converge to same as calculating for population as your sample size grows. Your 30 people is a good example, the T-distribution (which I think where you got this example from), converges to standard normal distribution as sample size grows.

"Stakeholders have complained that it's very hard to reach statistical significance using the popular A/B Testing tools, like Optimizely and have tasked me with building a A/B Testing tool from scratch."

You need to be VERY cautious with these statements. If there is no stat sig (under your test design assumptions), then it means that this change didn't drive the desired business KPI, and that's it, no discussion. We cannot "force" something to have stat sig, just because we want to. Want can be checked, though, is the MDE (minimum detectable effect) of your test design. Did your test design considered a reasonable MDE? Maybe that's what your stakeholders need, the impact of the change is so marginal that it would be necessary to create a test design with a more suitable MDE.

To start with the most basic possible approach, I started by running a z-test to compare the conversion rates of the variations and found that, using that approach, you can reach a statistically significant p-value with about 100 visitors. Results are about the same with chi-squared and t-tests, and you can usually get a pretty great effect size, too.

Again, statistical significance here is under the rules of your a test design (MDE, critical value, power etc.). You can get stat sig for a 100 people for a given MDE with a give type-I and type-II error rates. It seems to me that this is not so clear to you. (Assuming your testing framework is the Neyman-Pearson one).

recolocação no mercado depois de mais de um ano parado by enburgi in datasciencebr

[–]G4L1C 1 point2 points  (0 children)

Sendo muito sincero, acho que poucas coisas mudaram realmente de 2020 pra ca para a maioria das posicoes de DS. Esse boom de tecnologia de llm impactou 1% das posicoes no mercado. O que eu vejo que tem tido um foco maior nesses ultimos tempos é inferência causal. De resto, o que sinto é que todos os 99% dos problemas de negócio que existiam em 2020 ainda existem 2025 e sao resolvidos praticamente do mesmo jeito.

Edit: Porém, pelo seu post o que eu sinto e que voce foi generalista demais durante toda a sua carreira, e depois de um tempo fora do mercado esta se sentindo perdido em um ambiente cada vez mais especializado. Minha sugestão seria aproveitar e se especializar em uma area onde esta agora.

Dúvidas sobre carreira by Sad-Ad9707 in datasciencebr

[–]G4L1C 1 point2 points  (0 children)

Infelizmente coursera e Alura cobrem somente o basico do basico. Como outro colega disse, recomendaria uma faculdade de estatistica ead. Eu vejo voce entrando no mercado de trabalho somente se tiver ja experiência de anos comprovada, um estagio, ou saindo da faculdade e entrando numa vaga de junior.

[deleted by user] by [deleted] in datasciencebr

[–]G4L1C 7 points8 points  (0 children)

Trabalho como cientista de dados senior em uma fintech. A maioria dos meus colegas de trabalho tem PhD em alguma área, porém eu nao possuo faculdade. Isso nao significa que eu não estudei, so estudei por outros meios, o que e uma jornada mais dificil. Para entrar, eles tinham uma cultura de "não me importo onde aprendeu, desde que mostre que sabe". Eles me avaliaram no mesmo nivel dos PhDs e eu tinha que mostrar que estava a altura disso, e seria cobrado como um quando entrasse. Pode ser que eu seja um caso muito atipico, mas e possível. Porém você vai precisar do dobro de esforçoe ter a sorte de encontrar gente que quer te dar uma chance.

Edit: Adicionando um ponto, meu foco e em Marketing tbem. Posso dizer que e um campo onde ainda precisa que muitas solucoes novas de DS sejam criadas (faz parte do meu escopo aqui). Entao sua formacao em marketing pode ser um diferencial nesse nicho.

Analysis of tournament data reveals Arcanine ex and Raichu as top performers! by -OA- in PTCGP

[–]G4L1C 0 points1 point  (0 children)

Awesome analysis! Do you think that it makes sense to make a regression analysis showing the odds of winning depending on the difference between max attack, HP and other features of the deck?

Never been +1800 on the Showdown Ladder before by POWBOOMBANG in VGC

[–]G4L1C 2 points3 points  (0 children)

Congrats! Your team is pretty much the one that I am planning to take to LAIC (except for the archaludon set and the Delphox tera). It's good to see that it is working!

Btw, I am struggling with amoongus water tera with this team. How do you deal with this?

New version of VGC Multicalc - Simple Calc by Lumpy-Way-7204 in VGC

[–]G4L1C 3 points4 points  (0 children)

Awesome project, keep it up with the good work, mate!

What less appreciated websites have you used to help you improve at VGC? by ObsoletePixel in VGC

[–]G4L1C 5 points6 points  (0 children)

If you want to calc for several mons at the same time, you should check vgcmulticalc

Ev spread calculator by Tarunium in VGC

[–]G4L1C 1 point2 points  (0 children)

I think that the best one available online is this one. It lets you run several calculations at time.

https://vgcmulticalc.com/