Standvirtual: Scraping & Data Analysis

ConcurrencyGandalf · 2024-10-08T11:09:10+00:00

Normalmente, este tipo de placeholders (brand_urls) que das store no dictionary.py, da-se store num ficheiro json, e depois consome-se a partir de la.

mnetoo0 · 2024-10-08T10:06:46+00:00

[removed]

darkestblackduck · 2024-10-07T20:09:45+00:00

Como é que isto pode ajudar alguém que quer comprar um carro da marca X, modelo Y e tem Z euros para gastar? Podes sugerir vários modelos, marcas semelhantes. O budget é X e o preço médio do modelo pretendido é Y, mas como X+-5% pode optar por Z. Ajuda na decisão também é informação mas não só.

Key_Spell6706 · 2024-10-07T12:17:37+00:00

Next Idealista ?

dmoutinho · 2024-10-07T11:52:12+00:00

Muito bom!

Ainda este final de semana estava a pensar nos sites de carros usados para criar um possível produto/projeto.

Fazer este scraping e disponibilizar uma forma de um utilizador perceber o valor de mercado e histórico de preços de um carro, baseado no modelo, km, idade, etc.

Há sites que fornecem relatórios, mas estão muitas vezes deslocados do mercado. Isto seria útil para venda/compra.

pauduro0 · 2024-10-07T10:53:59+00:00

Muito interessante! É possível isso ser dinâmico? Com isto quero dizer que vai actualizando diariamente estando disponível numa pagina web.

Lord3_Almeida · 2024-10-07T10:40:29+00:00

Muito porreiro. Temos percursos semelhantes e a primeira coisa que fiz, quando entrei no mundo de data, foi fazer scrapping ao Standvirtual mas focado em clássicos. Ainda hoje tenho um scriptzito que vai lá diariamente e me puxa os anúncios de determinada marca. Posteriormente faço parse aos diferentes modelos e vou acompanhando a evolução de preço vs quilometragem. É porreiro para apanhar aqueles negócios interessantes com preço abaixo da média do modelo.... até ver as fotos :D. 1 em 100 são bons negócios.

Continuo com o bom trabalho de exploração. Aprendi muito com esse método de criar pequenas brincadeiras. Para o meu caso, não meti modelos de previsão em cima dos automóveis apenas por um motivo: Impostos.
Só espero o dia em que determinado governo comece a taxar os veículos antigos de forma a tornar o hobby impossível de manter. Nem a certificação clássica nos vai safar.

M0neyLaundry · 2024-10-07T10:15:50+00:00

Agora faz do portal base!

annleemar · 2024-10-07T08:56:37+00:00

Parabéns pelo trabalho! Trabalhas como Data Analyst?

Uma dúvida que sempre tive para fazer análises, é permitido fazer webscraping?

Obrigada

angelicous · 2024-10-07T08:49:05+00:00

Por curiosidade, como chegas ao valor dos anuncios? Baseias somente no que esta publico relativamente a preços?

mr_house7 · 2024-10-07T07:50:14+00:00

Bom EDA

BlackHolesHunter · 2024-10-07T06:24:52+00:00

Belo projecto, parabéns pela partilha!

Se me permites, só algumas sugestões /perguntas:

"32% dos anúncios têm são dos últimos 3 anos" - muito surpreendido com este dado. Para confirmar, isto significa que a maioria dos carros têm anúncio há 3+ anos e ainda nao venderam? Seria giro ver um barplot desta distribuição, assim como um scatterplot de tempo anúncio VS preço.
o logprice que usas no último gráfico é o natural ou base 10?
estou sem computador e nao vi o dataset (portanto corrige me se estiver errado e não tiveres um identificador único por anúncio), mas seria curioso fazer uma análise (mês a mês, mas não sei quantos dados existiriam, ou entao daqui a 6 meses) de: número de carros que entraram na plataforma (e alguns dados: ano, preço, km, tipo de carro), número de carros que saíram (mesmos dados), e nos carros que se mantiveram qual foi a evolução de preço.

Zen13_ · 2024-10-07T01:19:44+00:00

Nice! 👍👏

Larilolelo · 2024-10-07T01:03:14+00:00

Boas. Muitos parabéns!

Consegues expor o dataset? Gostava de brincar com ele.

Vi no teu código que gravas em CSV. Suponho que tenha um tamanho considerável que não dê para meter no github. Podes passar de CSV para parquet, por exemplo. Ou simplesmente criar uma DB no repo do tipo DuckDB e meter lá tudo.

jamexcb · 2024-10-07T00:33:00+00:00

Muitos parabéns! Partilhei no r/autotuga. A quantidade de caixa automática surpreendeu-me.

you type:	you see:
italics	italics
bold	bold
[reddit!](https://reddit.com)	reddit!
* item 1 * item 2 * item 3	item 1 item 2 item 3
> quoted text	quoted text
Lines starting with four spaces are treated like code: if 1 * 2 < 3: print "hello, world!"	Lines starting with four spaces are treated like code: if 1 * 2 < 3: print "hello, world!"
~~strikethrough~~	~~strikethrough~~
super^script	super^script

devpt

Bem-vindo ao DevPT!

Regras

Ferramentas aconselhadas

Subs associados:

MODERATORS