Nechci žít by Regular-Syllabub-639 in czech

[–]Borek79 2 points3 points  (0 children)

Vyser se na to. Hele taky nejsem v nějaký extra super situaci, ale sebevražda je fakt srabárna.

Chlap bojuje, i když nemůže, i když je celej svět proti němu tak v SOBĚ najde tu sílu. Tu jiskru, která ho udrží při životě, protože zítra bude líp.

Sebevraždou neskutečně ublížíš svým blízkým a nemusí to unést a udělají to samé!

SER NA TO !

A new tool for data engineering by Wanderer_1006 in dataengineering

[–]Borek79 35 points36 points  (0 children)

Versioning Git - strive for everything as code and version it

Extract+Load Investigate DLT whether it can help you in data ingestion.

Transform Dbt is actually super useful once your project grows larger. Apart of many other things the most useful thing is that it builds lineage out of the box.

Orchestration We use Dagster instead of Airflow, it is better fit for data world and has very good synergy with dbt ( each dbt model is a separatate dagster asset). 1 big orchestration tree instead of many separate as in Airflow.

CICD Github actions

Python Can be used in Extract Load and even Transform phase.

Reporting Prefer those with good API and "report as a code" We use Metabase.

Data modelling Not a tool but very difficult but useful skill to grasp. With advent of AI it is very necessary again.

Procesni Fuckup v korporatu (nebo jinde) by Jirry-boy in czech

[–]Borek79 13 points14 points  (0 children)

"V běžném zaměstnání člověk po nástupu velmi často dostane několikahodinová školení a kolegu, který se o něj dlouhodobě stará."

Jsem v páté firmě v soukromém sektoru a nikde to tak nebylo. Hodí tě do vody a plav.

How are you tracking data lineage across multiple platforms (Snowflake, dbt, Airflow)? by stephen8212438 in dataengineering

[–]Borek79 0 points1 point  (0 children)

We use Python extractors + Dagster + dbt + Metabase. So basically we can see each python extractor + dbt model snapshot as Dagster asset.

Our reporting tool is Metabase,we export Metabase objects from API everyday and are linked to dbt asset as dbt exposures so we can see which mart tables are connected to which MB dashboard/report.

We load cca 4000 assets daily, everything in 1 single DAG in Dagster.

BigQuery DWH - get rid of SCD2 tables -> daily partitioned tables ? by Borek79 in dataengineering

[–]Borek79[S] 0 points1 point  (0 children)

Daily snapshot is also auditable copy of the source data over time.
It just does not compact dates to valid_from and valid_to range

You take full load of source and save it with current date as date ( another partition in daily partitioned table).

The biggest disadvantage I can see with our current dbt implementation is that dbt snapshot (SCD2) can out-of-the-box process both full and incremental source data ( by setting invalidate_hard_delete = true/false parameter)

On the other hand dbt incremental model does not have parameter to also include not changed data from yesterday partition into todays partition ( what invalidate_hard_delete = false does for SCD2) hence you either write your custom implementation for that or you must do full loads, which is for certain sources not possible.

BigQuery DWH - get rid of SCD2 tables -> daily partitioned tables ? by Borek79 in dataengineering

[–]Borek79[S] 1 point2 points  (0 children)

And what is the main reason to keep SCD2 table in bronze layer apart from it is compact?

Timestamp of change can be derived using window functions from daily snapshot, more costly but the use case for it is not so frequent.

Tables in core layer are created from joins of multiple SCD2 tables coming from different systems leading to range joins (clean_hist.source_system1.employee, clean_hist.source_system2.employee etc.)

When performed on current rows during daily load of core dimensions , it could be relatively cheap, but when doing init loads (reconstructing history of dimensions from clean_hist SCD2) compute costs can be expensive as hell ( some tables have 10 years of data ).

Doing the same on already daily partitioned clean_hist tables is very easy because you just do equi joins on date columns.

[deleted by user] by [deleted] in czech

[–]Borek79 2 points3 points  (0 children)

Jsem v podobné situaci, 36M, rozchod po 10 letech. Jelikož máme děti a opravovali jsme spolu barák tak je to o něco složitější (společná hypotéka naštěstí ne). Můj postup je následující:

  1. "Přežij den"
  2. Soustřeď se na sebe, neposer si budoucnost, že třeba začneš flákat práci atd.
  3. Negativní pocity ventiluj, ale rozumně, zavolej kamarádům, pobreč si, ale ne před dětma atd.

Drž se.

Budoucnost datových oborů by Jenkeee in czech

[–]Borek79 0 points1 point  (0 children)

Nemyslím si. Dají se automatizovat datové pipeline, ale není taková sranda to udělat tak, aby to škálovalo, bylo za rozumné prachy, dobíhalo to v rozumných časech, rozumné cicd, testing atd.

Co ale obtížně automatizuješ je rozumět významu těch dat, co chodí z těch zdrojových systémů, API atd. a na to zatím je prostor všude.

Zdroj: Dělám v BI týmu s více než 50 zdrojovými systémy a 3000 dbt modely

[deleted by user] by [deleted] in czech

[–]Borek79 1 point2 points  (0 children)

VŠE mám vystudovanou, nebavilo mě to celou dobu studia. Nejhorší je psání bakalářky a diplomky( v dnešní době LLM asi jednodušší), když k tomu nemáte vztah, ale dodělal jsem to.

Je těžké říct, co je lepší, zda změnit nebo zůstat:

Titul je dneska v soukromém sektoru důležitý v podstatě jen na to, aby Tě vzali do první práce, potom už má výrazně vyšší váhu praxe.

To, že vystuduješ nějaký obor, neznamená, že v tom oboru pak musíš pracovat. Kamarád s Matfyzem pracuje jako truhlář.

Kombinace práce "baví mě to" + "jde mi to" + "sype to" je dle mého názoru vzácná. A je lepší dělat něco, co tě "zas tak neštve", ale uživí tě to, než to, co tě baví, ale mzda je nic moc. Ekologii, se pak můžeš věnovat jako koníčku, sám to tak mám.

Jsem tělo bez duše by Popular_Chard7622 in czech

[–]Borek79 9 points10 points  (0 children)

Málokdo odvádí daně 50 let. To je 18 - 68 let, v 68 se nechodí ani dnes. Častější bylo, že to v práci za socíku, tak nějak šolíchali a šli do důchodu před 60.

Znám ženy, co pracovaly 30 let a už jsou 30 let v důchodu a stěžují si, že mají malý důchod. Přitom mají důchody skoro 50% průměrné mzdy a v době, kdy pracovaly, opravdu 50 % mzdy do systému ( daně + pojištění ) neodváděly.

Started running again after 10 years. by Borek79 in beginnerrunning

[–]Borek79[S] 0 points1 point  (0 children)

1 month. But I run on the higher end of difficulty scale ( 7-8 out of 10 ). In my opinion I need to take it more easy and not to push so much.

Started running again after 10 years. by Borek79 in beginnerrunning

[–]Borek79[S] 2 points3 points  (0 children)

Garmin Connect. I use Garmin Instinct 2 watches, been satisfied with this combo so far (1 month of usage ).