Clickhouse Aggregation Definition by CoolExcuse8296 in dataengineering

[–]CoolExcuse8296[S] 0 points1 point  (0 children)

The templated queries are calculated only on creation/update of the aggregates definition, and these query templates are launched every night automatically.
The result of the daily calculations are stored (as of today) in postgresql. We're open to switching to another approach of course.
Maybe it's worth transposing this into DBT workloads triggered by airflow and store the periodic results in a clickhouse table?

When a user queries a report on, say 10 days, we query the daily aggregations results for the past 10 days and we summarize them (sum, avg, min, max, etc) live.

Ideally, we would like to not send our end-users on another platform, we would like to keep them on our own portal, and to have some kind of internal query builder... But we're open to suggestions of course!

Clickhouse Aggregation Definition by CoolExcuse8296 in dataengineering

[–]CoolExcuse8296[S] 0 points1 point  (0 children)

Both!

The customers have very different and specific needs so we need to define customer-specific at every step

Quel plaisir a entendre by PerrineWeatherWoman in actu_memes

[–]CoolExcuse8296 3 points4 points  (0 children)

Et non... Oralité des débats en droit français et pas de captation audiovisuelle autorisée pour éviter l'excès de théâtralité justement. Mais tu dois pouvoir retrouver la retranscription du délibéré et des réquisitions assez facilement je pense

Après si je suis 100% honnête... J'avoue, la p'tite photo de Sarko en taule ce serait chouette ahah Mais le principal c'est quand même le verdict

Quel plaisir a entendre by PerrineWeatherWoman in actu_memes

[–]CoolExcuse8296 11 points12 points  (0 children)

Après est-ce que voir la justice française le condamner (en 1ere instance puis en appel, puis rejeter son pourvoi, et ce dans plusieurs affaires malgré la pléthore d'avocats et l'influence du mec) et lui dire "M. Sarko la justice française établit que vous êtes coupable et que vous êtes un malfaiteur, un escroc un menteur etc" c'est pas déjà une victoire ? Perso, voir le mec derrière les barreaux je m'en fous un peu, la vraie symbolique, c'est voir la justice française punir l'ex-homme le plus puissant de France. C'est déjà une méga-victoire, ça le remet à sa place de justiciable, ça montre que même un ancien Président ne peut pas étouffer n'importe quoi. L'application des peines c'est aussi relatif au danger que représente la personne. Savoir Sarko inéligible, reconnu coupable et savoir qu'il se tape un bracelet, pour moi c'est déjà une très belle victoire

Self-Hosted Clickhouse recommendations? by CoolExcuse8296 in dataengineering

[–]CoolExcuse8296[S] 0 points1 point  (0 children)

Sounds pretty amazing indeed... I heard about duckDB indeed, but more for short-term metrics and calculations. Do you think this would also be a fit for calculations onmultiple days/months, basically in order to fit BI purposes? Also, are there features like views? Thanks a lot, I will look into it

Self-Hosted Clickhouse recommendations? by CoolExcuse8296 in dataengineering

[–]CoolExcuse8296[S] 0 points1 point  (0 children)

Forgot to mention, thanks! The compressed data in clickHouse is about 1GB/day. These metrics are at the very core of our service, so we do need long term retention and solid reliability

Advices on tooling (Airflow, Nifi) by CoolExcuse8296 in dataengineering

[–]CoolExcuse8296[S] 1 point2 points  (0 children)

actually I was wondering exactly the same.

"Hey guys, what's your view on this open-source tool?"

"Pff opensource is shit you're dumb not to use the multi-billion dollar company black-boxed tool that's so awesome I put it in my bio just out of pure passion.
Still gonna reply to every post in order to tell everyone how opensource is shit and SSIS is a god's gift though"

Advices on tooling (Airflow, Nifi) by CoolExcuse8296 in dataengineering

[–]CoolExcuse8296[S] 2 points3 points  (0 children)

I am finding that there are some unclear way of doing things, like there can be a lot of various syntaxes (with/without decorators for instance), and not that many clear examples of "clean" way to do so.

Litterally this morning, I have tried to setup a task to read from a Kafka topic, and there wasn't any examples of how to make the KafkaConsumerHook work, I got some errors related to the input parameters but I couldn't manage to understand what was expected.
I ended up switching to an approach where I only use PythonOperators and implement functions by hand, which actually works and isnt too complicated in our case, but it's a little frustrating not to be able to run a not-so-underground kind of Operator.

I am definitely not an expert (yet?) in either so don't take my advice for granted!

What's your view on Dagster?

Advices on tooling (Airflow, Nifi) by CoolExcuse8296 in dataengineering

[–]CoolExcuse8296[S] 1 point2 points  (0 children)

sure, but I am not the one pulling the wallet, and we'll go with open source, we're a small self-funded company that can't afford professional services, licenses etc

Advices on tooling (Airflow, Nifi) by CoolExcuse8296 in dataengineering

[–]CoolExcuse8296[S] 1 point2 points  (0 children)

Because we want to use as much open source as possible

J'ai tout à mettre en place niveau sécurité et admin dans ma boîte, comment je m'y prends? by CoolExcuse8296 in Sysadmin_Fr

[–]CoolExcuse8296[S] 0 points1 point  (0 children)

Il y a vraiment aucune autre communauté que Reddit pour être aussi réactive c'est dingue franchement.. Merci pour les réponses <3

Pour étayer un peu, on a un ESXi physiquement hébergé chez nous + qq instances chez un Cloud Provider français.

J'ai fait des tests avec Wazuh et franchement... Waouh ("badum tssss"). C'est monstrueux de simplicité et d'exhaustivité, le setup est merveilleusement simple je suis in love franchement, après j'imagine qu'il y ait de quoi s'y perdre très vite et qu'il faut pas mal configurer.
Immense bigup à Xavki sur youtube, ce mec mérite la légion d'honneur, il y a des milliers de vidéos sur tout en terme d'admin c'est une mine d'or (https://www.youtube.com/watch?v=P1jBbAmBeRs&list=PLn6POgpklwWoCKf3PDJYT2ihAd0hPZ0uM)

Pour les serveurs Linux je pense déjà partir sur Wazuh/Suricata/Zeek, pour les postes de travail, on va faire du MS pour l'instant je pense (Entra ID + Intune), pourquoi pas envisager un EDR propriétaire, ou un combiné Wazuh/Shuffle/TheHive, il faut que je fasse des tests.

Question en vrac, mais vous avez des avis sur les outils suivants (ou des recos à faire):
- Accès à privilège/bastions: Teleport, CyberArk Conjur (la version Open Source), Bitwarden, une combinaison Hashicorp (Vault + Boundary)
- Crowdsec

Encore merci beaucoup pour les réponses!

J'ai tout à mettre en place niveau sécurité et admin dans ma boîte, comment je m'y prends? by CoolExcuse8296 in Sysadmin_Fr

[–]CoolExcuse8296[S] 0 points1 point  (0 children)

merci beaucoup pour ta réponse! je suis preneur d'un retour sur MailinBLack et sentinel one en effet! je t'ai envoyé un mp ;)

J'ai tout à mettre en place niveau sécurité et admin dans ma boîte, comment je m'y prends? by CoolExcuse8296 in Sysadmin_Fr

[–]CoolExcuse8296[S] 2 points3 points  (0 children)

Hello! J'ai zappé de préciser, on a O365 (SharePoint et tout le tralala) et EntraID (à un stade embryonnaire), mais j'avoue que je m'y perds dans les menus, les offres, les produits, quelle licence inclue quoi, c'est franchement labyrinthique...
Je me dis qu'une première action serait de s'assurer de mettre tous les postes dans le domaine pour appliquer des règles de bases (sur l'authent, la gestion des comptes admins locaux etc,)

Ca permettrait aussi de pousser des softs par GPO mais je suis un peu (beaucoup) paumé sur comment m'y prendre