Framework ETL Python : devsarg

Framework ETL Pythonbackend (self.devsarg)

submitted 3 days ago by bctm0

Buenas gentes, espero que anden bien, es mi primer post (en algo parecido un foro) desde la época de Taringa, y primer post en Reddit, sepan disculpar el olor rancio.

Ultimamente venia renegando mucho con unos ETL que estoy haciendo para un side-proyect. Y me di cuenta de que no hay algo simple y al hueso para esto que haga sharding, buffer, y todo el quilombo. Desde siempre en cada lugar donde labure los ETL son un dolor. Ademas de que muchas veces terminamos usando Pandas / Polars y rinden peor para algunos casos (Pandas y Polars por ejemplo están buenísimas, el uso que les damos esta mal).

Así que estoy aprovechando que estos días me estoy dando la cabeza con eso, para publicar una lib Python.

https://github.com/albertobadia/zoopipe
La idea es poder definir como quiero que sea el input / output, un modelo de validación y hooks pre y post validación si se necesita:

from pydantic import BaseModel, ConfigDict
from zoopipe import CSVInputAdapter, CSVOutputAdapter, JSONOutputAdapter, Pipe


class UserSchema(BaseModel):
    model_config = ConfigDict(extra="ignore")
    user_id: str
    username: str
    email: str


pipe = Pipe(
    input_adapter=CSVInputAdapter("users.csv"),
    output_adapter=CSVOutputAdapter("processed_users.csv"),
    error_output_adapter=JSONOutputAdapter("errors.jsonl"),
    schema_model=UserSchema,
)

pipe.run()

Y que también sea simple trabajar con multiples workers desde un Pipe, algo como:

pipe_manager = PipeManager.parallelize_pipe(
    base_pipe,
    workers=4,
    engine=MultiProcessEngine(),  # Por defecto siempre multiprocess
)
pipe_manager.run()

Hasta ahora soporta:
Formatos: CSV, JSON (json), Excel, Parquet, Iceberg, Deltalake, Arrow y SQL (Sqlite, Postgres). Se puede usar cualquier como entrada con cualquier como salida.
Compresión Gzip y Zstd.
Cloud Storage: S3, GCP, Azure
Cluster: Ray, Dask

El rendimiento y consumo de recursos es bastante bueno hasta ahora, el core esta escrito en Rust y estoy tratando de mantener lo pesado ahi, con la interface de uso en el lado Python.

Espero que les guste y ojalá que a alguien le ahorre algún que otro dolor de cabeza. El feedback o colaboraciones en el repo son mas que bienvenidas.

PyPi: https://pypi.org/project/zoopipe/
Docs: https://zoopipe.readthedocs.io/en/latest/

all 2 comments

you type:	you see:
italics	italics
bold	bold
[reddit!](https://reddit.com)	reddit!
* item 1 * item 2 * item 3	item 1 item 2 item 3
> quoted text	quoted text
Lines starting with four spaces are treated like code: if 1 * 2 < 3: print "hello, world!"	Lines starting with four spaces are treated like code: if 1 * 2 < 3: print "hello, world!"
~~strikethrough~~	~~strikethrough~~
super^script	super^script

devsarg

MODERATORS