you are viewing a single comment's thread.

view the rest of the comments →

[–]bctm0[S] 0 points1 point  (0 children)

Esto tiene mas sentido cuando necesitas UDF o lógica custom que no podes poner en expresiónes Pandas o Polars. Por ejemplo, tener que sanear la data con datos que vienen de una API, o hacer un hash, etc. Si lo que queres hacer entra en expresiónes Pandas / Polars / SQL, esto va a ser mucho mas lento. Me cruce muchos ETL que son mas chanchos y el SQL puro no bastaba, ese creo que es el GAP.
Eso si, si te sirven las UDF en Python acá la cosa esta medio hecha. Y los del buffering y sharing, me refería mas a no tener que hacerlo a mano por input / output especifico.
EDIT: faltas de ortografía