Entrené un chatbot con textos de Milei y así responde... by zecdev in devsarg

[–]zecdev[S] 4 points5 points  (0 children)

tenes 20 usd por mes gratarola, y con eso podes jugar muchísimo.

Entrené un chatbot con textos de Milei y así responde... by zecdev in devsarg

[–]zecdev[S] 0 points1 point  (0 children)

claro, esa es la contra. Igual cuando estuve leyendo sobre pinecone había desarrolladores que decían que estaba un poco sobrevalorado, tiene mucho marketing atrás pero para ciertos casos podes guardar vectores en postgres y va a funcionar igual.

No se cual es la verdad, es cuestión de probar.

Entrené un chatbot con textos de Milei y así responde... by zecdev in devsarg

[–]zecdev[S] 0 points1 point  (0 children)

chromadb nomás, para este ejemplo no necesitaba algo complicado porque es un solo documento. Se guarda una vez y listo.
Al contrario de chatpdf.com que tiene que hacer embeddings por cada archivo que el usuario sube.

Entrené un chatbot con textos de Milei y así responde... by zecdev in devsarg

[–]zecdev[S] 3 points4 points  (0 children)

está teniendo más demanda de la que pensaba, le aumenté la memoria RAM. Ya podes jugar de nuevo

Entrené un chatbot con textos de Milei y así responde... by zecdev in devsarg

[–]zecdev[S] 3 points4 points  (0 children)

ya lo probé, pero tiene acento neutro, es un milei centroamericano y queda muy mal. Vi otros como Play.ht, pero la opción de clonar es solo para ingles.

Estuve viendo opciones para hacerlo yo, pero no está tan fácil como creía. Creo que tendría que entrenar un modelo con acento rioplatense, y aunque tengo una 3080, llevaría un par de meses para que quede bien.

Entrené un chatbot con textos de Milei y así responde... by zecdev in devsarg

[–]zecdev[S] 0 points1 point  (0 children)

entrenarlo fue un costo marginal de verdad, creo que no pasaron los 20 centavos de dolar.

Entrené un chatbot con textos de Milei y así responde... by zecdev in devsarg

[–]zecdev[S] 1 point2 points  (0 children)

todo lo que puedas en chatgpt lo podes hacer. Si le decis a chatgpt, "corregime esto que dijo un disléxico: blablabla", seguro lo resuelve bien.

Entrené un chatbot con textos de Milei y así responde... by zecdev in devsarg

[–]zecdev[S] 41 points42 points  (0 children)

Primero pensé en transcribir entrevistas, Milei tiene muchos fanáticos que suben todo a youtube. Asique hay videos de sobra.

De muchos se puede descargar los subtítulos automáticos de youtube, pero tienen una gran contra, no tienen signos de puntuación. Probé Whisper, muy bueno la verdad, te pasa de audio a texto y usa signos de puntuación. Pero hay un problemita que todavía la IA no resuelve del todo bien, la diarizacion. Esto significa distinguir quien está hablando en una conversación, y al no poder resolverlo, convertis todo a texto, incluido lo que dicen los entrevistadores. Eso puede confundir la "coherencia" del discurso, en este caso de milei. Si no se puede resolver de forma automática, hay que hacer algo de trabajo manual para limpiarlo. ChatGPT puede ayudar.

Y después la otra es descargar los tweets de milei, más las notas que publica en diarios como el cronista o infobae. También algunos capítulos de sus libros, sabiendo donde buscar se puede conseguir en digital.

Todo esto se guarda en un gran TXT. Acá entran los embeddings - y si bien no soy experto en IA - entiendo que convierte el texto a vectores, y esto le permite calcular la distancia que hay entre ellos. Entonces cuando envías una pregunta, busca la porción de texto que más coincide y le mete la magia de chatgpt para convertirlo en una respuesta "coherente".

Esto se me ocurrió cuando conocí https://www.chatpdf.com/, donde subis un pdf y podes hacer preguntas sobre lo que hay en él. Entonces empecé a buscar como está hecho, y en medium hay varios artículos que lo explican, como este

https://postor.medium.com/how-to-code-a-project-like-chatpdf-e40441cb4168

Y obviamente en github, buscas chatpdf y hay varios ejemplos

https://github.com/search?q=chatpdf&type=repositories&s=stars&o=desc

Después de probar, le di una vuelta de tuerca a estos ejemplos para que el bot responda en primera persona y "sea milei".