Foros Club Delphi - Ver Mensaje Individual

mamcx · #5 09-03-2024

La experiencia general con todos los productos tipo nube:

- En bajo volumen es "barato"
- En medio, quizás
- En alto, astronómico (Hace un tiempo se informo que ChatGPT les cuesta US 700.000/dia, así que con algo tienen que recuperar costos)

En mi opinion:

- Asegurate que realmente "necesitas" este tipo de solución y que no es que *crees* cuando hay opciones mas rentables y simples (ie: Hay mucha "IA" que realmente es puro sql y matemática simple). Es como cuando la gente bota un infierno de plata con soluciones nube/"escalables" dizque porque tiene una insignificante BD de 10 TB y "creen" que eso no se puede en un simple equipo: Spoiler: Si se puede.
- Si no tienes muchos clientes/concurrencia por lo general estos bichos son rentables de usar al inicio
- Tienes que tener algo de soporte económico, si estas quebrado piensa en cosas mas razonables que hagan tu negocio rentable!
- Si metes CUALQUIER producto de costo variable e impredecible ASEGURATE de poner "back pressure" para evitar que por un error termines pagando miles de dólares por usar esto unos minutos.

---

Normalmente es mas rentable usar el software dentro de tu propia infraestructura "nube/local", pero correr LLM en la nube hoy es muy costoso, usando mi proveedor que sale mejor que amazon o google:

https://www.vultr.com/pricing/#cloud-gpu

---

La otra opción es usar tu propio hardware local, pero estamos hablando de quipos que son tan o mas costosos que correr crypto:

https://www.hardware-corner.net/guid...lama-ai-model/

Osea necesitas mínimo un equivalente de Mac/M3 + 32 GB RAM + 16 GB GPU. Lo que entiendo es que un equipo maso es> US 4000 pa que realmente aguante, y eso con un nivel de concurrencia muy bajo.

La otra es armar un cluster, pero estamos hablando que estos juguetes son costosos aun.

Otra opcion es jugando con una combinacion de nube/local donde haces el "entrenamiento" (que es lo que mas cuesta) y luego pasar a un nube/equipo de ejecucion para solo responder se puede lograr algo viable, pero no es tan simple de hacer en un solo dia...

P.D: Este articulo ayuda a entender lo que es "tokens". Este el resultado de la IA, ie, un token es la unidad de inferencia.

Por ejemplo el articulo señala que usando :

Cita:

DDR4-3600 + Ryzen 5 3600 = ~ 7 tokens/second