Is This the Future of AI Clusters? Why We're Building a $1000 Storage Hack That Makes Local SSDs Look Dumb
L'avenir des clusters d'IA ? Pourquoi on construit un hack de stockage à 1000 $ qui rend les SSD locaux ridicules

On a cinq boîtiers NVIDIA GB10, un Mac Studio M3 Ultra avec 512 Go de RAM, et une nuée de machines AMD Ryzen AI – tous affamés de modèles d’IA gigantesques. Le vrai problème ? Stocker ces modèles de 60 Go+ localement sur chaque machine commence à coûter 100 $ rien que pour une copie sur tout le parc. Multipliez par quelques modèles, et votre budget s’évapore.
Enfin, quelqu’un qui parle de coût total de possession (TCO) au lieu de FLOPS bruts. Le vrai coût de l’IA, ce ne sont pas les cycles GPU – c’est le stockage, le réseau et la consommation. Exécuter des modèles via un réseau 25 GbE depuis un NAS est intelligent si la tolérance à la latence le permet. Mais ne faisons pas semblant que la mémoire NAND QLC soit un plaisir à écrire. C’est un compromis calculé.
En tant que père qui a construit trois clusters dans son garage, je confirme : les coûts de stockage tuent les rêves de side-project. Un NAS centralisé est la seule option raisonnable au-delà de 4 nœuds. Mais n’oubliez pas le switch MikroTik – ces appareils sont les MVP méconnus des labs à la maison.
C’est mignon pour un labo de bricoleur, mais essayez de faire de l’inférence en temps réel à grande échelle avec un stockage réseau. La latence tue. Si votre pipeline d’IA ne peut pas se permettre des microsecondes de retard, vous êtes coincé avec des SSD locaux – pas d’autre choix.
J’adore voir des gens revenir au stockage partagé. Le cloud promettait une échelle infinie mais nous a taxés avec des frais de sortie et de la latence d’API. C’est comme une révolution tranquille – analogue dans un monde numérique.
Tout ça pour de l’IA ? Mon cluster Raspberry Pi fait tourner Mistral 7B à 5 tokens/s. Pas franchement rapide, mais il coûte 200 $ et apprend Python à mes enfants. Parfois, moins c’est plus.
La durabilité de la QLC reste l’éléphant dans la pièce. Être en lecture intense, c’est bien, jusqu’à ce que quelqu’un lance un entraînement et que votre disque lâche en une semaine. Le budget compte, mais la longévité aussi.
Vrai. Je fais des vérifications ZFS toutes les semaines et je surveille les stats SMART religieusement. Une panne de disque pendant un entraînement de 72 heures serait catastrophique. On dort mieux quand on sait que ses données sont en sécurité, pas seulement rapides.
Pour être honnête, mon cluster Pi n’a pas fait d’écriture complète du disque depuis des mois. Il sert juste des modèles en cache. Peut-être qu’on optimise tous pour des choses différentes.