AccueilMessageArchitecture de stockage optimisée par l'IA

Architecture de stockage optimisée par l'IA

Une infrastructure de stockage de nouvelle génération conçue pour aider les systèmes d’IA à gérer une mémoire contextuelle massive et un raisonnement multitours devrait remodeler la façon dont les charges de travail d’inférence à grande échelle sont prises en charge.



Une nouvelle classe de technologie de stockage orientée IA de NVIDIA a émergé pour relever l'un des défis les plus épineux des charges de travail d'IA modernes : gérer et partager efficacement de grandes quantités de données contextuelles pendant l'inférence.Les hiérarchies traditionnelles de stockage et de mémoire, conçues pour le calcul générique plutôt que pour les besoins spécifiques de l’IA, ont du mal à suivre à mesure que les modèles se transforment en systèmes de raisonnement multi-agents et multitours qui nécessitent une mémoire contextuelle persistante et de grande capacité.

Le cœur du développement est un processeur de données spécialisé qui sous-tend l'architecture de stockage native d'IA récemment annoncée, qui étend la mémoire GPU et partage le cache d'inférence clé-valeur (KV) entre les clusters avec une bande passante élevée et une latence prévisible.Ce changement est motivé par la transition de l’IA d’un traitement à invite unique vers un raisonnement continu et contextuel, où une grande mémoire partagée est essentielle pour la réactivité et la précision.

Les principales caractéristiques sont :

Étend la mémoire GPU avec une capacité de cache clé-valeur à l'échelle du cluster pour l'inférence à contexte long.
Débit de jetons par seconde jusqu’à 5 fois supérieur à celui du stockage traditionnel.
Le placement du cache KV accéléré par le matériel réduit la surcharge des métadonnées et le déplacement des données.
Partage efficace du contexte entre les nœuds via Ethernet haute performance.
Une efficacité énergétique jusqu’à 5 fois supérieure à celle des architectures de stockage conventionnelles.
Les partenaires industriels, y compris les principaux fournisseurs de systèmes et de stockage, construisent déjà des plates-formes de support, prévoyant une disponibilité au cours du second semestre 2026. Les premiers tests de référence et projections mettent en évidence des gains significatifs en termes de performances et d'efficacité pour les charges de travail d'inférence qui dépendent d'un accès et d'un partage rapides du contexte.Au-delà des performances brutes, la nouvelle infrastructure répond à l’évolutivité et à l’efficacité énergétique, deux contraintes qui pèsent sur les centres de données alors que les charges de travail d’IA augmentent.En dissociant les services de stockage des processeurs hôtes et en permettant un placement accéléré par le matériel des données de cache clé-valeur, l'architecture promet des améliorations jusqu'à cinq fois supérieures en termes de jetons traités par seconde et d'efficacité énergétique par rapport aux systèmes de stockage conventionnels soumis à des charges similaires.

Cette conception apporte également une intégration plus étroite entre les fonctions de mise en réseau, de mémoire et de stockage hautes performances, en tirant parti des structures Ethernet avancées pour fournir un accès direct à la mémoire à distance et à faible latence sur les serveurs.Le résultat est une base qui s'aligne mieux sur l'évolution des paradigmes d'inférence où la persistance de la mémoire et le partage de contexte entre nœuds sont essentiels.À mesure que l’infrastructure de l’IA évolue, ce niveau de stockage pourrait devenir un élément clé pour les services d’IA de nouvelle génération, réduisant la latence et les coûts énergétiques tout en prenant en charge des tâches de raisonnement plus complexes à grande échelle.