Changement de goulot d’étranglement de l’IA : ce n’est pas une puissance de calcul, c’est un mouvement de données.Le calcul en mémoire est la solution

Changement de goulot d'étranglement de l'IA : de la puissance de calcul à la mémoire et au mouvement des données – le calcul en mémoire (CIM) prend le relais

Au cours des deux dernières années, les discussions sur l’IA ont tourné presque entièrement autour de la puissance de calcul : pas assez de GPU, une capacité de calcul insuffisante et des clusters inadéquats.Mais ce rapport souligne à plusieurs reprises un point clé : ce qui retient véritablement l’IA, ce n’est pas l’incapacité de calculer, mais la impossibilité de déplacer des données.

À mesure que la taille des modèles est passée de plusieurs dizaines de mégaoctets à plusieurs gigaoctets, les composants les plus sollicités du système ne sont plus les unités de calcul, mais la mémoire et les bus.En d’autres termes, le goulot d’étranglement de l’IA évolue progressivement, passant d’un « problème informatique » à une proposition plus fondamentale : un problème de stockage.

Cela a conduit à une direction plus radicale : si le déplacement des données constitue la plus grande charge, pourquoi ne pas laisser le calcul se faire. directement en stock?

Une architecture appelée Compute-in-Memory (CIM) tente de réécrire cette logique à partir de la racine.La clé pour y parvenir n’est pas un nœud de processus plus avancé, mais un type de technologie qui n’a pas été aussi « courant » dans le passé…mémoire analogique.

Cet article nous invite à repenser une question cruciale : à mesure que l’IA évolue jusqu’à ce qu’elle est aujourd’hui, qu’est-ce qui détermine réellement sa limite supérieure : la puissance de calcul ou le stockage ?

Message central du rapport

Le goulot d’étranglement des performances de l’IA passe de la « puissance de calcul » au « stockage et au mouvement des données », et la solution réside dans la reconstruction du paradigme informatique avec « mémoire analogique + calcul en mémoire (CIM) ».

L'IA est essentiellement un problème informatique basé sur le stockage

Le calcul de base des réseaux neuronaux profonds (DNN) est la multiplication vectorielle-matrice (VMM), qui repose intrinsèquement sur une lecture massive de poids.À mesure que la taille des modèles passe de mégaoctets à gigaoctets (10 Mo à 10 Go), ils imposent d'énormes exigences en matière de stockage sur puce.

La formation est « intensive en écriture », tandis que l'inférence est « intensive en lecture » : les deux tournent autour du stockage de poids (mémoire synaptique).

Conclusion: L’IA n’est pas un pur problème informatique ;il s’agit essentiellement d’une question « d’efficacité du stockage et du déplacement des données ».

Goulot d’étranglement fondamental de l’architecture traditionnelle : le mouvement des données

Les GPU/TPU traditionnels fonctionnent selon un principe simple : le calcul s'effectue dans les éléments de traitement (PE), tandis que les données sont stockées dans la SRAM/DRAM, ce qui entraîne des mouvements de données fréquents et une efficacité extrêmement faible.

Comparaison de l'efficacité énergétique :

Plateformes traditionnelles : ~0,1 TOPS/W
ASIC numériques : ~1 à 10 TOPS/W
CIM analogique : ~10–100 TOPS/W

Contradiction fondamentale: Le problème n'est pas l'incapacité de calculer, mais l'incapacité de déplacer efficacement les données.

Orientation clé : calcul en mémoire (CIM)

L'architecture CIM stocke les pondérations directement dans des matrices de mémoire et effectue des calculs (VMM parallèles) au sein de ces matrices, éliminant ainsi le besoin de déplacer les données entre « stockage ↔ unités de calcul ».

Changement fondamental:

Architecture traditionnelle : la mémoire et le calcul sont séparés
Architecture CIM : Mémoire = Calcul

Il s’agit d’un changement de paradigme au niveau architectural, et pas seulement d’une simple optimisation.

Support principal : mémoire analogique multi-bits (Synapse analogique)

Pour réaliser le CIM, un nouveau « support de poids » est nécessaire.Les principaux candidats sont :

RRAM (mémoire résistive à accès aléatoire)
PCM (mémoire à changement de phase)
FeFET (transistor à effet de champ ferroélectrique)
Flash/NAND 3D, etc.

La capacité essentielle de ces appareils est de représenter des poids en utilisant une conductance continue (multi-bits analogiques).

Le vrai défi : les limites physiques des appareils déterminent les limites supérieures du système

Le rapport ne met pas l’accent sur « si cela est réalisable », mais sur les obstacles pratiques :

1. Défis de formation (processus d'écriture)
Exigences : Linéarité et symétrie
Problèmes pratiques : la non-linéarité et l'asymétrie entraînent une précision réduite

2. Défis d'inférence (stabilité de lecture)
Les pondérations dérivent au fil du temps, avec des problèmes tels que : - Dérive thermique - Interférence de lecture - Problèmes de rétention

3. Problèmes au niveau de la baie
- Variabilité entre les appareils - Compromis entre précision, performances ADC et taille du tableau

Conclusion fondamentale: Le problème avec la mémoire analogique n’est pas « de savoir si la précision est suffisante », mais « la stabilité et la contrôlabilité ».

Tendance finale : intégration 3D + coordination au niveau du système

Les orientations futures comprennent :

Intégration 3D monolithique
Couplage profond de la mémoire et de la logique
Co-conception d'appareils, de circuits et d'algorithmes

Essence: Il ne s'agit pas d'une percée en un seul point, mais d'une reconstruction complète.

Conclusion

Le goulot d’étranglement de l’IA n’est plus la puissance de calcul, mais « le stockage et le flux de données ».Le CIM analogique transforme le « stockage » en le nouveau cœur de l’informatique, redéfinissant de fond en comble le fonctionnement des systèmes d’IA.

Sélectionnez une langue pour l'affichage