
Au cours des deux dernières années, les discussions sur l’IA ont tourné presque entièrement autour de la puissance de calcul : pas assez de GPU, une capacité de calcul insuffisante et des clusters inadéquats.Mais ce rapport souligne à plusieurs reprises un point clé : ce qui retient véritablement l’IA, ce n’est pas l’incapacité de calculer, mais la impossibilité de déplacer des données.
À mesure que la taille des modèles est passée de plusieurs dizaines de mégaoctets à plusieurs gigaoctets, les composants les plus sollicités du système ne sont plus les unités de calcul, mais la mémoire et les bus.En d’autres termes, le goulot d’étranglement de l’IA évolue progressivement, passant d’un « problème informatique » à une proposition plus fondamentale : un problème de stockage.
Cela a conduit à une direction plus radicale : si le déplacement des données constitue la plus grande charge, pourquoi ne pas laisser le calcul se faire. directement en stock?
Une architecture appelée Compute-in-Memory (CIM) tente de réécrire cette logique à partir de la racine.La clé pour y parvenir n’est pas un nœud de processus plus avancé, mais un type de technologie qui n’a pas été aussi « courant » dans le passé…mémoire analogique.
Cet article nous invite à repenser une question cruciale : à mesure que l’IA évolue jusqu’à ce qu’elle est aujourd’hui, qu’est-ce qui détermine réellement sa limite supérieure : la puissance de calcul ou le stockage ?
Le goulot d’étranglement des performances de l’IA passe de la « puissance de calcul » au « stockage et au mouvement des données », et la solution réside dans la reconstruction du paradigme informatique avec « mémoire analogique + calcul en mémoire (CIM) ».
Le calcul de base des réseaux neuronaux profonds (DNN) est la multiplication vectorielle-matrice (VMM), qui repose intrinsèquement sur une lecture massive de poids.À mesure que la taille des modèles passe de mégaoctets à gigaoctets (10 Mo à 10 Go), ils imposent d'énormes exigences en matière de stockage sur puce.
La formation est « intensive en écriture », tandis que l'inférence est « intensive en lecture » : les deux tournent autour du stockage de poids (mémoire synaptique).
Conclusion: L’IA n’est pas un pur problème informatique ;il s’agit essentiellement d’une question « d’efficacité du stockage et du déplacement des données ».
Les GPU/TPU traditionnels fonctionnent selon un principe simple : le calcul s'effectue dans les éléments de traitement (PE), tandis que les données sont stockées dans la SRAM/DRAM, ce qui entraîne des mouvements de données fréquents et une efficacité extrêmement faible.
Comparaison de l'efficacité énergétique :
Contradiction fondamentale: Le problème n'est pas l'incapacité de calculer, mais l'incapacité de déplacer efficacement les données.
L'architecture CIM stocke les pondérations directement dans des matrices de mémoire et effectue des calculs (VMM parallèles) au sein de ces matrices, éliminant ainsi le besoin de déplacer les données entre « stockage ↔ unités de calcul ».
Changement fondamental:
Il s’agit d’un changement de paradigme au niveau architectural, et pas seulement d’une simple optimisation.
Pour réaliser le CIM, un nouveau « support de poids » est nécessaire.Les principaux candidats sont :
La capacité essentielle de ces appareils est de représenter des poids en utilisant une conductance continue (multi-bits analogiques).
Le rapport ne met pas l’accent sur « si cela est réalisable », mais sur les obstacles pratiques :
1. Défis de formation (processus d'écriture)
Exigences : Linéarité et symétrie
Problèmes pratiques : la non-linéarité et l'asymétrie entraînent une précision réduite
2. Défis d'inférence (stabilité de lecture)
Les pondérations dérivent au fil du temps, avec des problèmes tels que :
- Dérive thermique
- Interférence de lecture
- Problèmes de rétention
3. Problèmes au niveau de la baie
- Variabilité entre les appareils
- Compromis entre précision, performances ADC et taille du tableau
Conclusion fondamentale: Le problème avec la mémoire analogique n’est pas « de savoir si la précision est suffisante », mais « la stabilité et la contrôlabilité ».
Les orientations futures comprennent :
Essence: Il ne s'agit pas d'une percée en un seul point, mais d'une reconstruction complète.
Le goulot d’étranglement de l’IA n’est plus la puissance de calcul, mais « le stockage et le flux de données ».Le CIM analogique transforme le « stockage » en le nouveau cœur de l’informatique, redéfinissant de fond en comble le fonctionnement des systèmes d’IA.