
En el GTC 2015, el CEO de NVIDIA, Jen-Hsun, pronosticó que la futura arquitectura Pascal de 16nm, será 10 veces más rápida que Maxwell, en cuanto a términos de rendimiento de aprendizaje profundo, que ofrecerá hasta un máximo de 32GB de 3D-stacked memory, soporte para mixed-precision computing y la interconexión de alta velocidad, NVIDIA NVLink, cuando sea lanzado en 2016.
La arquitectura Pascal de NVIDIA, la cual debutará el año que viene, acelerará las aplicaciones «deep learning» 10 veces por encima de la actual generación Maxwell, en aplicaciones que utilicen un conjunto de algoritmos, que intentan modelar abstracciones de alto nivel, usando modelos de arquitecturas compuestos de múltiples transformaciones no lineales.
Por otro lado tenemos la memoria, la cual contará con hasta 32 GB de 3D-stacked memory (HBM) con unos 750GB/s de ancho de banda, siendo 2.7 veces más rapida, que el buque insignia recién lanzado de NVIDIA, la GTX Titan X.
Pascal contará con mixed-precision computing, memorias en 3D, resultando en una mejora de hasta 5 veces en aplicaciones deep learning, asimismo, tendrá también NVLink de NVIDIA, la interconexión de alta velocidad de NVIDIA, que permite conectar dos o más GPUs, lo que dará lugar a una mejora de rapidez de 10 veces en deep learning.
Mixed-precision computing permite a las GPUs con arquitecturas basadas en Pascal computar en 16-bit de punto flotante al doble precisión que a 32-bit de punto flotante. El aumento del rendimiento en operaciones de punto flotante beneficia particularmente la clasificación y la circunvolución – dos actividades claves en deep learning – al mismo tiempo que se alcanza la precisión necesaria.

Las restricciones del ancho de banda de la memoria, limitan la velocidad a la que la información puede ser enviada a la GPU, pero con la introducción de la memoria 3D, que proporcionará el triple de banda ancha y casi el triple de capacidad de frame buffer, de la actual Maxwell, permitirá a los desarrolladores, crear redes neutrales aún mayores y acelerar las partes del deep learning training, que sean más intensivas en cuanto a banda ancha.
Pascal tendrá sus chips de memoria apilados unos encima de otros, esto reduce a milímetros la distancia que los bits necesitan recorrer cuando viajan a la GPU y vuelven. El resultado es una comunicación mucho más rápida y una mayor eficiencia energética.
La adición de NVLink a Pascal permitirá que la información se mueva entre la CPU y la GPU entre 5 y 12 veces más rápido de lo que se puede hoy en día con el estándar PCI-Express, beneficienado, en gran medida, a las aplicaciones, tales como deep learning, que tienen una elevada necesidad de comunicación inter-GPU.
NVLink duplica el número de GPUs que pueden funcionar al mismo tiempo en computaciones deep learning, además, las CPUs y las GPUs podrán conectarse de nuevas formas para permitir mayor flexibilidad y eficiencia energética en diseño de servidores comparado con PCI-E.