这里我们不讨论最新出的显卡对游戏的提升有多大…blablabla,只知道上2080TI玩游戏玩的更爽就够了,前提是得适配并且用上最新的光线追踪技术。 没用采用光线追踪的效果
采用光线追踪,整个人变得圣洁了
进入正题,提到显卡,与深度学习相关的也就是并行计算架构、Tensor RT技术以及最近新出的TensorCore了,而流处理的数量以及频率以及带宽则是常规参数,是越大越多越硬越好。 提提架构 我们平时利用显卡来跑深度学习程序的时候,对显卡架构来说并不用很关心,大部分关于显卡架构的工作,我们的CUDA库和所使用的深度学习库都帮我们处理了,我们平时用的GTX 1080ti、GTX 1080以及所有10系列的显卡,使用的是 Pascal 架构,而最新出来的RTX 2080、RTX 2080ti则使用的是Turning(图灵架构),而之前的服务器级别显卡P100则使用的是Volta架构。 新出来的磐镭RTX 2080使用的是Turning(图灵架构)
Tensor Core 之前已经提到了Tensor Core,这个是什么东西,说白了就是比流处理器更强大的专门针对矩阵操作有特别优化的一个运算核。 每个 Tensor Core 包含一个 4x4x4 的矩阵处理阵列来完成 D=A x B + C 的运算,其中 A、B、C、D 是 4×4 的矩阵,如下图。矩阵相乘的输入 A 和 B 是 FP16 矩阵,相加矩阵 C 和 D 可能是 FP16 矩阵或 FP32 矩阵。 Tensor Core
新的Volta GPU架构的显著特征是它的Tensor Core,而最新的Turning架构也拥有Tensor Core,则可能就是RTX一出生就比GTX要贵,反正1080是没有的呀!
官方宣称有Tensor Core的显卡架构比普通的没有Tensor Core的显卡训练(train)速度最多提升12倍,预测(inference)速度提升6倍。难怪老黄这么赚钱! TensorRT TensorRT就相当于一个软件库,通常作为一个高性能的深度学习推断(inference)的优化器和运行的引擎,这是是NVIDIA自家开发的。 TensorRT主要的目的是加快推断(inference)的速度,在训练模型的时候可以在大型的设备上进行训练,但是如果投入生产实际,大部分是关注的是推断的速度而不是精度,在牺牲一点精度的同时如果可以增加几倍的速度那么就是成功的。 TensorRT去重新优化设计
|