如何看待 TPU 和 GPU 的未来发展

2025-03-24 14:26:49
推荐回答(1个)
回答1:

作者:匿名用户
链接:https://www.zhihu.com/question/60021552/answer/171467790
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

先说TPU。Google现在连一代TPU面积有多大都不说具体数字,然后第二代就只给个宣传稿。所以我只能列一些可能方向瞎猜一下。估计在架构层面,TPU会
1. 进一步提高浮点处理吞吐量。
2. 提高memory bandwidth
3. 加入一定的片上control flow逻辑
4. 加入类似nvlink的高速片间互联
第一代TPU的设计思想就是把全部的面积都用来做乘法和存储。估计以后还是会延续这个思路,只维持最简单的control flow,把包括CPU在内所有与dl无关的硬件全部去掉。Google的优势是它自己就是最大的dl用户且拥有deepmind这样的顶级算法研究机构。TPU的设计选择无疑是基于大量第一手workload数据做出的,并且具有相当的前瞻性。但是越是专用的硬件,一般其拓展性就越差。极端情况下,TPU团队可以为每一种workload设计不同的硬件TPU,然后同时部署好几种TPU以获取最优能耗比。这种方案当然很贵,不过以Google的体量,钱并不是问题。
GPU 的发展趋势当然也是首先要做好上面的1234点,同时在架构设计方面要紧跟dl前沿,理解并且优化重要的workload。
不过我更倾向于将GPU看成是一个通用的throughput machine。对未来的data center而言,dl只不过是一种普通的throughput优先的workload。其他重要的throughput workload还有VR streaming, HPC,transcoding等等。在data center部署GPU的优势在于同一套硬件可以同时处理dl,VR和HPC 的workload。为进一步提高对特定任务的处理能力,GPU厂商可能还会选择加入特定的加速IP,比如为dl做的tensor core,为graphics服务的rop以及为视频压缩引入的codec。只要专用ASIC没有能效上的压倒性优势,选择GPU将极大提高data center的硬件利用率并降低维护成本。如果这个结论成立的话,大部分data center“最终”可能都会选择部署加入专用IP的通用throughput machine,而不是直接部署一堆专用ASIC。
举个例子,我们知道现在用VR做reinforcement learning训练AI很火。这个用纯TPU怎么做?我想不会有人有勇气在TPU内部实现graphics pipeline。如果graphics和physics还是用GPU做,为什么不把training也放在GPU上?
说到physics,还有人记得PPU吗?