TPU目前未能取代GPU,依托云计算拓宽MLaaS需求
TPU目前未能取代GPU,只是在某些特定算法上做针对性优化。谷歌这次将TPU开放给客户是为了提供云计算服务的差异化,提升谷歌云的机器学习即服务(MLaaS)易用性。谷歌目前没有以硬件产品方式出售TPU的计划,而是依靠TPU浮点运算精度的提高及针对TensorFlow的深度优化,以云计算服务形式销售共享。与我们此前强调的一致,我们认为Google通过CloudTPU+TensorFlow的软硬结合,以及此后TPUPod的加持,可进一步激活中小企业以及科研单位的云计算需求,另辟AWS、Azure之外蹊径。
谷歌云Q4单季收入跨越10亿美元门槛,但相对于AWS51亿,微软智能云78亿的体量尚不能及;AWS龙头尚稳份额增加0.5%,微软份额增加3%为最多;谷歌份额增加1%。当前包括亚马逊AWS、微软Azure都提供了机器学习基本工具,而通过TensorFlowAPI+TPU,Google提供包括图像识别ResNet-50、机器翻译Transformer和物体识别RetinaNet在内的主流模型训练开发功能,日后还会提供其他服务。此外Google针对TPU的使用进行功耗优化,进一步降低数据中心的运营成本。我们认为,云计算巨头为了提高在使用服务器芯片时的议价能力,未来会消防Google寻求自主芯片开发的方案,但主要针对特定需求进行定制开发。
ASIC专用性最好实证,谷歌TPU以时间换吞吐量
AI立夏已至,以ASIC为底芯片的包括谷歌的TPU、寒武纪的MLU等,也如雨后春笋。但我们此前强调包括TPU在内的ASIC仍然面临通用性较弱,以及开发成本高企等局限。TPU虽理论上支持所有深度学习开发框架,但目前只针对TensorFlow做了深度优化。另外ASIC芯片开发周期长和成本非常高,在开发调试过程中复杂的设计花费有时甚至会花数亿美元,因此需要谷歌这样的计算需求部署量才能将成本分摊到大量使用中。同时ASIC开发周期长,也可能会出现硬件开发无法匹配软件更新换代而失效的情况。
TPU是针对自身产品的人工智能负载打造的张量处理单元TPU。第一代主要应用于在下游推理端TPU。本质上沿用了脉动阵列机架构(systolicarraycomputers),让推理阶段以时间换吞吐量。第二代TPU除了在推理端应用,还可以进行深度学习上游训练环节。
AI芯片蓝海仍是GPU引领主流,ASIC割据一地,看好未来各领风骚
我们仍然强调:在人工智能浪潮中,芯片市场蛋糕越做越大,足以让拥有不同功能和定位的芯片和平共存,百花齐放。后摩尔定律时代,AI芯片间不是零和博弈。我们认为在3-5年内深度学习对GPU的需求是当仁不让的市场主流。在深度学习上游训练端(主要用在云计算数据中心里),GPU作为第一选择,英伟达表示Hyperscale巨头作为第一波客户在训练端的复购高渗透率正在向推理端延伸,针对数据中心推理的P4处理器开始出货,第二波客户则是其他云计算大公司开始放量,第三波客户则是基于云计算的互联网企业海量的数据和AI应用计算需求。
而下游推理端更接近终端应用,需求更加细分,我们认为除了GPU为主流芯片之外,包括CPU/FPGA/ASIC等也会在这个领域发挥各自的优势特点。FPGA适用于开发周期较短的IoT产品、传感器数据预处理工作以及小型开发试错升级迭代阶段等。以TPU为代表的ASIC定制化芯片,包括英特尔的NervanaEngine、WaveComputing的数据流处理单元、以及英伟达的DLA等,针对特定算法深度优化和加速,将在确定性执行模型(deterministicexecutionmodel)的应用需求中发挥作用。我们认为深度学习ASIC芯片将依靠特定优化和效能优势,未来在细分市场领域发挥所长。
风险提示:芯片开发周期过长,市场需求不达预期等。