12月14日,OPPO发布业内首款影像专用NPU:马里亚纳MariSilicon X(以下简称MariSilicon X)。
2019年,OPPO在INNO DAY上提出,要向底层硬件技术进军。2021年12月14日,技术方向进一步明确为自研芯片,即此前业界盛传的OPPO马里亚纳计划。
推出MariSilicon X,显示计算影像是OPPO芯片自研计划首选赛道。
为何做此选择?
MariSilicon X采用台积电6nm制程工艺,拥有高达18TOPS的算力和极低的11.6TOPS/W功耗。这样的制程和能耗比,此前在业界还未有人做到。
这组数据意味着什么?OPPO在AI计算影像赛道中的突破,将带给终端用户何种独特体验?
从这款NPU的流片成本、研发投入,以及最终MariSilicon X和SoC移动主芯片形成的关系看,OPPO会成为少数拥有真正意义上重新设计影像全链路的终端厂商。
自马里亚纳计划于2020年2月曝光以来,OPPO自研芯片进展,受到业界高度关注。
2021年12月14日,“OPPO INNO DAY 2021”披露了该项计划实质性落地消息:OPPO自研首款影像专用NPU(神经网络处理器:Neural network Processing Unit)芯片“MariSilicon X”官宣,这也是OPPO首款自研芯片。
NPU处理器专为物联网人工智能(AI)设计,用于加速神经网络运算,解决通用SoC芯片AI性能不足问题,同时降低功耗。
谈到做自研芯片的原因,OPPO创始人兼首席执行官陈明永说,“科技公司必须通过关键技术解决关键问题,如果没有底层核心技术,就不可能有未来;缺乏底层核心技术的旗舰产品,更是空中楼阁。”
同时,拥有自研芯片能力,也是智能手机终端厂商走向高端市场的关键。全球高端手机厂商如苹果、华为和三星,无一不具有自主研发芯片的实力。
就性能而言,MariSilicon X整合和深度迭代了视频流趋势下的影像处理能力,将计算影像推向4K+20bit RAW+AI+Ultra HDR的新极限。
OPPO首款自研芯片为何选择AI计算影像赛道?
通过与OPPO芯片产品团队的深度交流,华尔街见闻了解到,作为垂直厂商,OPPO在过去十年以数量庞大的终端产品,积累了从传感器定制,到摄像头模组定制,再到镜头定制的丰富经验。
同时,基于通用SoC平台,OPPO还做了很多AI算法积累,包括传统CV(计算机视觉)算法和AI算法。
OPPO认为,到了今天这个时间节点,展望未来十年,AI计算影像将主导整个影像新技术的发展路径。因此,OPPO将AI计算影像作为未来十年,其终端技术将要聚焦的主要方向。
英伟达CEO黄仁勋在2017年曾有个论断:软件会吃掉世界,但AI会吃掉软件。
行业原有基于通用SoC平台迭代计算影像性能的技术能力,已无法继续提升。目前,以通用Soc芯片匹配自研算法,想达成提升影像终极体验目标,障碍难以克服。
比如,定制化的Sensor,有时需要与通用SoC做相应配合。这里遇到的第一个挑战,就是通用Soc和Sensor研发周期不匹配,要达成两者平衡,非常困难。
其次,若用现成的Sensor搭配通用SoC平台做链路处理优化增强,意味着研发要做大幅度调整,成本也会相应更高,即存在难度大、成本高、周期长和效果差的问题。
“通用SoC芯片性能无法满足AI对计算影像算力和能效的需求,只有通过自研专用NPU芯片(定制化)解决。因此我们首款芯片选择了影像NPU。”OPPO芯片产品高级总监姜波对华尔街见闻说,“MariSilicon X补足了OPPO影像计算单元性能的最后短板。”
姜波,在2019年加入OPPO担任芯片产品高级总监之前,曾在高通中国担任首个智能手机SoC产品经理。OPPO是姜波第一个加盟的国内终端厂商。
从多家智能手机终端厂商提升影像旗舰体验的做法和效果看,真正要满足消费者对影像质量的无限追求,必须打通影像链路(Pipeline)的垂直整合,也就是要做到对整个影像链路各环节(自研算法+定制Sensor+优化通用平台)的自主控制。
业界做到影像链路垂直整合的厂商寥寥无几。那么问题来了,什么是影像链路垂直整合?
简单来说,所谓影像链路,即物理世界的信息,从摄像头进,经过处理器,再到显示端出视频或照片的整个链路。在此过程中,涉及算法、Sensor、摄像头模组、Lens、NPU和SoC等软件、光学和处理器部件。
华尔街见闻了解到,通过MariSilicon X处理器,OPPO自研算法与OPPO自研芯片可相互开放并达成深度耦合。两者的关系是自研核心算法通过NPU(定制传感器),可最大化提升通用SoC影像性能(优化通用平台),最终提升用户体验,即OPPO能达成影像链路垂直整合。
姜波认为,“所有厂商在未来都必将面对影像全链路垂直整合的难题。”
据OPPO研究院院长刘畅透露,MariSilicon X采用6nm制程工艺,由台积电代工。2019年,台积电宣布推出EUV技术的N6(6nm)制程工艺,与采用DUV的N7(7nm)相比,N6提高了18%的逻辑密度,但性能和功耗不变。
根据台积电技术规划,从今年第四季度开始,台积电将用N6取代48%-50%的N7产能。
为什么选择6nm?
“我们在做芯片开发前,通过频繁的仿真发现,即便通过自研的MariNeuro和MariLumi的IP,用12nm制程工艺,也很难达到终端能耗比极致要求。因此我们只能选择6nm。”姜波说,“6nm是台积电首个主流采用EUV工艺的制程。通过它,我们非常好地支撑了同级最好的能效比,包括RAW域复杂算法处理。”
在台积电N6工艺的加持下,MariSilicon X算力高达18TOPS,而能耗仅为11.6TOPS/W。作为参考,iPhone的A15芯片,NPU算力约15TOPS。
事实上,算力可以无限堆砌,但过高的算力也会相应增加能耗,而能耗越高,智能手机续航力越弱,体验也越差。
所以能耗对算力存在约束。从性能角度看,算力越高越好,但由于存在能耗约束,故良好的终端体验,需要在能耗和算力两者之间取得平衡。
为取得平衡,自研IP也成为必不可少的手段。那什么是芯片范畴的IP?
这里的IP,一般也称为IP核(Intellectual Property Core),是指芯片中具有独立功能的电路模块的成熟设计。
MariSilicon X的第一个自研IP是MariNeuro。姜波说,“目前有些公共IP,可以提供给NPU。但我们认为没有一个公共IP能根据场景和算法需求,达到我们认为的最优能耗效率平衡。因此我们选择自研IP。”
MariNeuro通过测试,可以看到,实际AI降噪算法的算力能使4K视频跑到40fps/秒(每秒传输帧数:Frames Per Second,视频入门fps是30帧/秒),功耗仅800mW。
作为对比,应用在OPPO Find X3 Pro上的AI降噪算法,其NPU能提供的有效算力仅能跑到2fps/秒,这意味着无法实现AI降噪的视频拍摄,同时功耗高达1.7W。应用自研IP“MariNeuro”后的NPU算力,是Find X3 Pro的20倍,功耗仅0.8W。
第二个自研IP被称为“MariLumi”。这个IP起的作用是HDR(高动态范围成像:High-Dynamic Range)Imager,最终输出的图像精度动态范围能达到20bit-120dB。
同样作为参照,最近高通发布的骁龙8旗舰5G SoC芯片和联发科新一代5G SoC旗舰芯片天玑9000的图像动态精度都是18bit(位深:Bit Depth:将模拟信号量化或将数字信号模拟化的设备的精度)。
数据120dB又是何意?
通俗来说,带有HDR的图片,达到这个数值,在暗光环境下(比如夜景或高亮光源附近),能高度还原拍摄对象(如人物面部或服饰颜色)各种细节,而不至于用算法(如多帧合成)补偿导致图片失真。同时,暗光拍摄的噪点控制更好,噪点更少,照片成像质量更高。
因此,OPPO应用自研IP“MariLumi”,能提高图片输出精度,在暗光背景下,图片细节还原度高,噪点少,分辨率高,同时占据的带宽更少。这个IP主要支撑“4K+20bit +Ultra HDR”技术能力。
姜波对华尔街见闻说,“跟目前芯片商旗舰通用SoC相比,(应用MariLumi后)图片动态范围(HDR)是其4倍。20bit-120dB动态范围,意味着对于一张图片而言,最暗和最亮部分相差100万倍,是目前业界顶级SoC成像质量的25万倍。”
MariSilicon X带有HDR AI降噪能力令人惊讶,但更重要的是,其所有复杂算法和运算都放在RAW域上,做的是实时RAW域(real time RAW processing)降噪处理。一般公共NPU做不到这一点,因为这样做需要极高的算力。
所谓图像降噪(Image Denoising),是指减少数字图像中噪声的过程,有时又称为图像去噪,目的是提高输出图像的成像质量。
图像从Sensor输出一个RAW信息,经过图像处理器转换成RGB,再转成YUV,每一步转换都有信息损耗,图像噪声更复杂,更难以处理,所以在图像处理器前端做去噪处理更合适。
比如OPPO Find X3 Pro的AI降噪算法放在了YUV上(大部分华为产品也是如此),但算力不够,因此只能做到18bit的HDR,同时AI成像有明显时延。
由于RAW的线性度和色彩更好,保留了更原始的丰富无损耗信息,因此MariSilicon X将AI算法前置到RAW域。但在RAW域做实时降噪处理,算法复杂度更高,硬件投入也相应更大。
这样的投入是否值得?姜波说,“OPPO在做投入时,唯一的考量是评估对消费者是否有价值。若有,则值得。”
这么做,对于消费者而言,有何体验上的提升?也就是用户价值是什么?
姜波说,“配备MariSilicon X方案,至少有8dB信噪比的增强,相当于有2.6倍的提升。同时,在4k场景下,图像亮部和暗部的增益不一样:亮部是8dB,暗部达到12dB,也就是说图像暗部的信噪比可以达到4倍的有效提升。”
有必要做个小结,RAW域处理是面向传感器输出最原始的数据,针对其加大算力。“通过对最原始数据做处理,才能达到最好的成像效果。”
因此,成像信号的传输路径,先是摄像头传感器(Sensor),再是MariSilicon X,最后是Soc环节。
这里涉及到MariSilicon X和SoC芯片的关系。
MariSilicon X是一颗独立芯片,解决了一些用SoC芯片解决不了的问题。通过跟SoC主芯片相互配合及对SoC成像能力的补充,最终达到了1+1>2的体验效果。
之所以能成为SoC芯片图形性能的增益独立单元,MariSilicon X的工艺制程才需要用台积电的EUV 6nm制程。
姜波说,“如果做完后发现还不如5nm SoC成像的整体效果,那加一颗芯片没有意义。同时,iPhone本身也是一个标杆,做出来远远不如他们,那也没有意义,这就丧失了我们做一颗芯片的初心和原点了。”
应当说,OPPO在提升成像质量道路上,不遗余力。那么OPPO追求的智能手机成像效果的标杆是什么?
通过自研独立计算影像NPU,OPPO希望最终能无限接近单反相机的成像质量。
实际上,目前绝大多数智能手机终端,在光线充足环境下的成像质量都比较高,但在暗光、夜晚强光源或光线受干扰度较大的场景下,成像质量做不到“所见即所得”。
比如在夜晚高亮的广告牌下拍摄人像,脸部和穿的深色衣服都拍不出来。但若终端配置了MariSilicon X,则这个问题就能解决。在逆光场景下,搭载MariSilicon X的智能手机,都能把所拍摄人物的脸部或服饰纹理、色彩等细节以及背景细节拍出来。
针对纹理细节处理,Pipeline通过超采样方式,提升了70%的成像解析力。
值得一提的是,OPPO研发MariSilicon X这颗独立NPU芯片,付出了高昂代价。首先是从2019年立项至今的两年时间,其次是规模千人的团队人力成本,第三,高达1亿元的流片费用(若流片失败,1亿元就打了水漂)。
综上所述,推出MariSilicon X并在2022年春季推出搭载此款NPU的旗舰智能手机,意味着OPPO成为少数拥有真正意义上重新设计影像全链路的终端厂商。
风险提示及免责条款 市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。