10月25日至27日,以“大数据推动数字经济”为主题的“2018中国计算机大会”(CNCC2018)在杭州国际博览中心(G20会场)隆重举行。作为中国计算机领域规模最大、最好的学术、技术、产业交流盛会,本届大会吸引了图灵奖得主、美国工程院院士、中国科学院、清华大学、北京大学、东京大学、微软、谷歌、阿里、头条新闻等众多信息技术领域的知名人士和大学企业。超过7500名与会者刷新了CNCC15年来的最高纪录。

图灵奖获得者、美国计算机科学家罗伯特·卡恩(Robert E. Kahn)在25日下午的硬件安全论坛上,中国科学院计算研究所研究员兼中国计算机公司首席执行官严贵海(音译)发表了题为“软件定义架构与计算架构安全属性的设计权衡”的文章。香港科技大学工程系主任陈郑明先生、马里兰大学电脑工程系教授曲刚先生及香港中文大学计算机科学与工程系副教授徐强先生分享主题,并参加名为“从硬体安全到资讯系统安全:过去、现在与未来”的圆桌会议。

中国科学院计算研究所研究员表示,共享半导体芯片的“摩尔定律”已经接近尾声,但“数据摩尔定律”严贵海提出“摩尔定律”,自1965年英特尔创始人戈登摩尔以来,芯片的计算能力以每18个月的速度增长一倍。这些贡献既来自流程的进步,也来自架构的持续创新。芯片制造工艺进步的巨大贡献体现在对架构进行很少的改变,仅通过使用更复杂的半导体工艺就能带来显着的性能提升。另一方面,更密集、更便宜的片上资源(如晶体管和互连)为架构设计开辟了更多可能性。然而,随着这个过程接近一定的物理极限,摩尔定律的失败是不可避免的。数据显示,过去三年芯片晶体管密度年均增长率仅为3.5%,似乎与原来“工艺架构”的“双轮驱动”发展模式不平衡。事实上,早在2005年,单处理器内核能效比的提高就遇到了困难,多核处理器架构的发展也在进行中。在这个相对直接的进化过程中,许多并行应用程序直接受益,但也有许多应用程序的性能没有因多核处理器的使用而得到改善,特别是那些没有“明确”并行性的应用程序,使得并行编译优化变得困难。半导体芯片的“摩尔定律”即将结束,而“数据摩尔定律”才刚刚开始。根据美国《新兴技术趋势2016-2045》,全球数据量自2015年以来每两年翻一番。随着应用领域的不断创新和数据的指数级增长,特别是人工智能、区块链、边缘计算等技术对计算能力的需求不断增加,对传统通用计算的依赖将难以有效地继续下去,专用计算架构将发挥重要作用。在许多领域,有足够的市场容量来支持专用架构的开发和应用。例如,一些预测预测,“人工智能”和“区块链”等热门领域将托管一个万亿美元的市场。尽管特殊计算架构的“开花”、“高性能”、“通用性”是不相容的,但“目前,面向特殊计算的架构研究仍处于一个“开花”的时期,从FPGA、ASIC等具体基础实现的讨论,到硬件和硬件架构,如ISA指令集扩展等。专用加速系统的设计方法也远未达到统一的公式。虽然图形处理器(GPU)、视频处理器(VPU)、运动增强处理器(MPU)和音频处理器(APU)等与多媒体编码和解码相关的协处理器被广泛使用,但在一些基础行业数据分析和一些业务数据呈爆炸性增长的行业中,它们并没有得到足够的重视。计算能力问题仍然是“需要解决的”。

以近年来流行的“深度学习”为例,人工智能开放组织OpenAI今年5月发布的分析显示,自2012年以来,由于数据红利和深度学习训练,对计算能力的需求增长了30多万倍。正如你所看到的,几乎所有的互联网巨头都用通用处理器和特定的应用加速协处理器来补充标准服务器CPU,以处理大量数据。例如,微软使用FPGA来加速Bing搜索引擎,谷歌开发了TPU来加速神经网络推理,阿里巴巴拥有FPGA硬件团队来加速特定的计算负载。但是,面对应用程序的多样性和数据的复杂性,“高性能”和“多功能”始终是“不可能的”。一方面是巨大的硬件软件研发“全栈”;另一方面,大多数企业仍然别无选择,一些资深行业人士发现,开放“全栈”研发底层基础硬件架构和上层应用,定制不同多样的解决方案。但目前,除了资本和技术巨头,除了不断投入研发与应用程序和数据处理加速器相匹配,大多数企业仍然只能选择各种通用CPU作为核心服务器。即使利用率低,购买和使用成本高,您也别无选择。这是因为定制的专用计算体系结构具有较高的技术门槛。即使是基于以可编程性和灵活性著称的FPGA解决方案,由于大多数企业的研发能力都很难探索计算架构的水平,这是以牺牲一些性能为代价的。你不能从根本上优化你的解决方案,以有效地满足你对“计算能力”的需求。对于个别企业来说,建立专门的结构性研发团队,由于缺乏规模效应、研发周期长、技术困难、成本高等因素,实际上会带来很大的风险。因此,当前计算架构的创新都是针对许多公司所面临的核心问题。它使用高效的专用计算架构,大大提高了企业的数据处理能力,更好地支持现有业务的运营,并为企业构建数据驱动的创新提供计算能力保证。为了利用既专用又灵活的软件定义架构,使整体计算效率提高100倍,作为中国科学院计算技术研究所的多个中学本科生,为了有效地解决特定领域的海量数据处理问题,创新地运用软件定义加速器技术路线,从底层核心技术出发。以专用芯片架构为核心,实现软件与软件协作的高效解决方案。该公司的专有技术KPUTM(核心处理器,已申请)是一种协处理器,旨在加速特定区域核心功能的计算。 KPUTM以功能核心为基本单位,对应用中的计算密集型应用进行直接抽象化和高层次集成,实现以应用为中心的架构“定制”。KPUTM可以根据需要集成数十个甚至数百个功能核心。

设计新型协处理器的原创技术--KPU不同于传统的基于冯·诺依曼结构的控制流计算模型,KPUTM的每个功能核心都是专门针对特定功能计算定制的,CPU、GPU、NPU大规模同质化核心则不同。通过数据驱动计算,不仅实现超大规模并行计算,而且实现了真正意义上的多指令多数据处理模式。与FPGA电路层改造的性能牺牲不同,KPUTM的核心技术是功能核心层,以编译器形式内置的功能核心,实现了领域内硬件的统一,降低了规模受限的硬件成本和设计周期;通过软件编程可以实现不同功能的计算,特定需求只需要增加或减少功能核心的种类和数量。在整体计算效率提高100倍的前提下,它具有非常高的可扩展性和灵活性。从某种意义上说,KPUTM技术路线突破了传统的“性能”和“通用性”无法并存的设计极限,具有广阔的应用前景。达卡评价:已经明了,把握平衡,选择准着地,论坛结束后,关于KPU也教了CNCC的香港科技大学工程学院,IEEE Fellow,Cheng教授。程教授早年在贝尔实验室工作,创建了UCSB计算机工程系,并担任研究副总裁。

论坛结束后,程教授、燕贵海和KPUTim认为,当前计算能力需求的爆发性趋势很明显,DSA(领域特定架构领域的专用架构)是能够突破计算能力瓶颈的方向。它的优点是优化了特定领域的计算任务,可以大大提高计算能力,但市场需求不如通用处理器那么大,需要平衡DSA的开发成本和现场需求量。KPU基于软件定义体系结构(SDA)方法设计,解决了DSA设计成本问题,大大降低了DSA开发成本,并大大增加了DSA的使用空间。此外,我同意Tim是Fintech领域开发KPU的第一个选择。Tim认为,金融计算市场仍然很大,负载有其自身的特殊性,更适合DSA应用场景。与此同时,蒂姆表示,DSA的方向是一项有着非常广阔前景的长期业务,能够支持该国“科技金融”的长期战略。