内刊访谈

[特别策划] 新型工业软件关键技术与发展路径分析

发表时间:2019-11-05 16:34:17

文/王晨 王建民
 

  王晨:清华大学大数据系统软件国家工程实验室总工程师、工业互联网产业联盟副秘书长

  王建民:电子科技委委员、清华大学软件学院院长
 

  提话:我国工业软件体系中不同领域发展现状与重要性存在差异,建议遵循大力发展新型工业软件、布局智能化升级软件、逐步追赶传统基础工业软件的分类施策原则,逐步缩小与世界先进国家的差距,努力在部分新型工业软件中实现“换道超车”。

  当前,伴随云计算、大数据、人工智能等新一代信息技术的飞速发展,全球主要国家掀起了新一轮以“信息技术与制造业融合”为共同特征的工业革命,以期抢占新一轮产业竞争的制高点,而新型工业软件作为新一轮工业革命的核心要素,更是受到了前所未有的重视。各制造业强国纷纷制定了战略性规划,例如美国的“先进制造领导战略”、德国的“工业4.0”和法国的“新工业战略”,以期借助新型工业软件的技术能力,促进人、机、物的全面互联,实现全要素、全产业链、全价值链的全面连接,进而推动工业生产制造和服务能力变革,形成新型支撑产业体系。党中央、国务院近年来也相继出台了一系列政策与措施,结合我国工业发展现状制定了相关顶层战略和发展规划,着力推动我国新型工业软件产业的创新发展,促进和助力工业企业实现数字化的转型和升级。
 

  新型工业软件的产生
 

  工业软件是工业技术和知识的软件程序化封装,支持制造业设计开发、生产制造、经营管理、运维服务等产品全生命周期和企业运行全过程集成及优化等业务场景。传统工业软件主要包含计算机辅助设计CAX/PLM等研发设计类软件、企业资源规划ERP等运营管理类软件、先进控制及制造执行系统MPM等生产控制类软件。

  随着新一代信息技术的不断涌现和发展成熟,工业软件企业一方面加速对传统工业软件进行云化、数字化和智能化的升级改造,从软件的分布式系统架构、数据分析处理能力、云化服务提供方式都发生了根本性的变化;另一方面,随着新一代信息技术在工业领域的落地生根,并通过与工业数据、工业知识、工业场景深度融合,如图1所示,相应地催生了工业互联网与智能制造等新形态工业体系下的工业互联网平台、工业大数据系统、工业智能APP等一系列的新型工业软件,进一步推动工业生产制造和服务能力朝着数字化、网络化、智能化转型,形成新型工业支撑软件产业体系。

图1 新一代信息技术与新型工业软件对应关系


 

  新型工业软件面临的技术挑战
 

  新一代信息技术在工业领域的落地过程中,需要实现从通用软件技术向特定领域的转变与融合,如下三方面的挑战凸显:1)易用性。工业领域不同于IT行业、金融和电信等信息化程度较高的行业,如何让设计专家、工艺人员、设备维护工程师等能够简单易用地对系统进行开发和操作;2)高效性。工业领域的数据有着自身独特的数据类型、特性和使用方式,如何高效的对这些数据进行全生命周期管理和使用;3)专业性。工业领域本身富含大量的专业知识、机理模型和专业化软件,其使用中有着特定的使用方式、通信接口、数据格式与权限管理方法,IT技术如何与这些领域模型和软件进行融合。

  除了上述共性挑战,工业大数据系统、工业智能APP、工业互联网平台中还存在各自的挑战和难题。

  1、工业大数据系统与工业智能APP

  随着工业系统具有更强的数据采集能力、更大范围的网络连接与数据集成能力,工业大数据系统需要能够高效地获取、存储、管理并治理来自信息化系统的结构化数据和非结构化数据、设备与自动化系统的时间序列数据,以及来自于产业链外部企业与互联网的各类数据,并支撑各类智能化应用的分析建模。工业智能APP是面向实际工业场景,将人工智能等技术通过大数据分析的手段运用于解决具体问题,例如零备件库存预测、设备故障预警、质量溯因分析等。工业大数据系统与工业智能APP是工业大数据全生命周期处理的软件载体。

 

  图2 工业大数据生命周期

  工业大数据处理的过程涉及多个不同阶段,如图2所示。大数据生命周期的主要环节如图2的上半部分所示,图2的下半部分是在大数据应用中所要考虑的非功能性要求,这些需求使得分析任务具有极大的挑战性。结合工业大数据的数据特点和应用特性,其分生命阶段的技术挑战可以归纳为:在数据获取、记录阶段主要需要解决的“高通量数据的写入技术”;在抽取、清洗、注释阶段应着重关注的“低质量数据的处理技术”;在集成、聚集、表达阶段亟需突破的“多模态数据的管理技术”;在分析、建模和阐释阶段构建智能APP最重要的“强机理业务的分析技术”。

  (1)高通量数据的写入技术

  在越来越多工业信息化系统以外的数据被引入大数据系统的情况下,特别是针对传感器产生的海量时间序列数据,一个装备制造企业同时接入的设备数量可达数十万台,数据的写入吞吐达到了百万数据点/秒~千万数据点/秒,大数据平台需要具备与实时数据库一样的数据写入能力。考虑到大数据平台要对数据进行长时间存储,其高效的数据编码压缩方法以及低成本的分布式扩展能力也是重要的挑战。另一方面,数据在使用上不仅是对数据在时间维度进行简单的回放,而且对于多条件复杂查询以及分析性查询也有着极高的要求。因此,针对数据写入面临的挑战,工业大数据平台需要同时考虑面向查询优化的数据组织和索引结构,并在数据写入过程中进行一定的辅助数据结构预计算,实现读写协同优化的高通量数据写入。

  (2)低质量数据的处理技术

  “大数据分析”期待利用数据规模弥补数据的低质量。由于工业数据中的变量代表着明确的物理含义,低质量数据会改变不同变量之间的函数关系,给工业大数据分析带来灾难性的影响。但事实上制造业企业的信息系统数据质量仍然存在大量的问题,例如ERP系统中物料存在的“一物多码”问题。物联网的数据质量也堪忧,无效工况、重名工况、时标错误、时标不齐等数据质量问题在很多真实案例中可达30%以上。这些数据质量问题都大大限制了对数据的深入分析,因而需要在数据分析工作之前进行系统的数据治理。工业应用中因为技术可行性、实施成本等原因,很多关键的量没有被测量、没有被充分测量(时间/空间采样不够、存在缺失等)、或者没有被精确测量(数值精度低),这就要求分析算法能够在“不完备”、“不完美”、“不精准”的数据条件下工作。

  (3)多模态数据的管理技术

  各种工业场景中存在大量多源异构数据,例如结构化业务数据、时序的设备监测数据、非结构化工程数据等。每一类型数据都需要高效的存储管理方法与异构的存储引擎,但现有大数据技术难以满足全部要求。以非结构化工程数据为例,特别是对海量设计文件、仿真文件、图片、文档等小文件,需要按产品生命周期、项目、BOM结构等多种维度进行灵活有效的组织和查询,同时需要对数据进行批量分析、建模,对于分布式文件系统和对象存储系统均存在技术盲点。另外从使用角度上,异构数据需要从数据模型和查询接口方面实现一体化的管理。例如,在物联网数据分析中,需要大量关联传感器部署信息等静态数据,而此类操作通常需要将时间序列数据与结构化数据进行跨库连接,因而需要针对多模态工业大数据的一体化查询协同进行优化。

  (4)强机理业务的分析技术

  工业过程通常是基于“强机理”的可控过程,存在大量理论模型,刻画了现实世界中的物理、化学、生化等动态过程。另外,也存在着很多的闭环控制/调节逻辑,让过程朝着设计的目标逼近。在传统的数据分析技术上,很少考虑机理模型(完全是数据驱动),也很少考虑闭环控制逻辑的存在。强机理对分析技术的挑战主要体现在三个方面:1)机理模型的融合机制,如何将机理模型引入到数据模型(比如机理模型为分析模型提供关键特征,分析模型做机理模型的后处理或多模型集合预测)或者将数据模型输入到机理模型(提供parameter calibration);2)计算模式上融合,机理模型通常是计算密集型(CPU多核或计算cluster并行化)或内存密集型(GPU并行化),而数据分析通常是I/O密集型(采用Map-reduce、parameter server等机制),二者的计算瓶颈不同,分析算法甚至分析软件需要特别的考虑;3)与领域专家经验知识的融合方法,需要突破现有生产技术人员的知识盲点,实现过程痕迹的可视化,对于物理过程环节重视知识的“自动化”,而不是知识的“发现”,同时借助大数据建模工具提供的典型时空模式描述与识别技术,对知识进行形式化建模和系统化管理,并在海量历史数据上进行验证和优化。

  2、工业互联网平台

  工业互联网平台是面向制造业数字化、网络化、智能化需求,构建基于海量数据采集、汇聚、分析的服务体系,支撑制造资源泛在连接、弹性供给、高效配置的工业云平台,并支持在云平台之上通过打造大量的工业APP,使应用服务更加灵活敏捷。如图1所示,除了工业大数据系统以外,在工业PaaS中还有两部分重要的组件与工具,应用开发环境(开发工具)与服务构建、管理环境(工业微服务组件库),面对工业领域的需求其技术仍然处于发展初期,预计还需要很长时间才能真正达到成熟发展阶段。另一方面,由于工业互联网自身业务上在产业链协同与延伸的需求,大量数据、模型、应用的安全交换、共享和迁移也成为了技术瓶颈。

  (1)组态式低代码开发技术

  我国工业互联网平台整体还处于发展的初级阶段,平台功能缺失、支撑能力不足,缺乏具有一站式、可配置、低码量、敏捷性等特点的通用平台。长期以来,工业场景中常将操作为核心的终端自动化和以信息为核心的云端信息化建设割裂考虑,导致工业企业人员在信息技术层面上的技能储备严重不足,同时懂业务、懂数据、懂开发的复合性人才急缺,且随着云计算、大数据技术和移动互联网的普及,更进一步加剧了工业企业实现数字化转型的人才缺口。例如,有经验的自动化工程师很难实现基于云计算技术的信息化应用,而在成套的工程机械、机器人、工业控制应用开发时,需要具有全技术栈工作能力的软件工程师,实现面向企业的定制化开发,而具有此能力的软件工程师不仅极为紧缺而且用人成本极高。这就需要通过组态式低代码量开发技术,将复杂的IT技术栈封装起来面向交互和数据两个维度,通过可配置方式提升终端工程师开发效率,优化信息系统开发的成本结构,同时提升系统交付的速度和质量。

  (2)透明化数据服务构建技术

  无论是工业大数据系统底层的异构大数据组件、复杂的数据模型还是各类面向领域的行业模型,工业用户在进行开发时都需要通过数据与分析服务层来屏蔽系统底层的复杂性,提供一个完整的服务资源库和一套统一的服务化接口供应用开发使用,从而完成对底层数据资源、模型资源和计算能力的调用。这一方面需要解决设计时从数据源、数据集再到数据服务的数据处理过程的可视化编排,更需要解决运行时数据处理任务中异构数据抽取、读取、变换、集成全过程在大数据平台上的分布式高效执行。系统底层的数据结构、分析模型可能由于各种原因发生变化,例如改变传感器带着来的数据字段增减、模型重命名等,但对于应用层由于要保证服务接口和功能的稳定,相比于现在只能通过大量手工修改代码,这就更需要能够实现服务变动的自动发现与自动构造、服务组合与编排时的自动异常发现与符合性检查等技术。

  (3)安全的跨平台协同技术

  无论是个性化定制、网络化协同还是服务化延伸等工业互联网的新模式,都需要工业互联网平台能够提供跨部门、跨企业、跨产业链和跨工业互联网平台的数据交换能力、服务分享能力和应用迁移能力,这需要平台提供安全的协同能力,具体表现在三个方面:1)在数据交换方面确保数据可以被安全的使用,这就需要研发针对工业数据的数据隐私保护或数字水印的方法对数据加以扰动,在确保数据可用性的情况下,隐藏关键信息或者是可以追溯数据的分享使用行为;2)在服务分享方面可以保证服务被合法调用,同时避免对系统性能的负面影响,因此服务的有效资源隔离调度技术和细粒度的服务安全性审查与访问控制技术成为了关键;3)在应用迁移方面需要考虑平台的兼容性,因为大量的工业互联网应用都依赖于工业互联网平台自身的数据和服务,服务接口的兼容性和可适配性成为工业互联网应用生态的一个核心问题。
 

  我国新型工业软件的发展机遇与路径
 

  从技术上来看,我国在新型工业软件上同国际竞争对手,例如GE Predix、西门子MindSphere等几乎同时起步,差距并不明显。虽然在涉及传统工业核心软件和工业机理方面还有所欠缺,但在中国的企业数字化体系建设实践中局部技术甚至领先。从商业模式上来看,数据科学与模型化技术赋能新型工业软件,工业APP成为新型形态,订阅模式脱颖而出,这一方面破解了多年来盗版对工业软件行业的冲击,另一方面,由于工业APP本身的小巧性和工业互联网平台的累积效应,更有利于我国工业领域的知识沉淀与技术溢出。

  紧密围绕制造强国建设目标,针对我国传统工业软件的现状与问题,结合新型工业软件的发展趋势与全球竞争态势,发挥我国作为工业软件的最大单一市场的优势,拟采用“补齐短板,争夺高端;产用融合,需求牵引;构建生态,多方协同”的发展路径。

  补齐短板,争夺高端:新型工业软件的发展依然无法摆脱对传统工业软件的依赖,针对可能被“卡脖子”的三维几何引擎、求解器等工业软件的共性关键核心技术、存在短板的工业软件技术与产品,通过国家层面长期大力投入,集中力量开展攻关,力争取得突破,实现国产替代;重视实验、机理与建模的研究,持续强化相关基础性、前沿性技术研发,力争在高端工业软件领域占有一席之地。

  产用融合,需求牵引:随着中国制造业的不断发展,企业逐渐实现数字化转型和升级,局部的技术积累渐渐溢出,这将反过来促进国产新型工业软件的发展。坚持软件是用出来的理念,结合重大工程需求,在完成重大工程研发任务的同时,研发专业化工业模型并沉淀于新型工业软件;强化新型工业软件与工程需求、制造技术、业务过程的融合,通过制度保障等形式推广国产软件在大中型企业中的应用,实现协同发展。

  构建生态,多方协同:大数据、云计算、人工智能等技术国际上普遍采取开放源代码的方式,依靠开源社区进行迭代,其复杂度和多年技术积累形成的壁垒很难依靠单一厂商自我研发实现突破。通过开源软件方式,建立软件开发者社区生态,通过开放创新的机制将更多的开发资源和用户资源都纳入到产品的创新体系中。鼓励企业围绕新型工业软件创新链与产业链,聚焦重点、分工协作,建立中国自己的开源软件社区,构建产、学、研、用的生态系统,引导建立相应的应用生态体系。