墨奇智能指掌纹系统的精准度高不高?
机器之心报道
机器之心Pro
11 月 29 日晚间,机器之心举办「智周洞察 · 可信 AI」:隐私保护增强的新一代生物识别技术线上研讨会。中国信通院云大所石霖主任、上海交通大学郁昱教授、墨奇科技汤林鹏、天壤韩定一四位嘉宾从学术研究、技术实现、应用挑战及安全合规四个角度共同探讨可信生物识别。
生物识别既是重要的模式识别和计算机视觉学科前沿方向,也是人工智能技术应用落地较早的方向之一。随着发展可信 AI 的全球共识的逐步深化,提高系统的隐私保护能力成为世界各国技术治理最为关注的方面之一。
近几年,学界、业界的科研人员纷纷提出了各种潜在技术路线及解决方案。随着《中华人民共和国数据安全法》及《中华人民共和国个人信息保护法》的施行启动,市场对升级技术,采用新一代具有隐私保护增强能力的生物识别系统的需求升温。相应的,构建新一代可信 AI 系统能力的生物识别技术的研发热度也在上升。
11 月 29 日晚间,机器之心举办「智周洞察 · 可信 AI」:隐私保护增强的新一代生物识别技术线上研讨会。本次线上研讨设置了 “主题分享” 与“趋势圆桌”两个环节,邀请了中国信通院云大所石霖主任、上海交通大学郁昱教授、墨奇科技汤林鹏、天壤韩定一四位嘉宾从学术研究、技术实现、应用挑战及安全合规四个角度共同探讨可信生物识别。
基于格的模糊提取器解决雪崩效应,实现哈希函数在生物特征识别的应用
在分享环节,郁昱教授以《基于格的模糊提取器与隐私保护生物识别应用》为主题,从密码学的角度探讨了生物识别领域的隐私增强技术,同时分享了他在相关领域中最新的工作。
基于生物特征的认证方式已存在广泛的应用。以人脸识别为例,该技术在如手机解锁、刷脸支付、机场 / 门禁等场景均有应用。相应的,对于人脸数据的收集和滥用等现象也在近期引起了海内外的大量关注。郁昱教授表示:“对人脸的滥用没有办法从技术角度去解决,但人脸模板的安全存储的确是一个技术的议题。我们可以在技术层面通过密码学,或是其他手段将它泄露的风险降低,做到最小化。”
在人脸识别的过程中,我们会先对人脸进行拍摄,并通过模型将人脸部分进行提取(extracted face),然后将其转化成一个特征向量(feature vector),从而形成一个人脸的模板(template)存储于数据库(template database)中。此外,我们可以通过多次采集或尽可能地减小噪声,为保证后续更大化的识别率做准备。后续的每次刷脸会经过同样的流程,得到另外一份特征向量,并与数据库中的模板进行匹配,从而判断识别对象的身份。
然而,近几年的研究证明,将人脸通过某种模型转换成特征向量虽然是一个有损的过程,但它并非是不可逆的过程,我们仍然可以从特征向量中恢复人脸的部分,甚至大部分的信息。因此,我们当前的目标是,如何在人脸模板数据实现隐私保护存储的前提下,实现尽可能高的人脸识别准确率。
我们借鉴了传统网站利用哈希函数对口令进行保护的模式。通过对口令进行哈希转化,对其进行“加盐(salting)”,转化为一个哈希值(或摘要值)进行存储;在进一步比对的过程中,将用户输入的口令进行同样的哈希转化。由此,我们只需比对两个哈希值,便可确认密码口令的正确与否,即便有人窃取了所有口令的哈希值,也难以还原出用户的原密码。(除非口令的熵或是空间过小,可以被穷举法推理)。
然而,由于人脸噪声的特性,每次人脸识别所形成的特征向量均会有微小的差异,而哈希函数存在一种“雪崩效应”(当有任何两个输入,只要有一个比特的不同,其表现的哈希值的差异是完全随机的),因此将传统的哈希函数直接应用到人脸识别领域基本不可能。
针对上述问题,Dodis 等密码学家于 2004 年提出了 “模糊提取器(Fuzzy Extractor)” 技术。通过算法从特征向量中提取一个随机数,作为认证的帮助信息。后续在刷脸的时候则可以由此帮助信息协助纠错,将特征向量精准还原为之一次注册的情况,实现匹配。通过结合哈希函数和模糊提取器,我们就得到了一个能够容忍一定噪声的,基于生物特征的,安全存储的人脸识别解决方案。
只是十几年前的模糊提取器大多被设计为面向比特的(hamming metric),其讨论的向量属于汉明距离的相近,而人脸的特征向量则是实数向量,因此传统的模糊提取器技术无法直接适配人脸,或是其他生物特征识别。
为此,郁昱教授提出了基于格的模糊提取器(Lattice Based Fuzzy Extractor),通过近似二范数来衡量两个向量是否相近的标准。针对人脸识别应用,郁昱教授的团队基于 E8 和 Leech 分别形成了解决方案,实现更高 45 比特的安全性。
举例来说,45 比特的安全性大致可以做到攻击者尝试一次,成功率是 2 的 - 45 次方。假设在 PC 端每计算一次重量级哈西需要 1 秒,那么在这里做一个尝试就是 2 的 45 次方秒,相当于 100 多万年,因而实际上达到可接受的一个安全性。
以指掌纹入手,构建精准可靠、主动便捷、保护隐私的新一代生物识别
墨奇科技联合创始人及 CTO 汤林鹏博士以 “精准可靠、主动便捷、保护隐私的新一代生物识别” 为主题,讨论了新一代生物识别所应具备的特性,同时分享了墨奇科技在加强生物识别技术隐私保护能力的一系列工作。
汤博士表示,生物识别的应用在 AI 时代呈现大爆发的一个趋势,同时很好地起到了连接数字世界和物理世界的基石的作用。但这项技术同样带来了隐私安全方面的担忧。因为生物特征终身不变,与人身是强绑定,一旦泄露会引发极大的安全隐患。相较于密码可以修改,生物特征泄露就无法挽回。
汤博士总结了三点面向未来的新一代生物识别技术应当具备的特征,即:精准可靠、主动便捷以及保护隐私,并分享墨奇以指掌纹和静脉识别作为主攻方向,围绕上述三个特征的一系列工作。
在精准可靠方面,汤博士指出,指掌纹和静脉作为生物特征具备多尺度、信息分布丰富的特点,且精度很高,同时作为活体这一难以盗取的特性,具备高隐私性。在他看来,新一代生物识别至少需要解决 10 亿级别的高精度、高性能的挑战。
生物识别技术的验证模式基本分为 1:1 和 1:N 两种。前者常见于家居场景,如指纹锁、人脸锁等,其规模较小,验证容易。真正困难的是 1:N 的验证。因为当 N 的规模达到 10 亿级别,如支付、智慧城市等场景,生物识别系统的错比率会直接影响系统的可用性。
而目前主流的基于深度学习图像搜索的方案存在一些缺陷,如需要海量的数据,对遮挡、光照等复杂环境较为敏感等,且在复杂环境下的精度会出现大幅的下降。墨奇科技构建了一套基于向量和图的多尺度表示,对图像做了更搜索友好的特征表示。通过对图像从整体到局部进行多尺度的刻画,拥有的信息量会比单一尺度的向量获得若干数量级的提升。
基于向量和纯深度学习的 *** 需要海量数据,而数据往往难以获得,获得的过程也可能是对公民隐私的侵犯。墨奇科技因此开发了小样本自学习框架。在基于多尺度的图的表示下,单张图像训练信号极大的丰富,做到无标注和小样本学习。基于核心技术突破,墨奇科技是全球率先能够在 20 亿量级的指掌纹识别上达到秒级、高精度、无标注自动化比对的公司。
在主动便捷方面,汤博士表示,针对生物识别的便捷性,传统指掌纹验证需要按手机,接触按指纹采集器等,在疫情的影响下尤为不便。墨奇基于高精度三维结构光和光学上的一系列设计优化,实现非接触的指掌纹采集。用户可通过伸手或挥手完成采集,避免接触式采集的感染风险和消毒等不便,也支持利用手机后置摄像头采集,应用范围更加广泛。同时,采集过程需要用户主动确认、知情,因此更加保护隐私。
谈及生物识别系统在保护隐私方面的技术特征与实现,汤博士表示他与郁昱教授的观点相近,墨奇科技希望从数学可证明的形式,对生物特征进行变化,满足不可逆、可撤销、不可关联等种种特性。由此,系统平台中仅需要保存变换后的特征,不需要保存原始特征,实现保护隐私的比对,让生物识别变得像密码一样去使用。
汤博士比喻道:“像是把原始的生物特征锁在一个保险箱里。这个保险箱在设计的时候就有强密码学的保护,只有用正确的生物特征才能够打开,如果说泄露了,攻击者也无法盗取原始的生物特征。”
由于传统的哈希加密 *** 不能适应于生物识别,墨奇的核心思想借鉴了通信领域的错误纠正码,通过里德 - 所罗门码将生物特征进行编码。以指纹举例,构建多尺度特征点,通过对其进行编码,因为编码数据存在冗余,从而可以容忍一定程度的信息丢失或者信息错位,但依然能够恢复出正确的参数。
上述 *** 形成的多项式依然有可能被攻击。对于如何实现把信息进行隐藏,墨奇科技的 *** 是在有效多项式内加入一定量的噪声,从而保护原有生物特征。由此,攻击者看到的只是杂乱无章,有真有假的特征点,破解工作相当于解一个 NP-Hard 的数学问题 - 多项式还原问题,即便使用量子计算机也十分困难。
总体而言,上述解决方案的核心思想可以总结为:通过多尺度图像表示和密码学结合来保护生物特征,从而保护了系统安全和用户隐私,实现可信的生物识别。
做好人脸识别安全、合规是不可突破的原则底线
中国信通院云大所石霖主任以 “走进中国信通院“护脸计划”:打造人脸识别安全合规的产业生态” 为题,分享了中国信通院《可信人脸应用守护计划》的一系列工作与成果。
石霖主任表示,我们目前处于一个数字经济的时代,而人脸识别作为人工智能的典型应用,同时也是技术成熟度更高,应用范围最广的技术领域,也是数字经济的一个典型的代表。我们可以看到人脸识别已率先实现商业化, 并已经形成了相对成熟的产业链,赋能了金融、安防等传统领域以及刷脸认证、移动支付等场景。
据相关资料显示,人脸识别的产业规模正在持续扩大。中国人脸识别产业规模正在保持 30% 左右的增速持续扩张,预计在 2024 年市场规模将突破百亿元人民币。在此趋势下,人脸识别的安全问题和合规问题逐渐暴露,成为社会关注的焦点。
对于人脸识别的安全与合规问题,石霖主任表示,在安全层面,人脸识别系统作为信息系统,必然存在一些安全的漏洞。由于人脸识别会被作为身份核验等关键组件或者功能被集成在信息系统或者 APP 中,因此也时常被黑灰产关注。比如通过呈现攻击,有黑客通过公开或泄露的人脸信息或个人图片,利用深度伪造等技术来突破人脸识别系统。此外还有还有不法分子通过注入攻击破坏 APP 的完整性来实现攻击的目的。
在合规层面,石霖主任表示,人脸信息属于敏感的个人信息。而通过对人脸的分析可以关联出我们的身份,年龄、喜好等等。因此有商家会进行不法利用,如通对人脸分析顾客特征,实现商业目的,或是超授权使用人脸数据等。这些都涉及到合规的问题。同时,对于人脸数据的采集,收集存储,以及合法性必要性是否符合类似最小必要原则等,都是目前我们面临的合规风险。
总体来看,做好人脸识别的安全、合规是一个非常复杂,且非常系统性的一项工程。国家也出台了如《民法典》《个人信息保护法》《 *** 安全法》《数据安全法》等相关法律。由此看来,“做好人脸识别安全、合规是不可突破的原则底线” 。
石霖主任表示,今年 4 月份,中国信通院云大所正式发起成立了可信人脸应用守护计划,希望能够在国家相关法律和政策的指引下,联合从事人脸识别应用研发的厂商及科研机构,共同探索人脸识别面临的安全和合规的风险;共同摸索出一套可信应用的范式,推动产业的健康发展。
同时,石霖主任分享了护脸计划正在推动的一系列工作:
一、 编制了《人脸识别系统通用可信能力要求》。护脸计划将人脸识别目前面临的典型攻击手段和场景进行分级。按照相应的实现难度高低,以及攻击存在的风险的高低进行五个级别的划分。
二、 正在编制《人脸信息处理合规操作指南》,全面梳理涉及到人脸信息相关的法律法规和司法解释等。
三、 开展人脸识别安全评估能力建设工作,依托工信部人工智能关键技术与应用评测实验室,全面收集和研究了市面上典型和主流的攻击 *** 。同时具备复现能力,可以帮助测试人脸识别系统的安全性。
四、组建 “可信人脸应用守护计划” 专家委员会。
此外,石霖主任分享了互联计划目前正在推动的第二批人脸识别安全评估工作,具体内容包含:针对技术提供方的安全能力评估服务;针对技术应用方的安全风险评估服务;个人信息(人脸)保护影响评估;个人信息(人脸)保护能力评估;以及针对人脸识别系统可信研发管理评估服务。
构建隐私保护强化的生物识别系统,平衡安全性与可用性是主要课题
在趋势圆桌环节,郁昱教授、汤林鹏博士、石霖主任以及特邀圆桌嘉宾韩定一博士围绕 “生物识别隐私保护增强技术实践趋势与产业应用所面临的挑战” 的主题进行了一系列话题的探讨。以下为部分精选 QA,完整内容可通过机动组视频号回顾了解。
问:人脸识别技术应用近些年一直在高速增长,是否有什么特别的契机推动了信通院云大所选择在今年启动 "护脸计划"?
石霖主任:中国信通院的定位是国家专业智库和产业创新平台,也就是说我们既支撑 *** ,又服务产业。而近年来人工智能相关的技术落地所造成的信任危机,促使世界各国都采取了一些措施。对应的,信通院也是围绕人工智能的问题,提出了可信人工智能的一套思路,其实属于 “顶天” 的工作,包括发布《可信 AI 操作指引》,以及《可信人工智能白皮书》等,但依然需要去做一些 “立地” 的工作。我们也特别发现在人脸识别这个细分领域在近两年频频爆发一些问题,因此我们在今年年初经过大量的研究分析,针对人脸识别和安全合规的问题开创了护脸计划,总体来看是水到渠成的,顺势而为的工作。
问:可否请您谈谈在过去项目中,遇到的在应用生物识别技术时遇到的需要进行隐私保护增强的场景?当时遇到的主要技术挑战是什么?
韩定一博士:最重要的场景应该就是一些用户身份的认证。首先是互联网企业,他们的用户规模都很大,有好几亿,因此一个系统通常要做到十亿规模的身份认证,这种情况下单一的生物体特征识别未必能做到那么高精度。所以可能要想一些其他 *** 来结合应用。这是之一个技术挑战
第二点是用户在认证的时候,如何识别活体,或是如何确保活体信息集成进来?现在的人脸识别会让用户张嘴,转头,眨眼等,或是让手机发出彩色的光,但是体验未必好。毕竟未必所有场景都能做出这些动作。
第三点,是生物采集的设备问题。很多系统会用特定型号的传感设备来做验证,这个时候对硬件的要求是很高的。而在跨越不同的传感设备时,系统的验证能力会被削弱,在一些极端环境下人脸检测未必能做的非常好。这种情况就会涉及到如何解决验证的问题。
最后是在城市场景会遇到的特殊情况,我们会遇到一些应用需要跨 *** 甚至跨系统,相当于不同系统要对不同人的身份做验证,同时还需要打通流程。那这些系统之间如何进行一种可信的机制的这种传递或者是在不同 *** 之间去传递这样的东西都是我们遇到的一些技术上的挑战。
问:目前学术界在生物识别技术隐私保护方面的主要研究方向有哪些?可否请您简要介绍一下这些研究方向以及相应的优缺点?
郁昱教授:从密码学的技术来说,除了模糊提取器以外,还有安全多方计算技术。理论上,如果不考虑通讯复杂度,安全多方计算也可以应用在生物识别技术的隐私保护。但它们会有一些其他问题,比如在服务器端,我们只需通过安全双方计算,来计算两个特征向量的匹配度是否小于某个阈值的方式来进行验证。但由于服务器端是以明文存储,安全多方计算并不要求数据加密,因此这种技术路线虽然解决了安全通讯协议问题,仍然存在存储的问题没有解决。如果对口令进行加密,这时候使用安全多方计算又涉及到密钥管理的问题,因此这种技术路线理论上可行,但不是那么理想。
另一种解决方案是同态加密。这个时候服务器端的模板可能加密的。加密的时候,当有一个新的人脸的特征向量进来以后,我们可以把新的人脸的特征向量和原来的特征向量进行比对,在同态的状态下进行,最后得到一个同态的结果,因此结果也是加密的状态。理论上这个方案也可以做,但最终结果依然需要解密,也会带来密钥管理的一些挑战。
问:请问团队在提高生物识别应用隐私保护能力的实践中,都遇到过哪些工程与技术上的挑战?例如更大的计算量带来的系统性能问题? 安全性能的证明问题?
汤林鹏博士:挑战方面,我们需要做各种密码学的编码解码,比方说我们要引入很多额外的噪声,它其实对于编码解码的性能会有很大的影响。所以我们要做很多算法系统上的加速,包括要额外的设计一些其他的机制来既保证安全,又保证性能。
然后另外整个生物识别系统当中,我们发现的一个核心挑战就是它的可用性和安全性之间的平衡。我们希望保证用户的可用性高,但是又希望达到数学上可证明的安全性。在这种情况下,如何达到真正强密码意义上的安全性,也会给我们提出更多的挑战。墨奇科技在可用性、安全性、便捷性、系统安全及合规等方面持续发力,希望把生物识别推进到下一个阶段。
大数据未来的发展前景怎么样?
随着信息技术和人类生产生活交汇融合,全球数据呈现爆发增长、海量集聚的特点。无论是国家、企业还是社会公众,都越来越认识到数据的价值。因此,近年来,各地纷纷成立大数据发展局,企业纷纷推动数据资产治理,大数据辐射的行业也从传统的电信、金融逐渐扩展到工业、医疗、教育等。一时间,仿佛各行各业都在谈大数据,人人都在谈大数据。但也有声音说大数据迎来了“七年之痒”,面对大数据热潮也需要一些“冷思考”。我国大数据究竟发展得如何?未来我国大数据发展还有哪些机遇和挑战?
1、大数据产业进展显著
过去几年,大数据理念已经深入人心,“用数据说话”已经成为所有人的共识,数据也成了堪比石油、黄金、钻石的战略资源。五年来,我国大数据产业政策日渐完善,技术、应用和产业都取得了非常明显的进展。
在政策方面,我国从中央到地方的大数据政策体系已经基本完善,目前已经进入落地实施阶段。自从2014年“大数据”这个词写入 *** 工作报告以来,我国大数据发展的政策环境掀开了全新的篇章。在顶层设计上,国务院《促进大数据发展行动纲要》对政务数据共享开放、产业发展和安全三方面做了总体部署。《政务信息资源共享管理暂行办法》《大数据产业发展规划(2016-2020)》等文件也都已经出台。十九大报告中提出“推动大数据与实体经济深度融合”,“十三五”规划中提出“实施国家大数据战略”。卫健、农业、环保、检察、税务等部门还出台了领域大数据发展的具体政策。截至2019年初,所有省级行政区都发布了大数据相关的发展规划,十几个省市设立了大数据管理局,8个国家大数据综合试验区、11个国家工程实验室启动建设。可以说,大数据的政策体系已经基本搭建完成,目前已经纷纷进入落地实施甚至评估检查阶段。
在技术方面,我国大数据技术发展属于“全球之一梯队”,但国产核心技术能力严重不足。我国独有的大体量应用场景和多类型实践模式,促进了大数据领域技术创新速度和能力水平,处于国际领先地位。在技术全面性上,我国平台类、管理类、应用类技术均具有大面积落地案例和研究;在应用规模方面,我国已经完成大数据领域的更大集群公开能力测试,达到了万台节点;在效率能力方面,我国大数据产品在国际大数据技术能力竞争平台上也取得了前几名的好成绩;在知识产权方面,2018年我国大数据领域专利公开量约占全球的40%,位居世界第二。但我国大数据技术大部分为基于国外开源产品的二次改造,核心技术能力亟待加强。例如,目前国内主流大数据平台技术中,自研比例不超过10%。
在产业方面,我国大数据产业多年来保持平稳快速增长,但面临提质增效的关键转型。2018年,我国大数据产业延续多年来的增速,继续保持相对高速的增长。根据中国信息通信研究院的测算,2018年我国大数据产业整体规模有望达到5400亿元,同比增长15%。然而,综合国内外环境、新兴技术发展等多种因素,大数据产业的增速出现了下滑。我国的大数据产业也面临着从高速发展向高质量发展的关键转型期。
在应用方面,大数据的行业应用更加广泛,正加速渗透到经济社会的方方面面。随着大数据工具的门槛降低以及企业数据意识的不断提升,越来越多的行业开始尝到大数据带来的“甜头”。无论是从新增企业数量、融资规模还是应用热度来说,与大数据结合紧密的行业正在从传统的电信业、金融业扩展到政务、健康医疗、工业、交通物流、能源行业、教育文化等,行业应用“脱虚向实”趋势明显,与实体经济的融合更加深入。
2、产业的五大困局
虽然我国大数据总体发展形势良好,也面临难得的发展机遇,但仍然存在一些困难和问题。
一是,涉及核心技术的产业发展薄弱,未能有效提升我国核心技术竞争力。核心技术的影响力在大数据产业有着极高的重要性。由于大数据企业在完成产品开发后,可以近乎零成本无限制的复制,因此拥有核心技术的大企业,很容易将技术优势转化为市场优势,即凭借具体的信息产品赢得海量用户获得垄断地位。当前,从大数据技术与产品的供给侧看,我国虽然在局部技术实现了单点突破,但大数据领域系统性、平台级核心技术创新仍不多见。大数据处理工具都是“他山之石”,大部分企业用的都是国外的数据采集、数据处理、数据分析、数据可视化技术,自主核心技术突破还有待时日。尤其是开源产品的技术标准方面,我国的影响力尚亟待提升。
二是,数据孤岛和壁垒降低了大数据产业资源配置效率。大数据产业发展必须实现数据信息的自由流动和共享,如果数据不开放、不共享,数据整合就不能实现,数据价值也会大大降低。无论是 *** 数据、互联网数据还是其他数据,数据拥有者往往不愿对其进行开放流通。受制于前期信息基础设施建设,目前我国 *** 数据往往还存在着诸多“数据孤岛”和“数据烟囱”,数据价值难以发挥。
三是,数据安全管理薄弱增加了大数据产业的发展风险。大数据技术为经济社会发展带来创新活力的同时,也使数据安全、个人信息保护乃至大数据平台安全等面临新威胁与新风险。海量多源数据在大数据平台汇聚,来自多个用户的数据可能存储在同一个数据池中,并分别被不同用户使用,极易引发数据泄露风险。利用大数据技术对海量数据(21.90 -5.19%,诊股)进行挖掘分析所得结果可能包含涉及国家经济社会等各方面的敏感信息,需要对分析结果的共享和披露加强安全管理。
四是,产业垄断与恶性竞争现象频发,“劣币驱逐良币”现象明显。由于资源型产业门槛低、利润高,新兴的大数据企业往往首先将目光盯在获取数据资源上面。大量依托数据资源优势的企业诞生,为大数据产业带来了低附加值的垄断经济模式,使得依靠技术壁垒打江山的企业不得不面对残酷的市场竞争,放缓了技术研发的步伐。同时,数据垄断问题也愈发明显。少数互联网巨头企业拥有巨大数据,不但对产业发展不利,甚至存在巨大的数据聚集隐患。
五是,各地发展同质化严重,普遍存在重存储轻应用的现象。由于缺乏统一的大数据产业分类统计体系和产业运行监测手段,各地大数据产业的定位相似,同质化竞争加剧。而盲目的重复建设,更是可能导致大数据产业过剩。同时,由于部分地区信息化发展程度有限,大数据应用场景不够丰富,更是以数据中心等大数据存储设施的建设作为发展大数据产业的关键,且规模巨大,目标动辄以百万台计,后期若无法有效利用,将造成巨大的资源浪费。
3、未来三年大数据行业展望
未来三年,是我国大数据发展转型的重要机遇期。大数据的发展本身也呈现着一些趋势。在我看来,未来三年大数据行业有可能会呈现出如下特点:
一是,大数据新技术继续快速发展。未来大数据技术将会沿着工具平台云化部署、多业务场景统一处理、专有高性能硬件适配几个方面进行突破。目前大数据技术工具的主要应用模式为应用企业在自建机房内独立部署,其存在资源浪费、弹性能力不足、管理复杂等缺点,这些缺陷可以通过基于云计算技术的云化部署方案解决,助力大数据技术工具的快速落地和应用;同时大数据技术工具主要瞄准的是分析型业务场景,但随着电子商务以及智能终端的爆发性发展,转账、计费等事务型业务场景也需要大数据处理能力,所以未来的多业务场景统一处理技术将会得到充分发展;最后由于GPU/TPU等专用硬件的发展,此类专用硬件能够助力某些大数据技术进行突破性升级,所以对新型硬件的适配成为很多大数据企业未来研发计划的重点。
二是,数据流通共享将迎来关键突破。这些年,推动数据开放共享的政策举措一直在加强,然而效果与预期还有差距。可以说,技术手段将是数据流通共享瓶颈突破的关键。未来三年,随着同态加密、差分隐私、零知识证明、量子账本等关键技术的性能提升和门槛降低,随着区块链、安全多方计算等工具与数据流通场景进一步紧密结合,数据共享和流通将有望再前进一大步。
三是,数据服务合规性将成为行业关注重点。近两年来,随着欧盟《通用数据保护条例》(GDPR)的颁布和正式实施,个人信息保护的重视程度被提到了前所未有的高度。GDPR对数据主体的权利规定细致入微,其“数据可携权”“被遗忘权”等方面的规定可能会对我国数据立法带来一定的参考。对我国企业来说,数据服务合规性的重要程度进一步提升,将对企业业务开展带来重大影响。目前中国信息通信研究院正在着力推动的“可信数据服务”计划也正是契合了行业的这一需求。
四是,数据资产管理重要性将进一步提升。随着大数据应用进入深水区,企业将越来越重视数据资产管理 *** 论体系建设——即从架构、标准、研发、质量、安全、分析到应用的统一,从而实现技术到业务价值的转化和变现。未来三年,数据资产管理将仍是企业数据部门面临的难点与挑战。即使是领先的科技型企业,在数据资产管理这一课题上仍在不断探索新的 *** ,如全链路智能管理体系、数据资产的贡献度、数据基线度量与质量规范的工具化、可视化等。
4、四大应对策略
大数据产业作为具有国家战略意义的新兴产业,在发展初期不仅要充分发挥企业的主体作用和有效市场的主导作用,而且要更好发挥 *** 的引导作用。
一是,要加强核心技术攻关与产业化推动。自主研发创新是提高大数据产业竞争力的主引擎。要彻底改变目前我国大数据产业创新能力不强、关键核心技术对外依赖度偏高的这一局面,必须抓住重点领域、关键环节和核心问题,找准着力点和突破口,加大 *** 财政资金的引导支持力度。为此,建议在国家层面上设立大数据重点领域的关键技术研发创新的国家财政专项资金,支持突破一批关键核心技术研发创新与应用,构建具有核心技术自 *** 的大数据产业链,形成自主可控的大数据技术架构,提高关键核心技术的自主研发创新能力,有效破解制约产业发展的瓶颈。
二是,完善大数据安全政策。需要开展数据确权、资产管理、市场监管、跨境流动等数据治理的重大问题研究,协调有关部门共同推进数据治理的法制化进程,加强对敏感政务数据、企业商业秘密和个人数据的保护。同时,推动完善适用于大数据环境下的信息安全等级保护制度,建立兼顾安全与发展的数据管理和保障体系,加强数据安全评测、安全防范、应急处置等相关机制建设。此外,还要强化 *** 空间的安全信息共享与动态感知能力,提高重大风险识别分析水平。
三是,鼓励地方因地制宜发展大数据产业。大数据产业发展应注重差异化发展,形成差异化的产业布局。地方需要差异化发展,应该把大数据的发展重心放在因地制宜地促进应用创新上,放在打造完善的发展环境上,让市场在大数据发展要素配置上起决定作用。各地要结合产业基础和优势特色,着重发展大数据特色场景应用,推动大数据与当地重要实体经济行业加快融合。
四是,推动行业加快大数据标准建设。当前大数据产业应用层出不穷, *** 应通过标准化的途径规范行业、整合资源,促进各方达成共识,为大数据产业的健康发展提供基石。尤其是通过加强快速迭代、市场认可度高的行业/团体标准研制工作,为用户企业提供大数据产品选型指导,为数据安全提供保障,促进大数据交易等新兴服务模式规范发展,对推动我国大数据产业进程具有重要意义。
达摩院发布 2022 十大科技趋势:AI for Science 催生科研新范式
据介绍,《达摩院 2022 十大 科技 趋势》采用了“定量发散,定性收敛”的分析 *** ,整个分析流程分为两部分:
达摩院分析了 159 个领域近三年 770 万篇公开论文、8.5 万份专利,挖掘其中热点领域及重点技术突破,深度访谈近 100 位科学家,提出了 2022 年可能照进现实的十大 科技 趋势,覆盖人工智能、芯片、计算和通信等领域。
具体而言,这十大 科技 趋势分别是:AI for Science、大小模型协同进化、硅光芯片、绿色能源 AI、柔性感知机器人、高精度医疗导航、全域隐私计算、星地计算、云网端融合、XR 互联网。
达摩院认为,计算机科学改变科研的路径是从下游逐渐走向上游。起初计算机主要用来做实验数据的分析与归纳。后来科学计算改变了科学实验的方式,人工智能结合高性能计算,在实验成本与难度较高的领域开始用计算机进行实验的模拟,验证科学家的假设,加速科研成果的产出,如核能实验的数字反应堆,能够降低实验成本、提高安全性、减少核废料产生。
近年,人工智能被证明能做科学规律发现,不仅在应用科学领域,也能在基础科学领域发挥作用,如 DeepMind 使用人工智能来帮助证明或提出新的数学定理,辅助数学家形成对复杂数学的直觉。
达摩院预测, 在未来的三年内,人工智能技术在应用科学中将得到普遍应用,在部分基础科学中开始成为研究工具。
阿里达摩院城市大脑实验室负责人华先胜在接受 InfoQ 采访时表示,用 AI 去助力科研主要基于数据和计算这两点,在数据和算力的基础上形成 AI 能力。
“从本质上来讲,AI for Science 和 AI for Industry 差别不大,AI 也是作为推动领域发展的一个工具。只是这个领域有点不一样,它的门槛比较高,因为是科学家要做的事情,不是一个普通人、一般的技术工作人员可以做的事情。但是从本质上来讲,也是这个领域因为有了数据,可以设计算法去挖掘数据中的’玄机’,去解决这个领域的问题。”
对于从业者而言,AI for Science 需要 AI 专家要去了解科学问题,需要科学家要去了解 AI 的原理。“AI for Industry 的时候,其实是从单点的技术逐渐地走向了平台化,AI for Science 的未来,我想也会逐步地走向平台化。这个时候就是 AI 专家结合某个领域、某个学科,甚至是某个学科的某一类问题和科学家们一起去建造一个科研的平台。这个时候科学家们可能有更大的自由度、更强大的工具,能够更批量地去做科学研究,实现更加丰富、更加重要的科学突破。”华先胜说道。
谷歌的 BERT、Open AI 的 GPT-3、智源的悟道、 达摩院的 M6 等大规模预训练模型取得了重要进展,大模型的性能有了飞跃性提升,为下游的 AI 模型提供了发展的基础。然而大模型训练对资源消耗过大,参数数量增加所带来的性能提升与消耗提升不成比例,让大模型的效率受到挑战。
阿里达摩院智能计算实验室科学家杨红霞在接受 InfoQ 采访时表示,预训练大模型还有亟待突破的几个课题:
达摩院认为,大模型的参数规模发展将进入冷静期,大模型与相关联的小模型协同将是未来的发展方向。大模型沉淀的知识与认知推理能力向小模型输出,小模型基于大模型的基础叠加垂直场景的感知、认知、决策、执行能力,再将执行与学习的结果反馈给大模型,让大模型的知识与能力持续进化,形成一套有机循环的智能系统,参与者越多,受惠者越多,模型进化的速度也越快。
“大小模型的协同进化也可以更好的服务于更加复杂的新场景,例如虚拟现实、数字人,需要云边端的同时部署与交互,同时该体系对于保护用户数据隐私也更加的灵活,用户可以在不同的端上维护自己的小模型。”杨红霞向 InfoQ 说道。
清华大学计算机系教授,北京智源人工智能研究院学术副院长唐杰表示,大模型的发展,在认知智能方面,模型参数不排除进一步增加的可能,但参数竞赛本身不是目的,而是要探究进一步性能提升的可能性。大模型研究同时注重架构原始创新,通过模型持续学习、增加记忆机制、突破三元组知识表示 *** 等 *** 进一步提升万亿级模型的认知智能能力。在模型本身方面,多模态、多语言、面向编程的新型模型也将成为研究的重点。
达摩院预测, 在未来的三年内,在个别领域将以大规模预训练模型为基础,对协同进化的智能系统进行试点 探索 。在未来的五年内,协同进化的智能系统将成为体系标准,让全 社会 能够容易地获取并贡献智能系统的能力,往通用人工智能再迈进一大步。
电子芯片发展逼近摩尔定律极限,集成技术进步趋于饱和,高性能计算对数据吞吐要求不断增长,亟需技术突破。
光子芯片不同于电子芯片,技术上另辟蹊径,用光子代替电子进行信息传输,可以承载更多的信息和传输更远的距离。光子彼此间的干扰少、提供相较于电子芯片高两个数量级的计算密度与低两个数量级的能耗。相较于量子芯片,光子芯片不需要改变二进制的架构,能够延续当前的计算机体系。光子芯片需要与成熟的电子芯片技术融合,运用电子芯片先进的制造工艺及模块化技术,结合光子和电子优势的硅光技术将是未来的主流形态。
北京大学教授,上海光机所特聘首席研究员周治平表示,达摩院选择“硅光芯片”作为 2022 年 10 大 科技 趋势之一,印证了该技术在信息通信领域的巨大应用价值。硅光芯片的进一步扩展是硅基光电子芯片:利用集成电路的设计 *** 和制造工艺,将微纳米量级的光子、电子、及光电子器件异质集成在同一硅衬底上,形成一个完整的具有综合功能的新型大规模光电集成芯片。它更加显著地反映了人类 社会 在纳米技术方面的持续努力以及对更小型器件和更紧凑系统的极大兴趣。
达摩院预测,光电融合是未来芯片的发展趋势,硅光子和硅电子芯片取长补短,充分发挥二者优势,促使算力的持续提升。 未来三年,硅光芯片将支撑大型数据中心的高速信息传输;未来五到十年,以硅光芯片为基础的光计算将逐步取代电子芯片的部分计算场景。
绿色能源的大规模开发和利用已经成为当今世界能源发展的主要方向。在高比例绿色能源并网的趋势下,传统电力系统难以应对绿色能源在大风、暴雨、雷电等天气下发电功率的不确定性,以及复杂故障及时响应的应对能力。
在运行监测过程中,参数核验和故障监测仍需要大量的人工参与,故障特征提取困难,识别难度大。针对大规模绿色能源并网在稳定、运行和规划上面临的各种挑战,以人工智能为主的新一代信息技术将对能源系统整体的高效稳定运行提供技术保障和有力支撑。
人工智能与能源电力的深度融合,将推动大规模新能源发电、并网、输送、消纳和安全运行,完成对能源系统的升级改造。
中国电科院首席系统架构师周二专认为,新型电力系统要实现智能调控、运行推演将离不开 AI 技术,在 AI 技术的支撑下构建多个物理电网和 IT 应用程序交互的数字孪生体,每个数字孪生体解决某一个场景或某一个方面的电网运行问题。这样,当有足够的孪生体构成电网调控数字孪生系统来解决电网运行问题的各个方面,即可实现智能调控。
达摩院预测, 在未来的三年内,人工智能技术将帮助电力系统实现大规模绿能消纳,能源供给在时间和空间维度上能够互联互济,网源协调发展,弹性调度,实现电力系统的安全、高效、稳定运行。
机器人是技术的集大成者,在过去硬件、 *** 、人工智能、云计算的融合发展下,技术成熟度有了飞跃式地进展,机器人朝向多任务、自适应、协同化的路线发展。
柔性机器人是重要的突破代表,具有柔软灵活、可编程、可伸缩等特征,结合柔性电子、力感知与控制等技术,可适应多种工作环境,并在不同任务中进行调节。近年柔性机器人结合人工智能技术,使得机器人具备感知能力,提升了通用性与自主性,降低对预编程的依赖。
柔性感知机器人增加了对环境的感知能力(包含力、视觉、声音等),对任务的迁移能力增强,不再像传统机器人需要穷举可能性,并且可执行依赖感知的任务(如医疗手术),拓展机器人的适用场景。另一个优势是在任务中的自适应能力,面向突发变化能够及时反应,准确地完成任务并避免问题发生。
达摩院预测, 未来五年内,柔性机器人将充分结合深度学习带来的智能感知能力,能面向广泛场景,逐步替代传统工业机器人,成为产线上的主力设备。同时在服务机器人领域实现商业化,在场景、体验、成本方面具备优势,开始规模化应用。
传统医疗依赖医生经验,犹如人工寻路,效果参差不齐。人工智能与精准医疗深度融合,专家经验和新的辅助诊断技术有机结合,将成为临床医学的高精度导航系统,为医生提供自动指引,帮助医疗决策更快更准,实现重大疾病的可量化、可计算、可预测、可防治。
预计未来三年,以人为中心的精准医疗将成为主要方向,人工智能将全面渗透在疾病预防和诊疗的各个环节,成为疾病预防和诊疗的高精度导航协同。而随着因果推理的进一步发展,可解释性有望实现突破,人工智能将为疾病的预防和早诊早治提供有力的技术支撑。
数据安全保护与数据流通是数字时代的两难问题,破解之道是隐私计算。过去受制于性能瓶颈、技术信任不足、标准不统一等问题,隐私计算尚只能在少量数据的场景下应用。随着专用芯片、加密算法、白盒化、数据信托等技术融合发展,隐私计算有望跨越到海量数据保护,数据源将扩展到全域,激发数字时代的新生产力。
浙江大学教授,浙江大学 *** 空间安全学院院长任奎表示,隐私计算不是某个单项技术,而是大一统的称呼,包括最早 1982 年提出的安全多方计算,到后来的同态加密、可信计算、差分隐私等等。但隐私计算早前并不具备太大的实用价值,像全同态加密理论上很好,但性能开销过大,实际使用很困难。现在随着硬件加速和软件创新,我们逐渐看到实用化的趋势,当然这还有个过程。
达摩院预测, 未来三年,全域隐私计算技术将在性能和可解释性上有新的突破,或将出现数据信托机构提供基于隐私计算的数据共享服务。
基于地面 *** 和计算的数字化服务局限在人口密集区域,深空、海洋、 沙漠等无人区尚是服务的空白地带。高低轨卫星通信和地面移动通信将无缝连接,形成空天地海一体化立体 *** 。由于算随网动,星地计算将集成卫星系统、空中 *** 、地面通信和云计算,成为一种新兴的计算架构,扩展数字化服务的空间。
阿里达摩院 XG 实验室负责人张铭认为,星地计算要真正能够实现成功商用和规模化发展,仍涉及到不少核心技术的突破。
以低轨卫星终端为例,一是要以场景需求和商用价值为导向,二是需要从技术突破和解决工程问题等角度出发,设计高性能、低成本、适应场景多的商用产品。例如在关键技术方面,如何设计新型毫米波相控阵天线,以及相应的波束赋形控制算法,以低成本方式满足性能指标要求;如何设计新型星地通信协议,满足卫星互联网多用户、移动性、复杂动态业务需求;此外,在终端集成和优化方面,还存在很多工程问题需要突破和解决,从而满足海陆空不同场景下多方位需求。
达摩院预测, 未来三年,低轨卫星数量会迎来爆发式增长,与高轨卫星共同组成卫星互联网。在未来五年,卫星互联网与地面 *** 将无缝结合形成天地一体的泛在互联网,卫星及其地面系统成为新型计算节点,在各类数字化场景中发挥作用。
新型 *** 技术发展将推动云计算走向云网端融合的新计算体系,并实现云网端的专业分工:云将作为脑,负责集中计算与全局数据处理; *** 作为连接,将多种 *** 形态通过云融合,形成低延时、广覆盖的一张网;端作为交互界面,呈现多元形态,可提供轻薄、长效、沉浸式的极致体验。云网端融合将促进高精度工业仿真、实时工业质检、虚实融合空间等新型应用诞生。
达摩院预测, 在未来两年内,将有大量的应用场景在云网端融合的体系运行,伴随着更多依云而生的新型设备,带来更极致、更丰富地用户体验。
随着端云协同计算、 *** 通信、数字孪生等技术发展,以沉浸式体验为核心的 XR(未来虚实融合)互联网将迎爆发期。眼镜有望成为新的人机交互界面,推动形成有别于平面互联网的 XR 互联网,催生从元器件、设备、操作系统到应用的新产业生态。XR 互联网将重塑数字应用形态,变革 娱乐 、社交、工作、购物、教育、医疗等场景交互方式。
达摩院预测, 未来三年内会产生新一代的 XR 眼镜, 融合 AR 与 VR 的技术,利用端云协同计算、光学、 透视等技术将使得外形与重量接近于普通眼镜,XR 眼镜成为互联网的关键入口,得到大范围普及。
大数据发展的前景怎么样?
2019年中国大数据产业市场分析:发展进程显著,四大建议解决五大发展挑战问题
我国大数据产业发展得如何?未来发展存在哪些机遇和挑战?
随着信息技术和人类生产生活交汇融合,全球数据呈现爆发增长、海量集聚的特点。无论是国家、企业还是社会公众,都越来越认识到数据的价值。因此,近年来,各地纷纷成立大数据发展局,企业纷纷推动数据资产治理,大数据辐射的行业也从传统的电信、金融逐渐扩展到工业、医疗、教育等。一时间,仿佛各行各业都在谈大数据,人人都在谈大数据。但也有声音说大数据迎来了“七年之痒”,面对大数据热潮也需要一些“冷思考”。我国大数据究竟发展得如何?未来我国大数据发展还有哪些机遇和挑战?
一、中国大数据产业进展显著
过去几年,大数据理念已经深入人心,“用数据说话”已经成为所有人的共识,数据也成了堪比石油、黄金、钻石的战略资源。五年来,我国大数据产业政策日渐完善,技术、应用和产业都取得了非常明显的进展。
1、在政策方面,我国从中央到地方的大数据政策体系已经基本完善,目前已经进入落地实施阶段。自从2014年“大数据”这个词写入 *** 工作报告以来,我国大数据发展的政策环境掀开了全新的篇章。在顶层设计上,国务院《促进大数据发展行动纲要》对政务数据共享开放、产业发展和安全三方面做了总体部署。《政务信息资源共享管理暂行办法》《大数据产业发展规划(2016-2020)》等文件也都已经出台。十九大报告中提出“推动大数据与实体经济深度融合”,“十三五”规划中提出“实施国家大数据战略”。
卫健、农业、环保、检察、税务等部门还出台了领域大数据发展的具体政策。截至2019年初,所有省级行政区都发布了大数据相关的发展规划,十几个省市设立了大数据管理局,8个国家大数据综合试验区、11个国家工程实验室启动建设。可以说,大数据的政策体系已经基本搭建完成,目前已经纷纷进入落地实施甚至评估检查阶段。
2、在技术方面,我国大数据技术发展属于“全球之一梯队”,但国产核心技术能力严重不足。我国独有的大体量应用场景和多类型实践模式,促进了大数据领域技术创新速度和能力水平,处于国际领先地位。在技术全面性上,我国平台类、管理类、应用类技术均具有大面积落地案例和研究;
在应用规模方面,我国已经完成大数据领域的更大集群公开能力测试,达到了万台节点;在效率能力方面,我国大数据产品在国际大数据技术能力竞争平台上也取得了前几名的好成绩;在知识产权方面,2018年我国大数据领域专利公开量约占全球的40%,位居世界第二。但我国大数据技术大部分为基于国外开源产品的二次改造,核心技术能力亟待加强。例如,目前国内主流大数据平台技术中,自研比例不超过10%。
3、在产业方面,我国大数据产业多年来保持平稳快速增长,但面临提质增效的关键转型。2018年,我国大数据产业延续多年来的增速,继续保持相对高速的增长。
据前瞻产业研究院发布的《中国大数据产业发展前景与投资战略规划分析报告》统计数据显示,2015年我国大数据产业规模已达2800亿元。截止至2017年我国大数据产业规模增长至4700亿,同比增长是30.6%。初步测算2018年我国大数据产业规模达到5400亿元左右,同比增长15%。预测在2020年我国大数据产业规模将突破万亿元。然而,综合国内外环境、新兴技术发展等多种因素,大数据产业的增速出现了下滑。我国的大数据产业也面临着从高速发展向高质量发展的关键转型期。
2015-2020年我国大数据产业规模统计情况及预测
数据来源:前瞻产业研究院整理
4、在应用方面,大数据的行业应用更加广泛,正加速渗透到经济社会的方方面面。随着大数据工具的门槛降低以及企业数据意识的不断提升,越来越多的行业开始尝到大数据带来的“甜头”。无论是从新增企业数量、融资规模还是应用热度来说,与大数据结合紧密的行业正在从传统的电信业、金融业扩展到政务、健康医疗、工业、交通物流、能源行业、教育文化等,行业应用“脱虚向实”趋势明显,与实体经济的融合更加深入。
二、中国大数据产业五大发展挑战分析
虽然我国大数据总体发展形势良好,也面临难得的发展机遇,但仍然存在一些困难和问题。
1、涉及核心技术的产业发展薄弱,未能有效提升我国核心技术竞争力
核心技术的影响力在大数据产业有着极高的重要性。由于大数据企业在完成产品开发后,可以近乎零成本无限制的复制,因此拥有核心技术的大企业,很容易将技术优势转化会市场优势,即凭借具体的信息产品赢得海量用户获得垄断地位。当前,从大数据技术与产品的供给侧看,我国虽然在局部技术实现了单点突破,但大数据领域系统性、平台级核心技术创新仍不多见。大数据处理工具都是“他山之石”,大部分企业用的都是国外的数据采集、数据处理、数据分析、数据可视化技术,自主核心技术突破还有待时日。尤其是开源产品的技术标准方面,我国的影响力尚亟待提升。
2、数据孤岛和壁垒降低了大数据产业资源配置效率
大数据产业发展必须实现数据信息的自由流动和共享,如果数据不开放、不共享,数据整合就不能实现,数据价值也会大大降低。无论是 *** 数据、互联网数据还是其他数据,数据拥有者往往不愿对其进行开放流通。受制于前期信息基础设施建设,目前我国 *** 数据往往还存在着诸多“数据孤岛”和“数据烟囱”,数据价值难以发挥。
3、数据安全管理薄弱增加了大数据产业的发展风险
大数据技术为经济社会发展带来创新活力的同时,也使数据安全、个人信息保护乃至大数据平台安全等面临新威胁与新风险。海量多源数据在大数据平台汇聚,来自多个用户的数据可能存储在同一个数据池中,并分别被不同用户使用,极易引发数据泄露风险。利用大数据技术对海量数据(21.90
-5.19%,诊股)进行挖掘分析所得结果可能包含涉及国家经济社会等各方面的敏感信息,需要对分析结果的共享和披露加强安全管理。
4、产业垄断与恶性竞争现象频发,“劣币驱逐良币”现象明显
由于资源型产业门槛低、利润高,新兴的大数据企业往往首先将目光盯在获取数据资源上面。大量依托数据资源优势的企业诞生,为大数据产业带来了低附加值的垄断经济模式,使得依靠技术壁垒打江山的企业不得不面对残酷的市场竞争,放缓了技术研发的步伐。同时,数据垄断问题也愈发明显。少数互联网巨头企业拥有巨大数据,不但对产业发展不利,甚至存在巨大的数据聚集隐患。
5、各地发展同质化严重,普遍存在重存储轻应用的现象
由于缺乏统一的大数据产业分类统计体系和产业运行监测手段,各地大数据产业的定位相似,同质化竞争加剧。而盲目的重复建设,更是可能导致大数据产业过剩。同时,由于部分地区信息化发展程度有限,大数据应用场景不够丰富,更是以数据中心等大数据存储设施的建设作为发展大数据产业的关键,且规模巨大,目标动辄以百万台计,后期若无法有效利用,将造成巨大的资源浪费。
三、未来三年中国大数据产业将呈现四大发展特点
未来三年,是我国大数据发展转型的重要机遇期。大数据的发展本身也呈现着一些趋势。在我看来,未来三年大数据行业有可能会呈现出如下特点:
1、大数据新技术继续快速发展
未来大数据技术将会沿着工具平台云化部署、多业务场景统一处理、专有高性能硬件适配几个方面进行突破。目前大数据技术工具的主要应用模式为应用企业在自建机房内独立部署,其存在资源浪费、弹性能力不足、管理复杂等缺点,这些缺陷可以通过基于云计算技术的云化部署方案解决,助力大数据技术工具的快速落地和应用;同时大数据技术工具主要瞄准的是分析型业务场景,但随着电子商务以及智能终端的爆发性发展,转账、计费等事务型业务场景也需要大数据处理能力,所以未来的多业务场景统一处理技术将会得到充分发展;最后由于GPU/TPU等专用硬件的发展,此类专用硬件能够助力某些大数据技术进行突破性升级,所以对新型硬件的适配成为很多大数据企业未来研发计划的重点。
2、数据流通共享将迎来关键突破
这些年,推动数据开放共享的政策举措一直在加强,然而效果与预期还有差距。可以说,技术手段将是数据流通共享瓶颈突破的关键。未来三年,随着同态加密、差分隐私、零知识证明、量子账本等关键技术的性能提升和门槛降低,随着区块链、安全多方计算等工具与数据流通场景进一步紧密结合,数据共享和流通将有望再前进一大步。
3、数据服务合规性将成为行业关注重点
近两年来,随着欧盟《通用数据保护条例》(GDPR)的颁布和正式实施,个人信息保护的重视程度被提到了前所未有的高度。GDPR对数据主体的权利规定细致入微,其“数据可携权”“被遗忘权”等方面的规定可能会对我国数据立法带来一定的参考。对我国企业来说,数据服务合规性的重要程度进一步提升,将对企业业务开展带来重大影响。目前中国信息通信研究院正在着力推动的“可信数据服务”计划也正是契合了行业的这一需求。
4、数据资产管理重要性将进一步提升
随着大数据应用进入深水区,企业将越来越重视数据资产管理 *** 论体系建设——即从架构、标准、研发、质量、安全、分析到应用的统一,从而实现技术到业务价值的转化和变现。未来三年,数据资产管理将仍是企业数据部门面临的难点与挑战。即使是领先的科技型企业,在数据资产管理这一课题上仍在不断探索新的 *** ,如全链路智能管理体系、数据资产的贡献度、数据基线度量与质量规范的工具化、可视化等。
四、四大建议应对挑战
大数据产业作为具有国家战略意义的新兴产业,在发展初期不仅要充分发挥企业的主体作用和有效市场的主导作用,而且要更好发挥 *** 的引导作用。
1、要加强核心技术攻关与产业化推动
自主研发创新是提高大数据产业竞争力的主引擎。要彻底改变目前我国大数据产业创新能力不强、关键核心技术对外依赖度偏高的这一局面,必须抓住重点领域、关键环节和核心问题,找准着力点和突破口,加大 *** 财政资金的引导支持力度。为此,建议在国家层面上设立大数据重点领域的关键技术研发创新的国家财政专项资金,支持突破一批关键核心技术研发创新与应用,构建具有核心技术自 *** 的大数据产业链,形成自主可控的大数据技术架构,提高关键核心技术的自主研发创新能力,有效破解制约产业发展的瓶颈。
2、完善大数据安全政策
需要开展数据确权、资产管理、市场监管、跨境流动等数据治理的重大问题研究,协调有关部门共同推进数据治理的法制化进程,加强对敏感政务数据、企业商业秘密和个人数据的保护。同时,推动完善适用于大数据环境下的信息安全等级保护制度,建立兼顾安全与发展的数据管理和保障体系,加强数据安全评测、安全防范、应急处置等相关机制建设。此外,还要强化 *** 空间的安全信息共享与动态感知能力,提高重大风险识别分析水平。
3、鼓励地方因地制宜发展大数据产业
大数据产业发展应注重差异化发展,形成差异化的产业布局。地方需要差异化发展,应该把大数据的发展重心放在因地制宜地促进应用创新上,放在打造完善的发展环境上,让市场在大数据发展要素配置上起决定作用。各地要结合产业基础和优势特色,着重发展大数据特色场景应用,推动大数据与当地重要实体经济行业加快融合。
4、推动行业加快大数据标准建设
当前大数据产业应用层出不穷, *** 应通过标准化的途径规范行业、整合资源,促进各方达成共识,为大数据产业的健康发展提供基石。尤其是通过加强快速迭代、市场认可度高的行业/团体标准研制工作,为用户企业提供大数据产品选型指导,为数据安全提供保障,促进大数据交易等新兴服务模式规范发展,对推动我国大数据产业进程具有重要意义。
时日。尤其是开源产品的技术标准方面,我国的影响力尚亟待提升。二是,数据孤岛和壁垒降低了大数据产业资源配置效率。大数据产业发展必须实现数据信息的自由流动和共享,如果数据不开放、不共享,数据整合就不能实现,数据价值也会大大降低。无论是政府数据、互联网数据还是其他数据,
因此这种技术路线理论上可行,但不是那么理想。另一种解决方案是同态加密。这个时候服务器端的模板可能加密的。加密的时候,当有一个新的人脸的特征向量进来以后,我们可以把新的人脸的特征向量和原来的特征向量进行比对,在同态的状态下进行,最后得到一个同态的结果,因此结果也是加密的状态。理论上这个方案