精华内容
下载资源
问答
  • 今天给大家分享华泰证券(华泰计算机)发布的204页深度报告《“信创”(信息技术应用创新)研究框架.pdf》,报告共包含如下五大部分,希望对您有用:1、产业概况:发展背景、推荐节奏、疫情影...

    今天给大家分享华泰证券(华泰计算机)发布的204页深度报告《“信创”(信息技术应用创新)研究框架.pdf》,报告共包含如下五大部分,希望对您有用:

    1、产业概况:发展背景、推荐节奏、疫情影响;

    2、产业全景图:终端、云计算全栈架构图、产业链全景图;

    3、核心环节:CPU、OS、数据库、中间件、办公套件、安全保密;

    4、主要集团布局:CEC、CETC、华为;

    5、建议关注标的。

    该报告已收录到小程序省时查报告中,大家可以到省时查报告小程序中查看并下载报告。

    更多细节和相关报告请到小程序省时查报告中查看并下载,也希望大家把小程序分享给身边有需要的朋友们,分享一个好友可以获得2天的VIP哦~

    展开全文
  • 大数据分析与应用技术创新平台

    万次阅读 2018-11-15 16:54:48
    大数据分析与应用技术创新平台   张平文, 鄂维南, 袁晓如, 傅毅明 北京大学数学科学学院,北京 100871  北京大学大数据科学研究中心,北京 100871   北京大学信息科学技术学院,北京 100871   北京...

    原文链接:https://mp.weixin.qq.com/s/kCDYOInF8KjHstIMAWSljA

     

    大数据分析与应用技术创新平台

     

    张平文, 鄂维南, 袁晓如, 傅毅明

    北京大学数学科学学院,北京 100871 

    北京大学大数据科学研究中心,北京 100871 

     北京大学信息科学技术学院,北京 100871 

     北京大数据研究院,北京 100871


     

    摘要:针对我国大数据挖掘与分析能力弱、大数据算法应用和综合能力不高等问题,系统地介绍了大数据分析与应用技术创新平台的总体技术框架,详细分析了我国大数据分析与应用五大共性技术存在的不足和解决思路,并阐述了创新平台中四大支撑平台的设计思路与应用方向,最后对大数据分析与应用技术国家工程实验室未来的发展方向和重点工作进行了介绍。

     

    关键词:大数据;数据处理;质量控制;数据挖掘;可视分析;智能数据管理;国家工程实验室

     

     

    论文引用格式:

    张平文, 鄂维南, 袁晓如, 等. 大数据分析与应用技术创新平台[J]. 大数据, 2018, 4(4): 86-93.

    ZHANG P W, E W N, YUAN X R, et al. Big data analysis and application technology innovation platform[J]. Big Data Research, 2018, 4(4): 86-93.

     

     

    1 引言

    目前,我国在大数据发展和应用方面已具备一定基础,拥有一定的市场优势和发展潜力,但也存在政府数据开放共享不足、产业基础薄弱、缺乏顶层设计和统筹规划、法律法规建设滞后、创新应用领域不广等问题,这些问题亟待解决。《国务院关于印发促进大数据发展行动纲要的通知》提出“加大大数据关键技术研发、产业发展和人才培养力度,着力推进数据汇集和发掘,深化大数据在各行业创新应用,促进大数据产业健康发展”,强调推进基础研究和核心技术攻关。

    针对我国大数据挖掘与分析能力弱、大数据算法应用和综合能力不高等问题,急需开展关键技术的攻关研发与突破工作。为践行国家大数据战略,北京大学牵头,联合中国科学院数学与系统科学研究院、中山大学、北京奇虎科技有限公司、北京嘀嘀无限科技发展有限公司、中国信息安全研究院有限公司等多家单位,共同申请建设大数据分析与应用技术国家工程实验室,并于2017年初获得了国家发展和改革委员会的正式批复。其目标是围绕数据科学理论体系、大数据计算系统与分析理论等重大基础研究进行前瞻布局,开展数据科学研究,引导和鼓励在大数据分析的理论、方法及关键应用技术等方面展开探索;加强数据清洗、大数据分析发掘、大数据可视化等领域关键技术攻关;围绕多源异构数据分析,针对视频、文本等多种数据类型,研究大规模机器学习的基础和创新方法,依托合作支撑单位开展面向大数据分析的全流程框架和工业标准的设定、大规模数据分析系统平台的搭建;针对多项代表性应用的大数据分析应用平台进行设计和优化,注重大数据分析理论和系统的源头创新,提升数据分析处理能力、知识发现能力和辅助决策能力;切实和有效地突破目前我国在大数据分析和应用方面的技术瓶颈,形成一整套具有国际影响力的大数据分析系统软件,推动我国大数据产业的发展。本文将系统地分析我国大数据分析与应用的五大共性技术的瓶颈和解决思路,介绍大数据分析系统开发平台、大数据系统测试评估平台、大数据分析可视化展示平台、重大应用示范与系统集成平台四大支撑平台的设计与应用,并对大数据分析与应用技术国家工程实验室未来的发展方向和重点工作进行展望。

     

    2 五大共性技术

    如图1所示,在一个典型的大数据分析与应用流程中,数据经过预处理后,采用以大数据统计为代表的共性模型和算法与大数据挖掘技术进行计算分析,再结合高度智能灵活的可视分析,最后支持复杂场景下的智能决策。分析的结果将进一步反馈到数据处理,并再次进入分析过程,进一步提供基于数据的洞见能力和决策支持。可见,在大数据分析与应用中,大数据预处理与质量控制技术、大数据分析支撑理论与算法、大数据挖掘技术、大数据可视分析技术、大数据智能知识管理与决策支持技术构成了大数据分析与应用的五大共性技术。这五大共性技术也是构建大数据分析与应用技术创新平台的关键环节。

     

    图1 大数据分析与应用技术创新平台的总体框架

     

    2.1 大数据预处理与质量控制技术

    (1)数据中的可信度建模问题

    在对复杂结构数据的可信度进行建模时,需要采用“不确定性”和“数据溯源”两个维度。对于不确定性而言,可以采用概率图模型对所研究的复杂结构数据进行数据建模,其中根据应用的需要考虑图模式中的点、边的不确定性以及它们之间的互相依赖关系。除此以外,还考虑到复杂结构数据的多源特性,不同的数据源提供的数据的可信度是不同的。在对数据的不确定性建模的基础上,还要考虑数据的“溯源”问题。大数据分析与应用技术创新平台将数据的不确定性和溯源作为一种统一的元数据,为描述关联数据的可信度提供建模。

    (2)数据中的数据质量检测和评估

    数据质量决定了数据的可用性。传统的数据质量检测方法中,最经典的方法是挖掘数据之间的函数依赖关系以及带有约束的函数依赖等。然而这些方法只考虑了关系数据库表中各个列之间的函数依赖关系。数据质量的检测需要研究复杂数据的数据质量问题。例如知识图谱数据的数据质量问题需要考虑两个方面的特征:图结构特点以及知识图谱数据中的本体语义。

    (3)大数据抽样

    大数据分析中有很多问题,其中一个很重要的问题是计算精度和计算复杂度的平衡。一个好的计算方法一方面要误差小,另一方面要计算速度快。大数据分析中这两方面目标几乎不能同时达到。当前应发展更普适的、更稳健的再抽样方法,其普适性将表现在适合于广义线性模型以及一般凸优化问题,其稳健性将表现在统计推断结果的精确性,即均方误差的减小。

    2.2 大数据分析支撑理论与算法

    数据分析算法大致可以分为计算数学算法、统计算法、计算机算法、优化算法等。由于这些算法来源于不同领域,其侧重点和使用的主要工具都有所不同,然而它们之间又有着千丝万缕的关系,相互关联。

    (1)大数据分析的计算数学理论与算法

    计算数学包括数值分析、数值代数和最优化等,为大数据分析提供了坚实的理论和算法基础,也拓展了大数据分析的应用领域与范围。在大数据的研究中,要推动变分法、偏微分方程、低秩和稀疏优化的结合,为图像科学和医疗影像提供新的数学模型和数值方法;推动计算数学与机器学习的结合;推动偏微分方程与机器学习的结合,发展高维数据分类、聚类和降维的新方法和理论。针对数据模型,可以推广基于多尺度的降维方法在物理模型中的应用,例如图像表示的小波方法就可以看成一个多尺度方法。深度学习网络的训练也和多重网格算法有很多相似之处,可以系统地研究多尺度方法在非结构数据分析中的应用。基于多层次神经网络的深度学习方法可以看成一种自适应、多尺度、多层次的表示方法,加深了对深度学习的理解,有助于找出其基本原理并推广。神经网络也可以看成一种特殊的图模型,从图模型的角度来看,神经网络有希望发展出更一般的多尺度、多层次模型。多年来,在计算数学领域发展出了一系列行之有效的并行算法、随机分析方法和张量分析方法,这为大数据分析提供了有效的途径。优化算法是计算数学和大数据分析的主要课题之一,实验室将研究在大数据中如何发展有效的优化算法。

    (2)大数据统计分析方法

    在分析大数据时,比较大的一个挑战是如何处理大数据的复杂性和不确定性,需要运用统计学原理及方法、机器学习方法来处理这两方面分析中的技术问题。数据的不确定性会带来预测结果的不确定,在统计中可以用随机变量的分布来描述数据的不确定性,然后用置信区间或置信带来量化预测结果的不确定性。

    随着计算机硬件的发展与大数据时代的来临,深度学习作为一种通用的人工智能算法,在近些年取得了巨大的成功。对比传统的模式识别方法,深度学习不再需要人工进行特征设计,而是采用端到端的方式进行训练,并在计算机视觉、语音识别和自然语言处理等很多领域都取得了突破性的进展。目前的深度学习算法主要面临模型复杂度较高、速度慢以及需要大量训练数据等问题。为了进一步推动深度学习的发展和广泛应用,仍需要突破以下关键技术:深度神经网络模型的预测加速和模型压缩、类人的深度学习过程以及新型的深度学习优化方法等。随着深度学习的不断发展,各种复杂的网络结构,特别是深层神经网络,由于灵活性较高,具有良好的表达能力,引起了越来越多的关注。但由于缺乏理论上的指导和支撑,目前深层神经网络的大量自由参数大多数情况下仍需依赖经验来调节与优化,离理论上的最优性能仍有较大差距。此外,如此复杂的模型很容易在特定的数据集上得到近乎理想的拟合效果,然而在推广泛化性能上却往往很难得到保障。为了推动深度学习的发展,继续提高模型的性能,需要对复杂神经网络的优化算法进行进一步的研究。

    深度学习在许多领域都有广泛的应用。在实际应用中,根据计算平台资源等方面的限制,往往需要设计出不同计算复杂度的模型。由于缺乏系统性方法的指导,很多神经网络的超参数(如卷积神经网络的层数、每层卷积神经网络卷积核的类型与数量等)都需要依赖经验来设定,然后通过大量的实验来验证模型的性能。因此,将深度学习算法在特定问题上进行应用的关键是如何在学习的过程中简单有效地完成超参数的自动选择。

    深度学习在监督学习领域已经取得了巨大的成功。基于监督学习的深度学习方法通常需要海量的标注数据进行训练,从而保证模型的推广性能。但在很多应用中,标注数据往往很难获得或者获得成本过高,而没有标注的原始数据往往很容易获得。相对地,人脑可以在没有监督信息时主动地从周围环境中学习。因此,要实现更加高级的智能行为,现有深度学习算法需要突破传统的监督学习模式,从监督学习向半监督学习乃至无监督学习转变,借鉴人与环境之间的交互过程,主动且自动地完成增强学习,以摆脱对监督信息的依赖,在更严苛的环境下完成学习任务。

    2.3 大数据挖掘技术

    在大数据挖掘技术方面,该实验室主要关注文本、视频、时空等典型数据类型,同时大力开展大规模并行数据挖掘技术的研发。

    (1)文本大数据分析技术

    深度语义分析、跨领域跨语言情感分析、大规模高精度文本知识挖掘、智能文本对话、语义搜索引擎等是实现大规模文本数据挖掘和自然语言理解的基础技术。设计制造自动人机对话平台(即智能问答机器助理)被认为是现代人工智能的一项充满挑战也极具困难性的任务。能主动引领新话题的对话模式(即主动式智能问答机器助理)对于现有的被动式人机对话模式而言是全新的突破。语义搜索引擎的应用可以大规模定制化采集任意多个网址、网页和文档信息,利用语义搜索引擎分析相关内容,筛选有价值的信息,构建语义索引,自动汇聚。该平台用于大规模文本的信息筛查和收集,可有效实现基于语义的信息与知识汇聚,有利于基于文本大数据技术的应用,实现科学决策。基于该平台,可以开发行业知识服务与决策支持系统(如智能辅助诊疗、智能新闻报道)、智库信息服务(智能产品服务、智库系统)、通用个人知识助理等行业、专业及通用的知识服务应用。

    (2)面向海量视频图像数据的语义分析技术

    基于语义的图像视频分析是计算机视觉和多媒体领域的一个基本问题,与人工智能、机器学习、人机交互等领域紧密相关。其中,图像数据相关的主要任务有图像分类、物体检测等,视频相关的任务包括多媒体语义事件检测、视频语义标注等。由于视觉数据的特征表达与真实的语义之间存在“语义鸿沟”的问题,尽管现有的研究工作提出了大量理论与算法,上述问题仍然面临着巨大的挑战。特别地,在图像、视频数量爆炸式增长的今天,如何充分挖掘海量视觉数据及其语义标注信息成为新的技术难题。传统的机器学习模型往往无法充分表达海量视频图像数据的语义复杂度,并进而构建高效的用于预测的模型。因此,需要针对海量视频图像数据的特性进一步扩展与增强现有的模型、理论和算法,并在公开的数据集上评测其性能。面向海量视频图像数据的语义分析技术研究需要突破的关键问题有图像快速索引、多媒体事件检测、视频语义标注等。

    (3)时空数据分析技术

    时空数据挖掘主要分为以下几类:时空模式挖掘、时空聚类、时空分类、时空异常检测等。在应用层面,可以以社会经济现象感知为目标,以时空大数据为基础,并以时空数据挖掘算法为支撑,发展一系列分析方法,包括个体移动行为模式分析、活动时间变化特征分析、场所情感语义分析等。移动是个体层次空间行为最直接的外在表现,个体移动行为模式分析是利用时空大数据中的移动轨迹信息研究个体移动模式或模型的方法;活动时间变化特征分析是指基于城市不同区域对应的活动日变化曲线,研究其用地特征和在城市运行中所承载的功能;同时,社交媒体(如推特、微博等)中包含了大量文本数据,这些数据成为语义信息获取的重要来源,其中带有位置的社交媒体数据通常占3%,可以利用这部分数据揭示与地理位置有关的语义信息,即进行面向场所的情感语义分析。

    (4)大规模并行数据挖掘技术

    考虑到当前开放互联环境中海量数据挖掘和应用的需求,该实验室将充分考虑分布式数据的特点,结合不断发展的、多样的存储和计算环境,研究海量分布式数据挖掘的理论、方法和技术、规范体系,力争使我国在相关领域的研究成果进入国际领先行列,重点突破海量数据挖掘系统体系结构、基于云计算的数据模型、分布式数据挖掘算法(包括分类算法、关联规则算法、主成分分析算法)等关键技术。

    2.4 大数据可视分析技术

    可视分析是对大数据进行分析的一种有效手段,日益受到重视。在中国计算机学会大数据专家委员会发布的2014—2016年大数据发展十大趋势中,可视分析技术连续3年被列入其中。可视分析技术的目标是使数据分析过程透明化。它结合了可视化、人机交互和自动分析技术。在一个典型的可视分析流程中,自动分析的结果通过可视化展示给用户,用户通过人机交互技术评价、修改和改进自动分析模型,从而得到新的自动分析结果。通过这种方式,可视分析技术将人的经验智慧与机器的运算能力紧密地结合在一起。这其中,由人来定义分析任务的模式,由机器来存储和分析大量的数据。分析结果的可视化则成为人与机器合作的桥梁。

    ● 大数据原位可视分析技术。最初的面向科学的原位可视化技术将数据处理与可视化代码、数值模拟代码进行耦合,在数值模拟程序运行的过程中进行若干处理与可视化工作,即时对相关特征进行提取并存储,从而能在后续处理中得到完整、精确和可靠的数据分析和可视化结果,用以支持用户的探索与分析。原位处理能在保证数据精度的同时,大幅减少所需数据存储、数据传输以及后续处理的代价。同时,原位处理的过程中,也能即时产生相关的可视化内容,用户可以基于内容对模型模拟过程进行监测、调整和操控。同样的思路可以被推广到一般意义上的复杂大数据分析中,在大数据产生和运输过程中,同步开展有效的可视化工作,可解决大数据可视化的瓶颈问题。

    ● 多尺度时空可视分析技术。面对多种不同来源、不同粒度的数据,如何在时空内进行融合是分析时空数据的巨大挑战。在统一空间内,将多源数据进行可视化处理并提供有效的可视分析手段是目前的研究热点之一。多尺度时空可视分析技术是探索应对大规模、异构的时空数据时较为通用的交互式分析和探索方法。

    ● 支持态势感知的大数据可视分析技术。传统的数据分析任务主要是针对单个或者一类数据进行的分析,随着大数据的出现,各式各样具有隐性相关关系的数据涌现出来。在一些复杂任务中,往往需要同时对不同类别的数据进行采集、监控、分析以及响应。支持用户对这类分析过程进行实时感知把握是今后可视分析需要具备的重要功能。

    2.5 大数据智能知识管理与决策支持技术

    面向大数据的知识发现、管理和决策支持服务平台是大数据分析流程中关键的一环。其中包括4个方面的主要内容:一是面向多源异构数据源的知识图谱构建和融合,将不同的数据源的数据进行有效的整合,形成面向一个领域或者开放领域的完备的知识图谱;二是海量知识数据的存储和查询等数据管理问题,一个面向海量知识数据的高效的知识图谱数据管理系统是提供知识服务和支撑上层决策的基础;三是智能知识检索和分析,笔者希望为用户提供一种基于可视化技术的、交互式的知识数据访问和分析的平台接口,方便普通用户使用知识图谱;四是在上述知识图谱的构建和分析的基础上,针对复杂的问题提出定性定量综合集成建模体系,从而有效支持相关决策。

     

    大数据支撑平台

    针对上述技术,大数据分析与应用技术创新平台将搭建相应的支撑平台,支持方法和系统的研发与落地。

    (1)大数据分析系统开发平台

    大数据分析系统开发平台建设专门面向大数据分析技术的支撑平台与系统,实现大数据机器学习算法的高效并行化,为各种机器学习算法提供统一的、用户透明的调度过程。构建两个面向大数据分析的算法库:面向大数据统计与机器学习分析处理基础算法的并行算法库、面向大数据挖掘技术核心算法的并行算法库。依托天河二号超级计算机,设计面向大数据分析与处理的软件支撑平台,包括基于天河二号的大数据可视化分析系统、支撑大数据可视化的基础并行算法库、实现知识图谱的基础并行算法库与软件系统支撑平台。重点突破大数据背景下深度学习、数据挖掘等各类应用的共性问题,研究解决这些问题的基础算法的并行性,研究并行编程框架及其支撑系统,创建基于天河二号的大数据分析软件支撑平台与系统。

    (2)大数据分析系统测试评估平台

    大数据分析系统测试评估平台是一个综合性试验测试平台,能够实现各种大数据分析方法和系统在多种数据对象、应用场景下的主客观质量测试和应用验证。大数据分析系统测试评估平台将建立标准测试方法和手段,并建立综合性的测试数据集合,能够提供多种情况下的测试评估能力,对其他平台的结果具有良好的支撑作用。

    (3)大数据分析可视化展示平台

    大数据分析可视化展示平台将提供先进的可视化显示环境,提供对目标数据分析效果的高效可视化,提供高度沉浸式、高像素分辨率的大规模可视化设施。大数据分析的可视化通常需要同时展示大量、高精度、多角度的复杂图形信息,以便使用者进行观察与分析。

    (4)重大应用示范与系统集成平台

    重大应用示范与系统集成平台主要通过与共建单位合作,在安全、交通等方面建设包括多种应用在内的大数据重大应用示范与系统集成。

     

    未来发展方向

    大数据分析与应用技术国家工程实验室瞄准国家的重大需求进行发力和突破,同时,还将以企业和市场的需求为导向,以提高产业自主创新能力为目标,力争在我国大数据分析与应用领域形成一批重大的标志性成果。

    在科研与人才的体制机制上,积极进行探索和创新,与北京大学大数据科学研究中心、北京大数据研究院等院校机构和科研单位进行深度协作,整合各方资源,发挥各方优势,努力实现机构共建、人才联聘、成果共享的“三位一体”运行新机制。

    在大数据人才培养上,将以往的分学科、分阶段的“串联式”培养方式升级为多学科交叉、理论与实践并行的“并联式”培养方式,联合北京大学数学科学学院、信息科学学院等院系,聚合数学、计算机、工程应用等多方面的资深专家,为大数据领域的优秀人才营造良好的成长环境。在提高人才培养效率的同时,使其具备利用大数据相关理论与实践经验解决具体问题的实战能力。

    大数据分析与应用技术国家工程实验室依托北京大学建立研究环境与核心团队,构建创新生态。针对大数据分析技术,建立研究开发和试验平台,开展针对大数据的预处理和质量控制、大数据的计算数学理论与算法、大数据的统计方法及理论、大规模机器学习方法、面向异构多源大数据的挖掘和分析、大数据的可视化以及知识计算和决策支持等方面的研究;针对重点行业应用和数据产业的发展需要,建立大数据分析系统和数据产业工业化应用的全流程开发框架和系统标准;并以支撑平台为基础,加强与支持单位以及优势单位和地区开展的合作研究,突破现有大数据分析的技术瓶颈,引领国内外大数据分析产业的发展,涌现一批具有自主知识产权、形成国际影响力的大数据分析系统平台,为我国大数据分析产业的发展以及基于大数据的政府决策、企业创新等提供基础支撑。

     

    结束语

    本文从我国大数据分析与应用的共性技术、大数据支撑平台和应用的现状和存在的问题出发,介绍了大数据分析与应用技术国家工程实验室建设的大数据分析与应用技术创新平台技术架构。创新平台围绕数据科学理论体系、大数据计算系统与分析理论等重大基础研究进行前瞻布局,开展数据科学研究,引导和鼓励在大数据分析的理论、方法及关键应用技术等方面展开探索。创新平台将引领大数据分析技术和国际标准发展,为我国大数据分析产业健康发展提供技术支撑、实验中心和人才基地。在产学研结合方面,该平台将成为支撑产业健康发展的核心试验支撑平台和充满活力的开放式研究开发环境。

    展开全文
  • 近年,区块链技术持续创新,区块链产业逐步形成,开始在供应链金融、征信、产品溯源、版权交易、数字身份、电子证据等领域快速应用,助力实体经济和数字经济实现技术变革、组织变革和效率变革,为构建现代化经济体系...

    近年区块链技术持创新区块链产业逐步开始在供应链金融征信品溯源版权交易数字身份电子证据等领域快速应用助力实体经济和数字经济实现技术变革组织变革和效率变革为构建现代化经济体系作出重贡献2020年4月20日,国家发改委首次明确新型基础设施的范围,将区块链作为与人工智能、云计算等并列的新技术基础设施,正式纳入“新基建”的范畴。区块链作为数据存证和信任传递的新技术,已深入到各个领域的应用发展之中,正在构建数字化社会治理体系,引领步入价值互联时代。当前,各个国家均在区块链领域不断发力,想要凭借区块链技术优势夺得先机。

     

    区块链技术网络安全应用创新大赛,由中国指挥与控制学会网络空间安全专业委员会主办,中国电子科技网络信息安全有限公司、复旦大学联合承办,中国计算机学会区块链专业委员会指导由于疫情影响集截时间延长至2020 年 8 月 15 日大赛邀请中国工程于全院士、中国科学院管晓宏院士担任顾问,邀请众多来自知企业的业界权专家赛评委会家组评估选取参赛应用方案成熟度高、可行性强或创新性高的作品进入决赛。入围团队将在后续的决赛阶段现场开展系统演示验证和路演,并由专家组评选最终获奖作品

     

     

    本次大赛诚邀广大的高校、企业及个人,携区块链与网络安全相结合的优秀科研成果、应用成果、产品或创意参赛。斩获特等奖的团队将获得高达12的奖金。大赛奖金累 80 

    参赛团可以通过入口:https://bccsaic.cetcxl.com 提交名信息。

     

     

    展开全文
  • 算法是芯片、操作系统乃至整个信息系统的基础,我国是信息技术应用大国,算法的研究在我国却及其薄弱。时至今日,我国还在被国外技术封锁、核心技术卡脖子,而算法创新才能实现信息系统的创新,才能实现操作系统的...

    一直以来,我都想写一篇信息技术领域该如何进行算法创新的文章。算法是芯片、操作系统乃至整个信息系统的基础,我国是信息技术应用大国,算法的研究在我国却及其薄弱。时至今日,我国还在被国外技术封锁、核心技术卡脖子,而算法创新才能实现信息系统的创新,才能实现操作系统的创新,才能实现行业应用方法的创新。

    基于如此急迫的环境,很多学者认为算法创新是数学家们的事,而数学家又不全具备信息技术知识,更不知道哪些应用环境需要算法,需要什么样的算法。程序员或系统架构师又过于偏向应用,拿来主义比较严重。在我国,就算能实现算法创新,却应用壁垒非常高,有些需要形成标准,有些需要形成生态。所以我国算法创新现状就是:

    “出成果难,应用更难”

    所以编写本文的目的:一方面是通过分享我的研究与市场应用经历,得出算法创新并不难,也并不是需要博士、教授、院士才能创造,他们也是因为创造而获得了该有的荣誉,因为发表论文不能证明技术可用,可用的技术根本无需发表论文,应当进行知识产权保护。另一方面是通过分析,希望具备审批、评审权力的专家权威们,以及各大巨头企业们不能再固步自封和技术化缘了!再不开放姿态接纳国产技术,且共同分享成果,共同打造生态和标准,我国将永远无法形成自主可控的核心技术或标准。而且,现在已经不是单打独斗的时代,也不能因小公司或个人有一点新东西就被收购、纳入或侵吞,生态不是一个企业、一个人打造出来的。

    文中我想从下面几个方面进行说明:

    1、算法的作用。什么是算法?算法在信息系统中的重要性有哪些?

    2、数学是算法的基础。目前都用到了哪些数学理论?哪些算法助推了数学理论的深挖?

    3、算法功能分类。算法按功能划分有压缩、加密、检错、纠错、分析、学习、管理等。

    4、创新算法的目的。创新的目的无非是:提升效率、降低能耗、增加功能、提升可信度、增强鲁棒性、降低实现难度等。

    5、算法创新的方法。通过举例如何从一个基本点拓展到一个优质的算法。

    一、算法的作用

    信息系统中,算法是极为重要的支柱性存在。算法是芯片、系统和IT行业的灵魂。芯片是实现算法逻辑的微电子电路;系统是算法功能的集合。下面举几个常见的应用领域及其所涉及的算法。

    操作系统:作业调度算法、进程调度算法、银行家算法、页面置换算法、磁盘调度算法等等,这些基础算法实现了Windows、Linux(安卓、麒麟等)、Unix(IOS、苹果)系统。

    通信系统:检错纠错算法,调度算法,甚至3G/4G/5G中码分多址、时分多址、频分多址,应用协议算法等。

    文件系统:JPG、MP3、MP4等文件类型核心是变换算法和压缩算法。

    加密系统:AES、DES、RSA等对称、非对称加密算法;MD5、SHA等哈希算法。

    这些算法早已经应用于生活中的方方面面,比如数码相机拍照保存的Jpg照片;拍视频、电影、视频电话采用的MP4、RMVB等格式;音乐采用MP3、wav等格式;日常电话、短信使用的3G/4G/5G技术;蓝牙、WiFi、NFC功能;USB接口的存储设备(U盘、硬盘);导航、定位使用了卫星通信;支付宝、微信支付、银行系统中的加密系统。举不胜举。

    二、数学是算法的基础

    这里通过几个应用领域的算法来举例说明。

    (1)JPG图片格式

    JPG图片格式中主要应用了三个算法:DCT(离散余弦变换)、预测编码、哈夫曼编码。

    离散余弦变换:是与傅里叶变换相关的一种变换,它类似于离散傅里叶变换(DFT for Discrete Fourier Transform),但是只使用实数。离散余弦变换相当于一个长度大概是它两倍的离散傅里叶变换,这个离散傅里叶变换是对一个实偶函数进行的(因为一个实偶函数的傅里叶变换仍然是一个实偶函数),在有些变形里面需要将输入或者输出的位置移动半个单位(DCT有8种标准类型,其中4种是常见的)。傅里叶变换的数学基础是三角函数和积分。

    预测编码:预测一般比较简单,就是代数运算中的加减乘除。

    哈夫曼编码:是信息论提出以来,基于最优二叉树的熵编码算法;而信息论的数学基础是概率论和随机过程。

    也就是说构建JPG算法的数学基础有:代数、三角函数、积分和概率论。所以,如果只进行理论研究的数学家,无法广泛的将各类理论进行综合应用;而作为技术研发人员,不具备这些数学基础将无法实现算法创新。

    (2)5G通信技术中的“极化码

    5G通信马上要全面应用,作为5G通信标准中核心算法之一的极化码算法(另一个为LDPC算法),其目的是解决数据在无线电传输过程中的错误问题,降低了重传率。直接表象是:用户感觉网速稳定,传输很快,不再卡顿。

    构造的核心是通过信道极化(channel polarization)处理,在编码侧采用方法使各个子信道呈现出不同的可靠性,当码长持续增加时,部分信道将趋向于容量近于1的完美信道(无误码),另一部分信道趋向于容量接近于0的纯噪声信道,选择在容量接近于1的信道上直接传输信息以逼近信道容量,是目前唯一能够被严格证明可以达到香农极限的方法。

    显然,极化码类的信道检错纠错算法,其构造方式可以是代数、概率,其理论支持是信息论。检错纠错算法全球只有十几个比如奇偶校验(LDPC)、循环冗余、BCH、海明码、卷积码(涡轮码 Turbo code)、极化码等,每一算法都基于数学。3G时代采用了Turbo code,与该码有关的技术创新专利高达几十万个。

    (3)银行密码、安全验证中的MD5算法

    MD5信息摘要算法(英语:MD5 Message-Digest Algorithm),一种被广泛使用的密码散列函数,可以产生出一个128位(16字节)的散列值(hash value),用于确保信息传输完整一致。MD5由美国密码学家罗纳德·李维斯特(Ronald Linn Rivest)设计,于1992年公开,用以取代MD4算法。这套算法的程序在 RFC 1321 标准中被加以规范。1996年后该算法被证实存在弱点,可以被加以破解,对于需要高度安全性的数据,专家一般建议改用其他算法,如SHA-2。2004年,证实MD5算法无法防止碰撞(collision),因此不适用于安全性认证,如SSL公开密钥认证或是数字签名等用途。

    我国加密标准SM3,也是散列算法的一种,而其数学基础是代数运算。

    三、算法功能分类

    (1)压缩算法

    压缩分为有损和无损,有损主要用于图像、视频、音频等视觉,听觉类的数据压缩,目前市面上主要是一些通过一些方法先对人类不感兴趣的部分进行处理,然后对剩下的数据进行无损压缩。比如:在文字方面,按照中文定义的修饰语、定语之类的对理解语句并不存在大的影响的,可以先去除,把主谓宾相对重要的信息保留,然后进行无损压缩。针对图像来讲,频率高的数据人眼是不敏感的(比如小时候晃动香火,很快时成为了一个圈或线),所以,反过来可以认为图像中颜色相同的地方是高频部分。于是DCT、傅里叶变换、小波变换、部分预测编码就是针对频率区分的算法,适当舍弃高频数据、重点保留低频数据,再将剩下的数据进行无损压缩。这样可以保留图像的视觉效果,同时具有很高的压缩率。

    无损压缩主要是针对数据压缩,并且解压后任何数据(字节、比特)均可无损还原。1948年香浓用概率理论给出了信息熵的概念,于是无损压缩就具有了压缩的理论极限。无损压缩算法有香浓费诺码、哈夫曼编码、算术编码、行程编码、字典编码等。

    (2)加密

    加密分为对称加密、非对称加密、授密与签名等算法。国内有SM系列算法,国外有DES、AES、RSA等算法,有MD5、SHA(美国国家安全局设计发布)等信息摘要算法。比如百度官网(淘宝、支付宝、腾讯等等)的签名算法如下图:

    百度采用SHA256签名算法

    该证书由GlobalSign签发,该公司是一个具有很高可信度并且发展良好的证书管理机构和SSL 提供商,美国公司。

    (3)检错算法

    检错算法主要用于通信和数据文件验证,比如奇偶校验码、CRC(循环冗余码)等,该类码不一定会具有纠错能力,主要目的是为了发现错误。比如5G通信中,极化码一般会使用CRC来校验传输后的数据正确性。检错算法冗余度一般比较低,所以在一些相对比较优质的信道中使用,比如光纤通信、有线或同轴电缆等领域。

    (4)纠错算法

    检错算法主要用于通信领域,比如卫星通信、无线电通信等信号衰变比较大、且干扰多的通信领域。比如5G通信中的极化码(差错控制码)、LDPC等,目前国内也开展海洋通信技术,深空通信技术,甚至量子通信等都需要优越的纠错算法,使得数据得以可靠传输,因为没有绝对不受干扰或绝对无误的物理传输信道和设备。

    (5)分析

    数据分析类算法具有很多,比如离散数据分析的遗传算法、粒子群算法;又比如针对图像识别的snake、四叉树、主成分分析、等高线等算法;还有针对经济数据和股票分析的模型也是算法。这类算法主要为提取有用的信息而设计开发。

    (6)学习

    学习算法目前比较热门,主要是让数学模型能完全或半自我修正的算法,通过学习得到与人类有关的、所需要的、能被认知的信息结果。目前BP、MP、网络神经算法等。但目前所有的学习算法仅仅是在分析算法上提升得到的算法。例如语音识别、图像识别主要还是提取大量的样本数据,进行一定程度上的模糊比对后得出对应的结果。

    (7)管理

    这里介绍的管理算法是一个大概念,比如人类社会中,人需要遵从的法律、道德都可以被理解为设计出来的算法。比如,计算机操作系统中的内存、设备管理方法,调度方法,数据结构和文件类型定义等等都是属于管理类算法。

    上面例举了一小部分类型,感兴趣的朋友可以思考其他的场景。

    三、创新算法的目的

    创新的目的无非是:提升效率、降低能耗、增加功能、提升可信度、增强鲁棒性、降低实现难度等。比如压缩算法可以从三个方面来提升都是属于算法创新:

    (1)方法创新,如行程编码、字典编码、哈夫曼编码、算术编码具有不同的方法,这条路比较艰难,属于核心算法理论创新。自信息论确立(1948年)以来全世界核心的算法理论就几个而已。

    (2)效率创新,这个相对简单,比如算术编码和区间编码,就从一个小数运算演变成整数运算,使得效率增加;又比如我发明的加权概率模型算法,可以利用概率权系数针对一个或多个符号进行同步编码,也是属于效率增加类型。

    (3)增加算法功能,前面我们讨论的是一个算法仅实现一个功能,而通过修改算法流程或方式,让一个算法同时实现压缩或加密,于是可以解决算法硬件化的成本,提升算法应用面。

    (4)降低算法步骤,这个主要针对性能优化来讲的,能通过最少的步骤实现同样的功能,这本就是创新。

    四、算法创新的方法

    算法创新的方法是本文重点讨论的核心,了解算法的人很多,但是真正知道如何创新算法的人很少。然后我将基于不同的算法,结合我本人的经验给出一些创新的思路。希望未来,我国涌现出一批算法创新人才和专利技术。

    这里我通过人脸识别和多麦阵列算法来举例,比如最初始的人脸捕捉(定位)算法。

    首先,选择一个合理的分析环境和方法。给定一张人脸图或含有人脸的图,有可能是RGB或YUV颜色模式,以YUV为基础,Y可以代表着当前图像的黑白模式(到底是选择Y还是R、G、B可以考虑不同的场景来进行分析)。然后人脸一般可以被囊括在一个多边形的块域内,但是这个块域的中心在哪?块域大小如何确定?是首先应当提出来的问题。

    第二,人脸有哪些特征?就是分析人脸在图像中的特征,如果白天拍摄的照片,显然对于人脸来讲,在黑白情况下只有头发、眼睛、鼻孔或口会呈现出黑色,当然有可能穿了黑色的衣服等。

    第三,如何排除非人脸?人类固有的脸部特征是头发、眼睛、鼻孔、口的间距是有一定的参考特征范围的,于是就可以排除黑色衣服、包、或其他黑色的物件等。区分人脸还是其他动物的脸?就需要增加一切其他的只有人脸才有的特征参数,比如脸部除了胡子、黑痣以外不存在更接近黑色的色块,而且胡子的位置是相对已知的;如何不做具有胎记的人脸?胎记有很多形状,也存在很多的颜色可能,如何解决这个问题呢?解决办法可以设定场景内只允许出现人(这个是目前国内安检的主要做法)或者利用半脸复制的方法,如果半脸复制去除有胎记的色块,并判断眼、鼻间距相似则可以认定为是一个人脸。值得注意的是:分析并列出所有的可能性,针对每一种可能性寻找事务最基本的本质作为算法因子,如果是一些表象,则无法实现优质算法。

    第四,如何获取图像远近中的人脸?又如何获取侧面的人脸?因为块域的大小和摄像头所在的位置、输出图像的尺寸存在关联,所以需要确定一些因数后再考虑通过眼、鼻、口来定位块域的中心位置。那又如何在一张图中捕捉多个人脸,且人脸的大小和遮挡也是不一样的。这里需要的还是去分析本质。首先远近对应的主要是人脸的大小和模糊程度,侧脸就不一样了需要得到眼、鼻、口的曲线关系才是脸的本质,耳朵和帽子、眼睛只能作为不重要的辅助因数。或者(大)半脸的矩阵变换(旋转、扭曲)关系才是本质。

    第五,如何提升捕捉率?这里涉及的主要是遍历方法和摄像头的位置、图像采集尺寸、以及块域的初始大小。当确定这些参数,可以分为主扫描和多个辅扫描来提升人脸确定效率和遍历效率。即第一次用最大的块域和最小的块域作为窗口,每次向左下角移动一像素然后分析当前的块内是不是一个人脸(可以多方向同时进行扫描);也可以根据图像的特点和场景,用一个可缩的窗口不断的缩小;可以利用图像颜色和明亮度,得出脸部块的基本数值类型,然后利用四叉树、等高线、snake算法找出人脸的边界。

    第六,如何进行识别?由于每次分析的都是事务的本质,所以这些本质同时也能代表某个特定人的生物标识。所以可以适当的在不同的光线和尺寸下,改变矩阵变换参数,利用本质信息进行一定程度的模糊识别不存在问题。

    显然,一个简单的人脸识别算法,所涉及的内容巨大的,所能产生的不同创新也是不一样的,当然这里需要具有基础的数学功底,知道矩阵变换、三角函数等基础数学理论。我的方法是先分析问题,然后找数学方法,通过实验找出最优的实现方式和公式。因为移动就涉及向量运算,钮动和缩方涉及矩阵运算,其他的还有求平均值,方差,三角函数和一些数据结构方面的知识,比如二叉树、四叉树等。原则是:

    “分析问题的本质,构建最少参数的表达式”

    (后续我将逐步描述检错纠错、加密、压缩等算法创新方法)

    展开全文
  • 信息技术应用能力提升培训心得体会两篇篇一:本月,我进行了“教师信息技术应用能力提升工程”的学习,学习过程中的每一天我都过得非常充实。这次的培训我学习到了很多,每一个视频的内容都非常有意义、有价值。所以...
  • 技术在支付清算行业的创新应用

    千次阅读 2019-03-14 17:54:55
    侯维科技 近年来,在技术变革外部驱动和转型发展内生需求的双重作用下,网络支付、移动支付等新兴支付已成为零售支付...新技术加快支付清算行业创新发展 (一)技术发展促进支付领域全方位持续变革 众所周知,货币的...
  • 语音数字信号处理技术应用 --- 创新点头脑风暴 最近在总结语音数字信号处理的应用,发现应用真是五花八门,这在我介绍一些,大家可以去补充或一些自己觉得会比较好玩的应用。1. 音频后处理,如低音特效,环绕,3D...
  • 17个微信创新应用案例,其实就是针对不同的应用场景结合传统行业打造的一个新的营销方式。 1、百果园--搜索附近的人品牌曝光之鼻祖 使用微信查找附近的人的时候经常排在第一位的是谁知?道吗?就是百果园,微信...
  • 技术的变革把我们从PC时代带进了移动信息时代,移动技术创新更是给我们的生活带来了前所未有的便利。在如今这个PC和移动终端已经深度融合的时代,移动应用百花齐放,开源框架层出不穷,但是在高速发展的技术道路上...
  • 4月4日,工业互联网平台宣讲团第二季第二讲继续开讲,由中国西电集团中央研究院总经理康鹏举博士为大家分享“工业互联网平台的技术内核和创新应用”。“工业互联网平台宣讲团”,在工信部信软司大力支持下,由中国...
  • 上一篇说到了是由于新技术的创新应用在一定程度上导致了“看病难、看病贵”的问题,那哪些IT、信息技术可以很好地应用到医疗行业中来呢?1. 集视频、RFID、GPS、GPRS、无线传感网络、条码于一体的IT硬件和医疗...
  • 信息技术发展及趋势

    万次阅读 2019-05-31 14:14:46
    当前,信息技术发展的总趋势是从典型的技术驱动发展模式向应用驱动与技术驱动相结合的模式转变,信息技术发展趋势和新技术应用主要包括以下10个方面: 1高速度大容量 速度和容量是紧密联系的,鉴于海量信息四处充斥...
  • 全国计算机技术与软件专业技术资格(水平)考试 2016上半年信息系统管理工程师 下午试卷I (考试时间 14:00~16:30 共 150分钟) 1.在答题纸的指定位置填写你所在的省、自治区、直辖市、计划单列市的名称。 2....
  • 随着科学技术的进步和互联网信息技术的快速发展,数字多媒体设计不断创新和发展,它不仅丰富了传统艺术设计的形式,而且在一定程度上丰富了艺术内容,本文从艺术设计设计的现状,阐述了数字多媒体设计创新的必要性,...
  • 行业云应用创新加快,云数据中心建设规范呼之欲出 ...云计算作为未来新一代信息技术与IT应用方式变革的核心、我国战略性新兴产业发展的重点领域,已经成为当前信息技术产业发展和应用创新的热点。大规模
  • 关于应用安全可控信息技术加强银行业网络安全和信息化建设的指导意见     各银监局、各省(自治区、直辖市及计划单列市)发展改革委、科技厅(委、局)、工业和信息化主管部门、各政策性银行、国有...
  • 40个!中国联通5G应用创新案例!

    千次阅读 2021-03-13 00:17:09
    09 贵阳广播电视台5G+4K融媒体创新实验室 中国联通与贵阳广播电视台签订合作协议,以市电视台融媒体工作区为中心,打造全国首个城市媒体5G+4K融媒体创新实验室,全省首个5G+4K+AI融媒体应用示范基地。 二、5G+工业...
  • 三、容器应用3.1 容器技术应用场景3.1.1 PaaS平台建设 最早的PaaS平台方案初步解决了很多客户对于应用弹性的需求,但是在容器技术之前,构建一套PaaS平台面临着组件多、量级大、改造成本高等挑战,而且对于运行在...
  • 聊聊Netflix的技术创新

    千次阅读 2019-02-11 11:12:11
    昨天晚上和同事一起吃晚饭,期间聊到Netflix技术那些大胆的创新,事后觉得有必要总结一下,给团队分享,让大家了解世界顶级的技术组织在技术、架构、组织和文化方面的创新。让大家在埋头干活的时候,偶尔也可以抬头...
  • 您不防在实际操作中应用ILM(信息生命周期管理)法则来帮助降低成本、提高存储系统可用性及安全性而且降低数据管理的复杂性。这个创新的四步法则主要基于身份认证、虚拟化、数据加密与保护、统一的管理平台等先进的...
  • 基于区块链的思考与创新应用实践

    千次阅读 2019-03-22 14:29:10
    而中国银联自2015年起,就展开了对区块链的研究及创新应用实践,逐步深化对区块链的理解,并形成创新实践成果。 本篇文章将研究及实践结果分享给大家,帮助大家了解区块链技术,以及启发大家对区块链的思考,文章...
  • 3D技术及其应用

    千次阅读 2018-11-09 00:59:56
    3D技术及其应用
  • 挑战应用创新,赢取心动大奖

    千次阅读 2008-12-02 18:24:00
    通过这一论坛网站,提供给开发伙伴不同的渠道,包括工具、SDK、技术支持、引入市场等信息。同时为广泛且多样的开发伙伴提供长期支持与服务。诺基亚有着一套很完善的商业模式,优势在于诺基亚在全球有大约10亿手机...
  • 智慧中国杯 全国大数据创新应用大赛 已经正式上线 三大行业(教育、金融、交通)赛题同时发布 首次“算法赛+应用赛”综合比拼 100万超大规模奖金池 算法赛还有独立奖金拿 一场数据征服之战已经开启竞赛背景...
  • 以复合应用软件推动业务创新

    千次阅读 2006-10-17 19:11:00
    高速带宽的网络,开放的标准,面对对象的技术,终于让软件组件化进入了一个新时代,SOA的时代,而复合应用软件(Composite Applications)就是这次软件组件化进化的一个里程碑。什么是复合应用软件?它并非是一种新...
  • 物联网是新一代信息技术的重要组成部分。其英文名称是“TheInternetofthings”。由此,顾名思义,“物联网就是物物相连的互联网”。这有两层意思:第一,物联网的核心和基础仍然是互联网,是在互联网基础上的延伸和...
  • 人工智能技术及其应用初探

    万次阅读 2019-02-15 08:46:24
      2019-02-12 17:31:13 导读:随着数字经济的发展,人类...人工智能技术将成为推动社会经济发展的重要基础支撑,将与互联网一样,通过与实体经济的融合,通过各种技术、产品和工具,融入各行各业中,不断改造各...
  • 机器学习及5种创新形式的应用

    千次阅读 2018-03-03 11:21:33
    尽管无法预测其时间范围,但人工智能(AI)有望对现代社会产生基本影响,无论好坏。 人工智能的一个子类 - 机器学习 - 引起... 答案是,从最广泛的意义上讲,机器学习模型是AI的应用,其中算法独立地预测结果。 换句...
  • P2P技术原理及应用

    万次阅读 2018-06-21 12:01:54
    P2P技术原理及应用 作 者:金海 廖小飞 摘要:对等网络(P2P)有3种主要的组织结构:分布式哈希表(DHT)结构、树形结构、网状结构。P2P技术已经延伸到几乎所有的网络应用领域,如分布式科学计算、文件共享、流媒体直播...
  • 诺基亚透露未来摄像头创新技术

    千次阅读 2013-11-15 18:54:46
    在近日举办的Slush 2013上,诺基亚投资部门“Nokia Growth Partners”向外界透露了一些正在研发中的拍照手机创新技术和基于诺基亚长期投资的其他一些公司的创新技术,这一切看起来都十分诱人! 1、我们有能力制造...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 191,988
精华内容 76,795
关键字:

信息技术应用创新