精华内容
下载资源
问答
  • Loesss and Lowess —— 样条光滑( Smoothing Spline ) —— B-spline —— Friedman Supersmoother 模型: —— 非参数密度估计 —— 非参数回归模型 —— 非参数回归模型 —— 时间序列的半参数模型 —— ...

    由詹鹏整理,仅供交流和学习

    根据南京财经大学统计系孙瑞博副教授的课件修改,在此感谢孙老师的辛勤付出!

    教材为:

    Luke Keele: Semiparametric Regression for the Social Sciences. John Wiley & Sons, Ltd.

    2008.

    -------------------------------------------------------------------------

    第一章

    introduction: Global versus Local Statistic

    一、主要参考书目及说明

    1

    Hardle(1994). Applied Nonparametic Regresstion.

    较早的经典书

    2

    Hardle etc (2004). Nonparametric and semiparametric models: an introduction. Springer.

    结构

    清晰

    3

    Li and Racine(2007). Nonparametric econometrics: Theory and Practice. Princeton.

    较全面和

    深入的介绍,偏难

    4

    Pagan and Ullah (1999). Nonparametric Econometrics.

    经典

    5

    Yatchew(2003). Semiparametric Regression for the Applied Econometrician.

    例子不错

    6

    、高铁梅(

    2009

    )

    .

    计量经济分析方法与建模:

    EVIEWS

    应用及实例(第二版)

    .

    清华大学

    出版社

    .

    (

    P127/143

    )

    7

    、李雪松(

    2008

    )

    .

    高级计量经济学

    .

    中国社会科学出版社

    .

    (

    P45 ch3

    )

    8

    、陈强(

    2010

    )

    .

    高级计量经济学及

    Stata

    应用

    .

    高教出版社

    .

    (

    ch23/24

    )

    【其他参看原

    ppt

    第一章】

    二、内容简介

    方法:

    ——

    移动平均(

    moving average

    )

    ——

    核光滑(

    Kernel smoothing

    )

    ——

    K

    近邻光滑(

    K-NN

    )

    ——

    局部多项式回归(

    Local Polynormal

    )

    ——

    Loesss and Lowess

    ——

    样条光滑(

    Smoothing Spline

    )

    ——

    B-spline

    ——

    Friedman Supersmoother

    模型:

    ——

    非参数密度估计

    ——

    非参数回归模型

    ——

    非参数回归模型

    ——

    时间序列的半参数模型

    ——

    Panel data

    的半参数模型

    ——

    Quantile Regression

    三、不同的模型形式

    1

    、线性模型

    linear models

    2

    Nonlinear in variables

    3

    展开全文
  • | 集成学习(上) | 集成学习(下) | 聚类 | 降维与度量学习 | 稀疏学习 | 计算学习理论 | 监督学习 | 概率图模型 | 规则学习 增长见识: 博士毕业去高校难度大吗? | 研读论文有哪些经验之谈...

    点上方计算机视觉联盟获取更多干货

    仅作学术分享,不代表本公众号立场,侵权联系删除

    转载于:专知

    985人工智能博士笔记推荐

    周志华《机器学习》手推笔记正式开源!附pdf下载链接,Github2500星!

    深度学习是机器学习和人工智能研究的最新趋势,作为一个十余年来快速发展的崭新领域,越来越受到研究者的关注。卷积神经网络(CNN)模型是深度学习模型中最重要的一种经典结构,其性能在近年来深度学习任务上逐步提高。由于可以自动学习样本数据的特征表示,卷积神经网络已经广泛应用于图像分类、目标检测、语义分割以及自然语言处理等领域。首先分析了典型卷积神经网络模型为提高其性能增加网络深度以及宽度的模型结构,分析了采用注意力机制进一步提升模型性能的网络结构,然后归纳分析了目前的特殊模型结构,最后总结并讨论了卷积神经网络在相关领域的应用,并对未来的研究方向进行展望。

    地址:

    http://fcst.ceaj.org/CN/abstract/abstract2521.shtml

    卷积神经网络(convolutional neural network,CNN) 在计算机视觉[1- 5]、自然语言处理[6- 7]等领域已被广泛 应用。在卷积神经网络兴起之前,主要依靠人工针对特定的问题设计算法,比如采用 Sobel、LoG(Laplacian of Gaussian)、Canny、Prewitt 等[8- 11]算子进行边 缘 检 测 ,采 用 Harris、DoG(difference of Gaussian)、FAST(features from accelerated segment test)、SIFT (scale invariant feature transform)等[12-15]用于角点等特 征检测,并且采用传统分类器如 K近域、支持向量机、 稀疏分类器等[16- 18]进行分类。特征提取和分类器的 设计是图片分类等任务的关键,对分类结果的好坏 有着最为直接的影响。卷积神经网络可以自动地从 训练样本中学习特征并且分类,解决了人工特征设计 的局限性。神经网络的思想起源于1943年McCulloch 和 Pitts 提出的神经元模型[19],简称 MCP 神经元模 型。它是利用计算机来模拟人的神经元反应的过 程,具有开创性意义。此模型将神经元反应简化为 三个过程:输入信号线性加权、求和、非线性激活。1958 年到 1969 年为神经网络模型发展的第一阶段, 称为第一代神经网络模型。在 1958 年 Rosenblatt 第 一次在 MCP 模型上增加学习功能并应用于机器学 习,发明了感知器算法[20],该算法使用 MCP 模型能够 采用梯度下降法从训练样本中自动学习并更新权 值,并能对输入的多维数据进行二分类,其理论与实 践的效果引起了神经网络研究的第一次浪潮。1969 年美国数学家及人工智能先驱 Minsky在其著作中证 明感知器本质上是一种线性模型[21],只能处理线性分 类问题,最简单的异或问题都无法正确分类,因此神 经网络的研究也陷入了近二十年的停滞。1986 年到 1988 年是神经网络模型发展的第二阶段,称为第二 代神经网络模型。1986 年 Rumelhart 等人提出了误 差反向传播算法(back propagation algorithm,BP)[22]。

    BP 算法采用 Sigmoid 进行非线性映射,有效解决了 非线性分类和学习的问题,掀起了神经网络第二次 研究高潮。BP 网络是迄今为止最常用的神经网络, 目前大多神经网络模型都是采用 BP网络或者其变化 形式。早期神经网络缺少严格数学理论的支撑,并 且在此后的近十年时间,由于其容易过拟合以及训 练速度慢,并且在 1991 年反向传播算法被指出在后 向传播的过程中存在梯度消失的问题[23],神经网络再 次慢慢淡出人们的视线。

    1998 年 LeCun 发明了 LeNet-5,并在 Mnist 数据 集达到 98%以上的识别准确率,形成影响深远的卷积 神经网络结构,但此时神经网络的发展正处于下坡 时期,没有引起足够的重视。从感知机提出到 2006 年以前,此阶段称为浅层 学习,2006 年至今是神经网络的第三阶段,称为深度 学习。深度学习分为快速发展期(2006—2012 年)和 爆发期(2012 年至今),2006 年 Hinton 提出无监督的 “逐层初始化”策略以降低训练难度,并提出具有多 隐层的深度信念网络(deep belief network,DBN)[24], 从此拉开了深度学习大幕。

    随着深度学习理论的研究和发展,研究人员提 出了一系列卷积神经网络模型。为了比较不同模型 的质量,收集并整理了文献中模型在分类任务上的 识别率,如图 1所示。由于部分模型并未在 ImageNet 数据集测试识别率,给出了其在 Cifar-100 或 Mnist数 据集上的识别率。其中,Top-1识别率指的是 CNN 模型预测出最大概率的分类为正确类别的概率。Top-5 识别率指的是 CNN 模型预测出最大概率的前 5 个分 类里有正确类别的概率。

    2012 年,由 Alex Krizhevshy 提出的 AlexNet给卷 积神经网络迎来了历史性的突破。AlexNet 在百万 量级的 ImageNet数据集上对于图像分类的精度大幅 度超过传统方法,一举摘下了视觉领域竞赛 ILSVRC2012的桂冠。自 AlexNet之后,研究者从卷积神经网 络的结构出发进行创新,主要有简单的堆叠结构模 型,比如 ZFNet、VGGNet、MSRNet。堆叠结构模型通 过改进卷积神经的基本单元并将其堆叠以增加网络 的深度提升模型性能,但仅在深度这单一维度提升 模 型 性 能 具 有 瓶 颈 ;后 来 在 NIN(network in network)模型提出使用多个分支进行计算的网中网结 构模型,使宽度和深度都可增加,具有代表性的模型 有 Inception 系列模型等;随着模型深度以及宽度的 增加,网络模型出现参数量过多、过拟合以及难以训 练等诸多问题。ResNet 提出残差结构后,为更深层 网络构建提出解决方案,随即涌现出很多残差结构模 型,比如基于 ResNet 改进后的 ResNeXt、DenseNet、 PolyNet、WideResNet,并且 Inception也引入残差结构 形成了 Inception-ResNet-block,以及基于残差结构并 改进其特征通道数量增加方式的 DPResNet;与之前 在空间维度上提升模型性能的方法相比,注意力机 制模型通过通道注意力和空间注意力机制可以根据 特征通道重要程度进一步提升模型性能,典型的模 型为 SENet、SKNet 以及 CBAM(convolutional block attention module)。

    传统的卷积神经网络模型性能十分优秀,已经 应用到各个领域,具有举足轻重的地位。由于卷积 神经网络的模型十分丰富,有些模型的结构或用途 比较特殊,在本文中统称为特殊模型,包括具有简单的结构和很少参数量的挤压网络模型 SqueezeNet,采 用无监督学习的生成对抗网络模型(generative adversarial network,GAN),其具有完全相同的两路网络 结构以及权值的孪生神经网络模型 SiameseNet,以 及通过线性运算生成其他冗余特征图的幽灵网络 GhostNet。由于卷积神经网络的一系列突破性研究成果, 并根据不同的任务需求不断改进,使其在目标检测、 语义分割、自然语言处理等不同的任务中均获得了 成功的应用。

    基于以上认识,本文首先概括性地介绍了卷积 神经网络的发展历史,然后分析了典型的卷积神经 网络模型通过堆叠结构、网中网结构、残差结构以及 注意力机制提升模型性能的方法,并进一步介绍了 特殊的卷积神经网络模型及其结构,最后讨论了卷 积神经网络在目标检测、语义分割以及自然语言处 理领域的典型应用,并对当前深度卷积神经网络存 在的问题以及未来发展方向进行探讨。

    -------------------

    END

    --------------------

    我是王博Kings,985AI博士,华为云专家、CSDN博客专家(人工智能领域优质作者)。单个AI开源项目现在已经获得了2100+标星。现在在做AI相关内容,欢迎一起交流学习、生活各方面的问题,一起加油进步!

    我们微信交流群涵盖以下方向(但并不局限于以下内容):人工智能,计算机视觉,自然语言处理,目标检测,语义分割,自动驾驶,GAN,强化学习,SLAM,人脸检测,最新算法,最新论文,OpenCV,TensorFlow,PyTorch,开源框架,学习方法...

    这是我的私人微信,位置有限,一起进步!

    王博的公众号,欢迎关注,干货多多

    手推笔记:

    思维导图  |  “模型评估与选择”  |  “线性模型”  |  “决策树”  |  “神经网络”  |  支持向量机(上)  |  支持向量机(下)  |  贝叶斯分类(上)  |  贝叶斯分类(下)  |  集成学习(上)  |  集成学习(下)  |  聚类  |  降维与度量学习  |  稀疏学习  |  计算学习理论  |  半监督学习  |  概率图模型  |  规则学习

    增长见识:

    博士毕业去高校难度大吗?  |  研读论文有哪些经验之谈?  |  聊聊跳槽这件事儿  |  聊聊互联网工资收入的组成  |  机器学习硕士、博士如何自救?  |  聊聊Top2计算机博士2021年就业选择  |  非科班出身怎么转行计算机?  |  有哪些相见恨晚的科研经验?  |  经验 | 计算机专业科班出身如何提高自己编程能力?  |  博士如何高效率阅读文献  |  有哪些越早知道越好的人生经验?  |  

    其他学习笔记:

    PyTorch张量Tensor  |  卷积神经网络CNN的架构  |  深度学习语义分割  |  深入理解Transformer  |  Scaled-YOLOv4!  |  PyTorch安装及入门  |  PyTorch神经网络箱  |  Numpy基础  |  10篇图像分类  |  CVPR 2020目标检测  |  神经网络的可视化解释  |  YOLOv4全文解读与翻译总结  | 

    点分享

    点收藏

    点点赞

    点在看

    展开全文
  • 这一次,知识增强大模型参数达到2600亿,既是全球首个千亿级知识增强大模型,也是目前全球最大的中文单体模型。 有这样豪华的配置,实际表现如何? 新模型在机器阅读理解、文本分类、语义相似度计算等60多项任务...
    金磊 梦晨 发自 凹非寺
    量子位 报道 | 公众号 QbitAI

    上学时候,有的同学花费大量时间去死记硬背,成绩却不一定好。

    而学霸们往往有这样的心得:在刷题之外还要总结知识体系,事半功倍。

    人学习过程中的这一现象,在机器学习领域似乎同样得到应验。

    以巨头们竞争的热点NLP大模型为例,一味增加参数规模就相当于给AI更多的背诵资料。费时费力不说,有些只能从训练数据的海量文本中学到一些词句之间表面的关联。

    强如GPT-3也无法用常识判断出问题本身是否成立,只要提问的时候使坏设个套,它就真的往里钻。

    f4cb5a47f4f2c239939b055964fe0752.png

    有网友提问“长颈鹿有几只眼睛?”,GPT-3能从文本中能学到,正确回答出两只,这很厉害。

    再问“我的脚有几只眼睛?”这样没头脑的问题,GPT-3也不会拒绝回答,而是根据概率猜测出最大可能性也是两只。

    9f0596415e05b6fde06e4d8ba7cedf33.png像极了考试没读懂题目还要硬猜的学渣

    如果用上知识增强技术,让AI同时从大规模知识和海量多元数据中持续学习会如何?

    其实知识增强大模型的威力,业界在7月份已经见证了一次。

    ERNIE 3.0一举刷新54个中文 NLP 任务基准,其英文模型在国际权威的复杂语言理解任务评测 SuperGLUE 上,以超越人类水平0.8个百分点的成绩登顶全球榜首。

    ERNIE 3.0具备超强语言理解能力以及写小说、歌词、诗歌、对联等文学创作能力。

    dfe7ef06133defd130d02ad6c24283bb.png

    不到半年时间,知识增强大模型这一方向上又传来新消息。

    这一次,知识增强大模型参数达到2600亿,既是全球首个千亿级知识增强大模型,也是目前全球最大的中文单体模型。

    有这样豪华的配置,实际表现如何?

    新模型在机器阅读理解、文本分类、语义相似度计算等60多项任务中都取得了最好效果。

    在30多项小样本和零样本任务上,也刷新了基准。

    85c0bf470f314dea7b37da00f9c3f2cf.png小样本学习效果

    fc6234c67e4b3d01e44b36893a78dd6c.png零样本学习效果

    究其原因,是大规模知识+海量无结构数据,让AI在知识的指导下学习效率更高,能够更快地学习到海量数据中蕴含的规律。

    所表现出来的也就是更加智能。

    仅仅说刷榜、跑分等干巴巴的数据可能无法激发你的想象力,如果说这给大模型产业化规模应用打开了新窗口呢?

    突破小样本、零样本学习问题,一方面能节省人工标注数据的昂贵成本,另一方面更是为本身就缺少足够数据的新场景带来希望。

    试想医疗领域,有些罕见病历史上所有病历数据都收集起来,也不足以支撑传统预训练大模型。

    像突发新型传染病这种争分夺秒的事件,如果AI可以在初期数据不足时也参与进来,病毒的破解研究和防治工作或许也能提速不少。

    说了这么多,是时候正式介绍一下这次的知识增强千亿大模型了:鹏城-百度·文心大模型,由百度联合鹏城实验室共同研发。

    c0434b91546cbc6c7125c276bfb0b0db.png中国工程院院士、鹏城实验室主任高文(左)、百度首席技术官王海峰(右)联合发布鹏城-百度·文心

    5个月时间从百亿到千亿的突破,百度做了什么?

    知识增强千亿大模型,会带来哪些改变?

    下面就来一探究竟。

    知识增强千亿大模型是怎样炼成的?

    千亿参数,要想“炼”动这种体量的大模型,一个强劲的“马达”是必不可少的。

    说的直白一些,就是硬件层面上,需要提供一个强大的算力。

    在这一方面,正如其名“鹏城-百度·文心”,它所采用的便是其前者——鹏城云脑Ⅱ

    鹏城云脑Ⅱ是一个算力集群,同时也是第一个国产自主的E级AI算力平台。或许这样说还感受不到其算力的强大,但换个角度来比较便可一目了然了。

    例如在全球高性能计算领域最权威榜单——IO500中,鹏城云脑Ⅱ便曾以7043.99分和1129.75分“技压群雄”,获得了总榜第一名和10节点榜单第一名。

    142297a4c05c3988c686c055941bdc0c.png

    但除了算力这种“硬”功夫之外,与之相辅相成的还有其“软”的一面。

    就好比炼丹过程中,不仅需要旺盛的火力,炼丹师的技艺、手法也是至关重要。

    而炼就千亿大模型背后的这位“技巧型选手”,正是大家所熟知的百度飞桨

    不过这一次,飞桨这个深度学习开源开放平台,倒是展现出了它新炼成的核心技巧。

    端到端自适应分布式训练框架

    值得一提的是,这框架是目前世界上为数不多的超大规模模型训练框架。

    与传统的分布式训练方法相比,性能能够提升2.1倍,并行效率可以高达90%。

    这个框架在面对不同的模型和硬件的时候,可以把它们“看做”统一的分布式计算视图和资源视图,并通过硬件感知细粒度切分和映射功能,搜索出最优的模型切分和硬件组合策略。

    如此一来,诸如数据、模型参数、梯度、优化器状态等,便会按照最优的策略分配到不同的计算卡上了。

    除此之外,飞桨在训练千亿大模型时为了加强模型训练的鲁棒性和稳定性,还增加了 弹性资源管理模块

    通过分布式训练框架和平台调度器之间更好的交互,来实现容错和弹性的分布式训练,从而提高整体资源利用率。

    弹性资源管理模块能感知硬件资源变化,如故障、扩容、缩容,来自动重新构建资源视图,并触发飞桨框架的各个模块来自动的做出反应,如模型切分、硬件映射、流水执行,在不中断训练的情况下,弹性调度集群可用资源,来进一步提升整体的训练的性能。

    而且为了能够在鹏城集群上高效训练,飞桨还加入了支持多种AI芯片下硬件感知的训练技巧。

    除了软硬结合之外,为了能更好地理解语言并生成内容,这次鹏城-百度·文心大模型在算法层面上也有创新之处:

    可控学习和可信学习算法。

    3c43819463c2d60794add0c686ef916e.png

    可控的意思,简单来说就是不需要任何的标注样本,就可以生成不同类型的文本。

    甚至可以把指定的体裁、情感、长度、主题、关键词等做自由组合。

    具体而言,通过可控学习,可以把模型预测出来的文本,和原始文本做拼接,并构造从指定属性生成对应文本的预训练数据。

    有了这样的数据之后,模型就通过对它的学习,做到即使面对不同类型的文本,也能炼就零样本生成的“功夫”。

    至于可信学习,就是生成出来的内容是“符合事实”的。

    在这一点上,就有点像GAN了,主要的方式是通过自监督的对抗训练,来让模型学会区分数据的真伪。

    模型在学会了这项技能之后,就可以在众多生成的候选内容中,挑出来最可靠的那个了。

    最后,炼成鹏城-百度·文心大模型的背后,还有一个首创的 大模型在线蒸馏技术

    8daeabc860f9791c4f46faeb90a9e4f8.png

    这个技术要解决的,便是应用难落地的老大难问题。

    因为大模型不论是训练还是推理,需要消耗的资源都是非常密集且昂贵。

    而在“在线蒸馏技术”的加持之下,模型参数压缩率可达99.98%

    换言之,在几乎相同的效果之下,压缩版的参数量仅为原来的0.02%

    而相比于传统的蒸馏技术,它可以在大模型学习的过程中,周期性地将知识信号传递给若干个学生模型同时训练。

    如此以来,就可以达到在蒸馏阶段一次性产出多种尺寸的学生模型的目的。

    就好比老师也需要学习,学成之后再将自己总结的笔记拿给学生们去学习。

    而有了这项技术之后,就可以做到“老师学习的同时还能教学生”的作用。

    再打个比方就是,如果大模型去参加一个考试能拿100分,那通过在线蒸馏技术后,压缩5000倍的小模型也能考出96分的高分成绩。

    但更为重要的是,算力仅需原来的1/5000

    ……

    这,便是鹏城-百度·文心千亿大模型的炼就过程。

    那么在具体应用场景上,知识增强大模型与其他模型相比有什么优势?

    打10010就能体验的大模型

    其实,百度这次除了发布鹏城-百度·文心千亿大模型,还让百度产业级知识增强大模型“文心”全景图亮了相。

    没想到吧,这样学霸级别的大模型不止一个,还有一整个大模型家族。

    文心大模型中,既包含基础通用的大模型,也包含面向重点领域、重点任务的大模型,以及丰富的工具与平台,能够促进技术创新和产业发展。

    073b660c43f4cc665b2e600651e00542.png

    • 知识增强跨语言大模型ERNIE-M,同时从多种语言中学习,让机器有了同时学习和理解多种语言的能力,权威跨语言理解榜单第一名;

    • 知识增强跨模态理解大模型ERNIE-ViL,将场景图的结构化知识融入预训练,在视觉常识推理任务榜单获得第一名;

    • 知识增强跨模态生成大模型ERNIE-ViLG,实现图文双向生成,也是全球规模最大中文跨模态生成模型。

    ……

    不过说了这么多,效果好不好,只有用起来才知道。

    而大模型“出山”下场的地方之一,是与许多人的日常所息息相关的场景——中国联通

    b9dc50d722bec8266557fafe9b16ae1f.png

    对于中国联通来说,每天都会面临来自用户的海量需求,包括业务咨询、业务办理、问题解答等等。

    对于诸如此类的业务需求,又需要马上作出回应,而且要理解用户的问题并给予满意的答复。

    培训大量的业务员所需要投入的人力、物力之大,基于中国联通的客户体量也就可想而知了。

    于是,针对这样的一种现实情况,联通便和百度携手,基于百度文心大模型打造了一款可定制的对话技术

    具体而言,这项技术采用了百度文心大模型的语义表示能力,建立了面向对话理解问题的专用预训练模型。

    换言之,现在你打“10010”咨询业务问题,作出丝滑解释的背后,正是大模型在发力。

    或许你会说,类似这种功效的智能客服AI在电商等场景中经常也能看到。

    但也正如刚才我们提到的,百度文心大模型一个非常显著的特点,就是降本增效

    在联通的这个场景中,模型对于数据标注量的需求降低了45%,如此一来便做到了在人力和物力上的“双重释放”。

    而不仅仅是在联通这个案例,百度文心大模型在金融领域也在发挥着它的作用,例如保险合同业务处理,就是其中一个。

    6fec56bb76257e7b1cb76ea2f869189a.png

    一般来说,一份保险合同需要完成近40个类目的条款解析分类,如果采用人工的方式去处理,那么一份合同大概需要小半天的时间。

    再细分到每个员工,那么一个人每天至多仅能处理20份左右的保险合同。

    那么如果面对海量的合同需求,随即而来的便是人工的成本、处理的效率等一系列问题。

    而基于文心大模型,百度与金融领域的客户便打造了保险合同条款智能解析模型

    这个模型可以对合同作出智能分类,由它做“辅助”,一个业务员处理一份合同的时间就骤减到了1分钟,速度是此前的几十倍了。

    据了解,目前这款模型已经覆盖百余份合同模板,完成了上亿份合同条款的智能分类,而且还是一天之内就能上线的那种。

    ……

    由此可见,诸如百度文心大模型的能力,已经不单单是科研上的大势所趋,更是行业众多领域实打实所需要的需求。

    其能够体现的核心价值便是降本增效,而这也是与当今数字化转型大浪潮的目标相契合。

    那么接下来一个问题便是,大模型的能力该如何铺开来大规模的用起来。

    对外开放,开发者不必重复造轮子

    虽说知识增强大模型有千般好,如何把AI能力向外输出,让大家都能用上也是产业化大规模应用的关键。

    而百度表示,百度文心大模型都会通过百度自研的深度学习平台飞桨上逐步对外开源开放。

    近年来,百度AI反复强调的两个关键词是「融合创新」「降低门槛」

    这次的鹏城-百度·文心以及文心知识增强大模型,就是多项融合创新积累起来的一次爆发。

    技术研发上,知识与深度学习融合,改变了从神经网络技术单点突破的局面。

    降低模型的研发和使用成本,解决数据标注困难、模型可控可信度差等难题,增加在各个场景的泛化能力。

    应用场景上,跨模态多技术融合,让AI面对复杂的真实业务场景有了更多实用价值。

    金融上的合同与报表、医疗影像与病例分析都是仅靠NLP或CV技术无法单独完成的,而AI与人直接交流的场合更是需要视觉、语言、语音、知识共同参与。

    落地部署上,百度飞桨深度学习框架、鹏城云脑II的软硬件融合释放AI能力,首创大模型在线蒸馏技术更是节省千倍算力……

    以上种种技术创新的积累终于产生质变,在传统的定制化模型开发之上,开辟出基于通用大模型的个性化微调的新模式

    新技术、新模式通过算力中心和开放社区向全行业输出AI能力,真正做到降低门槛

    通用大模型通过少量数据甚至无需数据就能训练出特定业务场景的AI模型,让开发模式变得可以复制,AI模型可轻松跨场景迁移。

    以开源平台、算力中心为基础构建产业生态,为医疗、金融、法律等垂直领域的中小企业降低创新成本,提高社会运行效率。

    未来,学校、科研机构和企业也计划参与到合作研发之中,这个过程中积累的数据、实现的应用场景、汇聚的开发者又能回过头来反哺整个技术生态和产业生态。

    在这条路上积累十年的百度看来,下一步,就是形成以社会化协作为特征的AI大生产了。

    展开全文
  • 实物仿真概念电网与电力电子系统一般都具有电压等级高、功率大、实验(尤其是故障实验)较危险的特点,从安全、成本、不影响电网运行等角度考虑,一般较少直接在实际系统上进行科研或是产品测试实验,更多的是只能...

    半实物仿真概念

    电网与电力电子系统一般都具有电压等级高、功率大、实验(尤其是故障实验)较危险的特点,从安全、成本、不影响电网运行等角度考虑,一般较少直接在实际系统上进行科研或是产品测试实验,更多的是只能通过软件建模或者微缩的小功率模型来进行实验。

    半实物仿真的基本原理是用运行着物理系统数学模型、带IO接口板卡的实时仿真计算机来模拟物理系统的行为。科研人员可以通过实时仿真器来对控制器进行非常接近真实情况的测试与验证。下图展示的是两种不同的研究和测试混合动力汽车里的电机驱动部分的控制器的方式,分别是同实际的物理设备构成闭环,以及同实时仿真器构成闭环。同时可以看到半实物仿真的一个特点是控制器同实时仿真设备的接口和控制器同真实设备的接口是一致的,这意味着半实物仿真提供了从实时仿真验证到实物验证的直接通路。

    52184bdc95598a37eb49f9c483382ce4.png

    电力与电力电子系统的半实物仿真是随着多核CPU和FPGA芯片、实时操作系统等技术进步而发展起来的科研实验技术,尤其是电力电子系统的实时仿真更是由于近些年FPGA芯片技术的发展才成为可能。

    半实物仿真应用

    半实物仿真技术结合了普通离线仿真软件和小功率实物模拟的优点,即仿真软件易于改变拓扑,模拟故障工况的优点;小功率实物模拟能和同实际控制器构成闭环的优点, 因此实时仿真已成为电力和新能源行业科研、研发与测试的重要工具;尤其是在如下的两种场合:

    电网相关的实验 对于研究网(电网,微网)这样的级别,或者设备和网互动(低压穿越,阻抗分析,高铁车网低频振荡)这样的问题,就是在微缩的物理系统上做实验,不管是成本,还是技术上,安全性上也都是有一定的困难的,实时仿真其实是很好的研究手段。

    故障、极限工况和自动化测试等等   尤其是对于大功率系统,实时仿真对各种危险和极限工况很有意义的;而工业上需要的一些自动化、大批量的测试更是只有在实时仿真平台上才能实现。

    正由于实时仿真的优势,其在高校和工业界都得到了越来越多的应用。基于实时仿真的实验系统引进先进理念和技术,支持设计型、研究型创新实验的开展,适应创新型人才和卓越工程师的培养需要;提供产、学、研一体化的校企科研合作平台,为不同科研领域和前沿方向,培养行业拔尖的具有实践动手能力和创新精神的复合型工程技术人才。

    在工业界,实时仿真对于研究新的控制方法,缩短研发周期,确保产品的质量都有重要的意义,利用实时仿真进行测试已经成为电网、电力电子和电机驱动行业中控制器开发流程中不可缺少的一步。

    同时根据测试对象的不同,半实物仿真的应用可以分为如下几种类型:

    1.测试控制器

    f5a960ed28d15133ca673e01c787aa35.png

    半实物仿真(实时仿真)的一个主要用途就是通过IO信号或者通信同控制板构成闭环,来对弱电的控制板(通常是DSP板)进行测试,具体如上图所示,这样一种测试方式常常也被称为“硬件在环仿真测试”(Hardware-In-the-Loop Testing)即HIL测试,这里“硬件”主要是指控制部分已经不是纯软件仿真中的一些控制框图,而是一个真实的控制器;通过HIL能够在很接近真实工况的情况下对控制板整体(板上芯片运行的控制算法,板子的IO通道等等)进行测试;同时,HIL具有易于测试故障工况,易于实现测试自动化,易于重现各种工况等优点。

    2.测试电力电子装置(功率硬件在环)

    实际的电力电子装置,如光伏逆变器,风机变流器等,不仅含有弱电的控制板还有电力电子开关(IGBT等)、电感、电容等电路元件;由于实时仿真可以灵活变换系统拓扑、模拟各种工况等优点,在很多情况下用户也想利用实时仿真器对电力电子装置进行各种测试,但仿真器通常只有弱电的IO接口,无法同电力电子装置对接。随着功率放大设备的技术进步,其支持的功率和响应速度都不断提高,功放设备已经可以和电力实时仿真器结合起来对电力电子装置进行测试,结构示意图如下:

    c0d093bcf65b67be4950a07c2849ded7.png

    如上的测试系统中有三个关键的部件: 实时仿真器,功率放大器,电力电子装置;电力电子装置一般在电力实时仿真器中建模为受控电流源,功率放大器将受控电流源的端电压放大为功率级的电压去驱动电力电子装置,而传感器把电力电子装置的电压电流等信息采集反馈给实时仿真器,通过这样一种方式建立起一个非常接近真实工况的场景来测试电力电子装置;这个测试方法一般被称为功率硬件在环仿真(Power Hardware-in-the-loop,简称PHIL)测试;功率硬件在环仿真测试既有实时仿真器的优点又有功率接口对接电力电子装置;正是由于这些特点,这个测试方法正越来越多被应用到电力电子行业产品的研发与测试中。

    3.仿真加速

    在有的场合,半实物仿真(实时仿真)没有用于测试外部的控制器和设备,而是作为一个功能强大的并行计算设备用来加速仿真计算,起到仿真加速的作用,这一点在大规模的电力系统仿真或者含有非常多的开关复杂电力电子系统的仿真中很常用,这类系统如果用普通的PC做仿真,耗时非常的长,影响工作效率。

    半实物仿真和离线仿真的区别

    离线仿真或纯软件仿真(即利用常用的仿真软件在电脑上做的仿真)虽然具有需要的PC设备普及,容易实现等优点;但普通PC不是实时系统,计算能力相对较弱,且没有输入输出IO接口,不能模拟和代替实际物理系统,具有非常多的局限性。

    1.实时性的限制

    半实物仿真(实时仿真)和离线仿真的共同点是它们都基于电气系统的数学模型和数值积分方法;但实时仿真要能够准确的模拟真实的物理系统,不仅仅要像离线仿真一样有准确的数学模型和模型参数,同时每一步的仿真计算都要在仿真步长对应的自然时间内完成,不然就会导致超时和模拟结果不准确。而实时性这个硬时间限制使用于实时仿真的数学模型和仿真方法都和离线仿真都会有所区别和不同,这个将在下面的章节详述。

    另外,由于实时性的限制,使得实时仿真只能采用定步长的仿真算法,不同于一些离线仿真算法可以采用变步长的仿真算法。

    2.传感器模型

    半实物仿真因为要同真实的控制器构成闭环系统,除了主电路模型,常常还需要包含实际物理系统和控制器之间的传感器的模型,比如对电机系统的模拟中,除了电机的模型,半实物仿真系统还需要考虑编码器或者旋变等电机转子位置传感器的模型,但离线仿真中一般是不考虑传感器模型的。

    3.用途和特点不同

    从应用的角度来说,离线软件仿真,实时仿真(HIL、PHIL),物理设备实验,这些测试方式都是电力与新能源行业科技工作人员经常采用的研发与测试手段。 从用途来看:

    e9936241c65fd9fe28a13d6ee00fb110.png

    从每种方法的测试特点来看,它们有如下的区别:

    4047823c926a5dc9211797f07dad3c6d.png

    可以看到实时仿真一套设备可以仿真多种不同的系统(只需更换模型),适合对并网型系统的控制器进行测试,尤其是进行故障实验;同时实时仿真还具有仿真加速,易于实现测试自动化等优点。正是由于实时仿真(半实物仿真)的如上优点,基于实时仿真的开发方式已经被视为现代控制器开发流程中不可缺少的一步,对于缩短控制器的研发周期、确保产品的质量都有非常重要的意义。

    展开全文
  • 7、Prophet 模型应用 7.0 背景描述 该案例使用的是wiki网站日访问量(数值经过log处理)的csv数据文件 描述的是美国著名橄榄球四分卫的维基页面浏览量,他是美国球员,一年里的周期规律会起很大作用,而一周里的...
  • 作者 | 青暮、陈彩娴智能是否仅靠大数据、大模型就能实现?这是近年来人工智能学术界非常关注的问题,这个问题不仅仅源自GPT-3等千亿参数模型带给我们的刺激,也继承自深度学习一贯以来的“简单...
  • 注:此篇为2019毕设,具体过程有...对仓室构建相应的参数与指标,通过这些参数和指标来分析说明仓室模型的组成,并得到相应模型的药物浓度求解方程组。由于给药剂量的确定可以得到相应浓度,因此利用药物浓度与衰期之
  • OLS和GWR模型部分参数解释

    千次阅读 2021-03-28 15:52:12
    (1) 探索性回归,是一种数据挖掘工具,通过对上述解释变量的每种可能组合进行评估,查找到正确指定的OLS...(2) 普通最小二乘法(OLS)回归,是应用最广泛的传统( 非空间) 统计方法,也是空间回归分析方法的正确起点,可
  • 一 简介 1 背景 ...而隐私计算技术旨在实现“数据可用不可见”的目标,具有广阔的应用前景。在联合国隐私增强计算技术手册[35]中,列出了同态加密(Homomorphic Encryption, HE)、安全多方计算(Sec..
  • 值得注意的是,这是步进的驱动方式,走一步是1.8度,如果是两个线圈同时都通电的话,就是全步进驱动方式了,走一步是0.9度。这样控制更加精确。 特点:步距角小、输出力矩大、动态性能好。但结构复杂,成本较高。...
  • 使用加法PHE,可以在明文数据不出域、且不泄露参数的情况下,完成对模型参数的更新,此方法已应用在实际应用(如FATE[31])和多个顶会工作中(如SIGMOD[4]、KDD[7]、ATC[18]); 在在线广告投放的场景中,广告主(如...
  • 应用参数的方法检测数据结构,并找出其中的规律,从而得到更好的预测结果;以数据而不是模型“说话”; 不需要假定数据分布等;因而更适用于生态学,特别是调查数据。近年来,广义可加模型在生态学中已经得到了广泛...
  • 最近,阿里云PAI团队和达摩院智能计算实验室一起发布“低碳版”巨模型M6,大幅降低万亿参数超大模型训练能耗。借助我们自研的Whale框架仅使用480卡GPU,即...这里来为大家介绍支持万亿参数模型训练的Whale框架设计..
  • 【前沿进展】训练参数规模万亿的预训练模型,对于超级计算机而言是不小的挑战。如何提升超算的计算效率,实现更大规模的参数训练,成为近年来研究者探索的课题。在近日举办的Big Model Mee...
  • 对云模型的研究和应用有一定的推广价值和研究意义。关键词: Matlab;云模型; 效能评估对于一些复杂的系统,由于其不确定性即模糊性和随机性,很难准确地对其进行有效的效能评估。因此需要一种评估方法,能够充分...
  • 凌云时刻编者按:我们将从万亿参数多模态大模型 M6 所带来的创新突破为起点,分享其背后所采用的 MoE 架构原理和实现,以及达摩院对 MoE 架构的探索与发现。继今年 3 月阿里达摩院发布...
  • 它被广泛地应用于生产管理、军事指挥和科学试验等领域,如工程设计中的最优设计、军事指挥中的最优火力配置问题等。优化理论和方法于20世纪50年代形成基础理论。在第二次世界大战期间,出于军事上的需要,提出并解决...
  • 对某个对象系统选择哪一种方法来建立预测预报模型,关键在于用此方法建立的预测模型的计算值与实际值的拟合程度。近几年发展起来的遗传算法(GA, Genetic Algorithm)是借鉴生物遗传机制的一种随机化搜索算法,其主要...
  • 文章目录1 数据类型1.1 删失数据1.1.1 ...Meier 生存概率估计3.1 寿命表( life table)3.2 Kaplan–Meier 方法3.3 KM组别差异的指标一:中位生存时间3.4 KM组别差异的指标二:Logrank /Breslow4 Cox 比例风险回归模型
  • 作者丨kinredon@知乎(已授权)来源丨https://zhuanlan.zhihu.com/p/404160115编辑丨极市平台导读本文结合相关论文介绍了一些监督目标检测算法,即...
  • 所以,本文以 有相互关系的多层标签分类 为背景,用keras设计了多输出、参数共享的模型。 keras_bert基础应用 def batch_iter(data_path, cat_to_id, tokenizer, batch_size=64, shuffle=True): """...
  • 良好的构造和大规模的知识图谱可以用于许多下游应用,并赋予知识感知模型常识推理的能力,从而为人工智能铺平道路。知识获取的主要任务包括关系提取、KGC和其他面向实体的获取任务,如实体识别和实体对齐。大多数...
  • 深度好文 | 超全SLAM技术及应用介绍

    千次阅读 2021-04-18 00:22:46
    由于其重要的理论与应用价值,被很多学者认为是实现真正全自主移动机器人的关键。 词语解释 Simultaneous Localization and Mapping Simultaneous Localization and Mapping, 同步定位与建图。 SLAM问题可以描述为: ...
  • 今天的博客主要参考了2019年AAAI的论文《Session-based Recommendation ...主要讲解了如何利用当下最火的GNN模型辅助Session-based 下的行为序列建模。所谓Session-based 场景下的推荐模型建模,其实就是利用用户在t
  • 【解析】Vision Transformer 在图像分类中的应用

    千次阅读 多人点赞 2021-04-10 22:52:29
    An Image is Worth 16x16 Words:Transformers for Image Recognition at Scale ...同时,在大规模数据集上预训练好的模型,在迁移到中等数据集或小数据集的分类任务上以后,也能取得比CNN更优的性能。下面
  • 参数 内容 方法 线性回归 速度 否 模型大小 否 准确率accuracy 否 精度precision 否 召回率recall 否 F1参数 否 数据集大小 657个记录 训练集、验证集、测试集情况 7:3 与其他方法对比 无 数据集来源 大田试验 软...
  • 应用数学学科

    2021-06-22 21:38:26
    应用数学主要研究具有实际背景或应用前景的数学理论或方法,以数学各个分支的应用基础理论为研究主体,同时也研究自然科学、工程技术、信息、经济、管理等科学中的数学问题,包括建立相应的数学模...
  • 如何进行PaddleNLP2.0的预训练BERT模型微调(Fine-tune)1. 数据导入2.数据预处理3. BERT预训练模型加载4. 训练模型5.模型预测 作者:陆平 #首先,需要安装paddlenlp2.0。 !pip install paddlenlp==2.0.0b #导入...
  • 模型优化

    2021-04-07 20:05:00
    模型优化第六章 减小模型尺寸(模型优化)6.1 数字格式浮点16位 bfloat(bf16)浮点16位精度(fb16)带有19位浮点的张量浮点-32 (tf-32)整数-16(int16)浮点8位(fp8)整数-4(int4)浮点24位(fp24)Posit(Log-...
  • 肿瘤增长数学模型

    2021-11-04 17:09:36
    文章目录曲面偏微分方程的一个实际应用——肿瘤增长简介演化表面上反应扩散方程的推导曲面梯度演化表面上的反应扩散系统模型说明曲面有限元方法变分形式演化曲面有限元方法时间离散肿瘤增长模型建立数值方法数值结果...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 81,493
精华内容 32,597
关键字:

半参数模型的应用