精华内容
下载资源
问答
  • restful 表述性状态转移

    千次阅读 2017-07-12 11:21:38
    Representational State Transfer,简称REST,表述性状态转移一种软件架构风格,不是标准1.简介,rest使用http协议表述性状态转移是一组架构约束条件和原则。满足这些约束条件和原则的应用程序或设计就是RESTful。...

    Representational State Transfer,简称REST,表述性状态转移

    一种软件架构风格,不是标准

    1.简介,rest使用http协议

    表述性状态转移是一组架构约束条件和原则。满足这些约束条件和原则的应用程序或设计就是RESTful。需要注意的是,REST是设计风格而不是标准。REST通常基于使用HTTP,URI,资源标识符就是URI(Uniform Resource Identifier),和XML(标准通用标记语言下的一个子集)以及HTML(标准通用标记语言下的一个应用)这些现有的广泛流行的协议和标准。

    REST本身并没有创造新的技术、组件或服务,而隐藏在RESTful背后的理念就是使用Web的现有特征和能力, 更好地使用现有Web标准中的一些准则和约束。虽然REST本身受Web技术的影响很深, 但是理论上REST架构风格并不是绑定在HTTP上,只不过目前HTTP是唯一与REST相关的实例。 所以我们这里描述的REST也是通过HTTP实现的REST。

    class Resource {
    
    Resource(URI u);
    
    Response get();
    
    Response post(Request r);
    
    Response put(Request r);
    
    Response delete();
    
    }

    2. 要理解RESTful架构,需要理解Representational State Transfer这个词组到底是什么意思,它的每一个词都有些什么涵义。

    下面我们结合REST原则,围绕资源展开讨论,从资源的定义、获取、表述、关联、状态变迁等角度,列举一些关键概念并加以解释。

    • 资源与URI
    • 统一资源接口
    • 资源的表述
    • 资源的链接
    • 状态的转移

    2. 1 资源与URI

    • 资源:

      只要被引用,那就可以叫做资源,不管是json,字符串,图片,Word还是视频文件,也不管你是XML(标准通用标记语言下的一个子集)格式、txt文件格式还是其它文件格式。
      例如人的名字,性别,电话号码,酒窖的name,ID ,酒窖和酒位的关系啊等都是资源

    • URI
      资源是要被调用的,那这些资源肯定要有一个表示,而且必须唯一,这个表示可以是一个资源的路径也可以是资源的名称,如果信息没有被URI标记,那就不能算是真正的资源,因为你不能调用
      例如:github上面的每个项目的ssh或者是http资源路径,他们都是唯一的

    URI的设计:
    1. 使用/表示资源的层级关系
    api/admin/cellar/:id
    2. 使用?进行过滤资源
    /git/git/pulls?state=closed
    用来表示git项目中已经关闭的推入请求
    3. 用.或者;表示同级资源

    2.2 统一资源接口

    不论什么资源,都应该使用相同的接口进行资源的访问,接口应该使用标准的http方法,如get post 等,并遵循这些方法的语义。
    例如:name的操作,接口都应该统一,URI中只应该包含资源的名称
    GET/admin/name
    POST/admin/name
    PUT/admin/name
    DELETE/admin/name
    全部通过 URI对资源进行唯一的标识。URL是一种具体的URI,它不仅唯一标识资源,而且还提供了定位该资源的信息。
    GET
    安全且幂等
    获取表示
    变更时获取表示(缓存)
    200(OK) - 表示已在响应中发出
    204(无内容) - 资源有空表示
    301(Moved Permanently) - 资源的URI已被更新
    303(See Other) - 其他(如,负载均衡)
    304(not modified)- 资源未更改(缓存)
    400 (bad request)- 指代坏请求(如,参数错误)
    404 (not found)- 资源不存在
    406 (not acceptable)- 服务端不支持所需表示
    500 (internal server error)- 通用错误响应
    503 (Service Unavailable)- 服务端当前无法处理请求

    2.3资源的表述

    上面提到,客户端可以通过http的方法获取资源,具体来说,应该是资源的表述,是资源在外界的具体呈现,例如123.img这个表述就是对一个图片资源的表述,

    我感觉,REST除了给我们带来了一个崭新的架构以外,还有一个重要的贡献是在开发系统过程中的一种新的思维方式:通过url来设计系统的结构。根据REST,每个url都代表一个resource,而整个系统就是由这些resource组成的。因此,如果url是设计良好的,那么系统的结构就也应该是设计良好的

     .factory('Cellars', ['$resource', '$http', '$window','Settings', function ($resource, $http, Settings) {
        var Server = Settings.httpServer;
        return $resource('api/admin/cellar/:id', { id: '@cellarid' },
          {
          })
      }])

    OK,既然url有这样的好处,那我们就着重讨论一下如何设计url。网络应用通常都是有hierarchy的,像棵大树。我们通常希望url也能反映出资源的层次性。比如对于一个藏酒资源应用:/api/admin/表示进入管理者权限,/cellar/:id表示id为N的酒窖,这都比较直观。

    angular.module('starter.iotservices', [])
    
    .factory('Cellars', ['$resource', '$http', '$window','Settings', function ($resource, $http, Settings) {
        var Server = Settings.httpServer;
        return $resource('api/admin/cellar/:id', { id: '@cellarid' },
          {
          })
      }])
    
      .factory('Areas', ['$resource', '$http', '$window', 'Settings', function ($resource, $http, Settings) {
        var Server = Settings.httpServer;
        return $resource('api/admin/area?name=:name', { name: '@cellarname' },
          {
          });
    
      }])

    2.4 状态转移

    应用状态和资源状态

    客户端就是应用,服务器数据库就是资源
    客户端的应用发送实际请求,这时候应用状态改变,服务器接收到这个请求,服务器中资源状态改变。

    展开全文
  • 特征选择算法综述

    千次阅读 2017-09-01 15:23:08
    特征选择(feature selection)作为一种常见的降维方法是模式识别的研究热点之一。 它是指从原始特征集中选择使某种评估标准最优的特征...在机器学习领域中,特征选择被认为是跟学习算法紧密联系的一个问题,可表述为:

    特征选择(feature selection)作为一种常见的降维方法是模式识别的研究热点之一。 它是指从原始特征集中选择使某种评估标准最优的特征子集。 其目的是使选出的最优特征子集所构建的分类或回归模型达到和特征选择前近似甚至更
    好的预测精度,这不但提高了模型的泛化能力、可理解性和计算效率,同时可降低“维度灾难”的发生频率。

    在机器学习领域中,特征选择被认为是跟学习算法紧密联系的一个问题,可表述为:给定一个学习算法 L、一个数据集 S,S 来自一个特征 X1,X2,X3, …,Xn 的具有类别标记 Y 的符合分布的样本空间, 则一个最优特征子集 Xopt 是使得某个评价准则 J=J(L,S)最优的特征子集。 因此,该领域的学者认为特征选择的结果应该用学习算法来评价。
    特征选择作为统计学领域的经典问题, 自上个世纪 60 年代起就有学者对此进行了研究;同时,它也是机器学习领域的重要问题:自 90 年代以来,特征选择的研究引起了机器学习领域众多学者前所未有的重视, 主要原因有以下三方面:
    1)许多学习算法的性能受到不相关或冗余特征的负面影响。 大多数学习算法所需训练样本的数目随不相关特征的增多而急剧增加。 因此,选择好的特征不仅可以减小计算复杂度 ,提高预测精度 ,而且有助于寻找更精简的算法模型 。
    。 所谓大规模,一方面指样本数目的庞大,另一方面指描述样本的特征维数高。
    3)随着应用领域的不断扩大,所遇到的数据类型也将不断变化。 因此,特征选择算法的设计需要适应新的数据类型。 正是由于上述原因,特征选择的研究成为模式识别和机器学习领域的重要课题,它具有重要的学术意义和实用价值。

    1 特征选择作为搜索问题的 4 个要素
    一般而言,特征选择可以看作一个搜索寻优问题。 对大小为 n 的特征集合, 搜索空间由 2n-1 种可能的状态构成 。 Davies 等证明最小特征子集的搜索是一个 NP 问题[5],即除了穷举式搜索,不能保证找到最优解。 但实际应用中,当特征数目较多的时候, 穷举式搜索因为计算量太大而无法应用,因此人们致力于用启发式搜索算法寻找次优解。 一般特征选择算法必须确定以下 4 个要素:1)搜索起点和方向;2)搜索策略;3)特征评估函数;4)停止准则。
    1.1 搜索起点和方向
    搜索起点是算法开始搜索的状态点,搜索方向是指评价的特征子集产生的次序。 搜索的起点和搜索方向是相关的,它们共同决定搜索策略。 一般的,根据不同的搜索起点和方向,有以下 4 种情况:
    1)前向搜索 搜索起点是空集 S,依据某种评价标准,随着搜索的进行,从未被包含在 S 里的特征集中选择最佳的特征不断加入 S。
    2)后向搜索 搜索起点是全集 S,依据某种评价标准不断从 S 中剔除最不重要的特征,直到达到某种停止标准。
    3)双向搜索 双向搜索同时从前后两个方向开始搜索。一般搜索到特征子集空间的中部时,需要评价的子集将会急剧增加。 当使用单向搜索时,如果搜索要通过子集空间的中部就会消耗掉大量的搜索时间,所以双向搜索是比较常用的搜索方法。
    4)随机搜索 随机搜索从任意的起点开始,对特征的增加和删除也有一定的随机性。
    1.2 搜索策略
    假设原始特征集中有 n 个特征(也称输入变量),那么存在 2n-1 个可能的非空特征子集。 搜索策略就是为了从包含2n-1 个候选解的搜索空间中寻找最优特征子集而采取的搜索方法。 搜索策略可大致分为以下 3 类:
    1)穷举式搜索 它可以搜索到每个特征子集。 缺点是它会带来巨大的计算开销,尤其当特征数较大时,计算时间很长。 分支定界法(Branch and Bound, BB)[6]通过剪枝处理缩短搜索时间。
    2)序列搜索 它避免了简单的穷举式搜索,在搜索过程中依据某种次序不断向当前特征子集中添加或剔除特征,从而获得优化特征子集。 比较典型的序列搜索算法如:前向后向搜索[7]、浮动搜索[8]、双向搜索[7]、序列向前和序列向后算法等。 序列搜索算法较容易实现,计算复杂度相对较小,但容易陷入局部最优。
    3)随机搜索 由随机产生的某个候选特征子集开始,依照一定的启发式信息和规则逐步逼近全局最优解。 例如:遗传算法 (Genetic Algorithm, GA)、 模拟退火算法(Simulated Annealing, SA)、 粒 子 群 算 法 (Particl Swarm Optimization, PSO)和免疫算法(Immune Algorithm, IA)等。
    1.3 特征评估函数
    评价标准在特征选择过程中扮演着重要的角色,它是特征选择的依据。 评价标准可以分为两种:一种是用于单独地衡量每个特征的预测能力的评价标准;另一种是用于评价某个特征子集整体预测性能的评价标准。
    在 Filter[24-27]方法中,一般不依赖具体的学习算法来评价特征子集,而是借鉴统计学、信息论等多门学科的思想,根据数据集的内在特性来评价每个特征的预测能力,从而找出排序较优的若干个特征组成特征子集。 通常,此类方法认为最优特征子集是由若干个预测能力较强的特征组成的[9]。
    相反,在 Wrapper 方法中,用后续的学习算法嵌入到特征选择过程中,通过测试特征子集在此算法上的预测性能来决定它的优劣,而极少关注特征子集中每个特征的预测性能如何。 因此,第二种评价标准并不要求最优特征子集中的每个特征都是优秀的[10]。
    1.4 停止准则
    停止标准决定什么时候停止搜索, 即结束算法的执行。
    它与评价准则或搜索算法的选择以及具体应用需求均有关
    联。 常见的停止准则一般有:
    1)执行时间 即事先规定了算法执行的时间,当到达所制定的时间就强制终止算法运行,并输出结果。
    2)评价次数 即制定算法需要运算多少次,通常用于规定随机搜索的次数, 尤其当算法运行的结果不稳定的情况下,通过若干次的运行结果找出其中稳定的因素。3) 设置阈值 一般是给算法的目标值设置一个评价阈值,通过目标与该阈值的比较决定算法停止与否。 不过,要设置一个合适的阈值并不容易,需要对算法的性能有十分清晰的了解。 否则,设置阈值过高会使得算法陷入死循环,阈值过小则达不到预定的性能指标。

    参考文献
    [1] Langley P. Seleetion of relevant features in machine learning [J]. In:Proe. AAAI Fall Symposium on Relevanee,1994:
    140- 144.
    [2] Langley P,Iba W. Average-case analysis of a nearest neigh-bour algorithm[C]// Proceedings of the Thirteenth Internation-al Joint Con-Ferenee on Artifieial Intelligence, 1993:889 -894.
    [3] Jain A,Zongker D. Feature seleetion: evaluation,application, and Sniall sample perfortnanee[J]. IEEE transactions on pat-tern analysis and rnachine intelligence,1997,19 (2):153 -158
    [4] Xing E,Jordan M,Karp R. Feature seleetion for high-dimen-sional genomic microarray data [C]// Intl. conf. on Machine Learning, 2001:601-608.
    [5] Davies S, Russl S. Np-completeness of searehes for smallest Pos Sible feature sets [C]// In:Proc. Of the AAAI Fall 94 Symposium on Relevanee, 1994:37-39.

    展开全文
  • 上周我说想要用***严谨的数学***来描述***“马太效应”***,还说用韦恩图来表示…本文我来完成愿望的一部分,即用传统的数学理论,即概率和微积分的知识来表述这个马太效应。   所谓的马太效应,就是***“富者越...

    2018/01/27深圳回沪办事,走G15途径厦门,温州,自从2015年11月底最后一次离开上海就再也没有回去过…然后北上呼伦贝尔根河,一路向东北方向直抵漠河…路上途径的地方如果无聊了,会写下些思考随笔,当然也会有类似去年川西高原行的游记。

      今日惠州团建返回,在后面将会引入大量***与技术无关***的随笔之前,我加紧写完这篇文章,不耽误明日出发。想想也挺有意思的,去年是重庆,成都,川西青藏高原,走前去了一趟江门,今年是上海,根河,漠河,走前去了一趟惠州,完美对称!

      希望这趟自由行可以给自己的2018年带来好运,同时也给家庭,公司团队带来好运,满血迎接新的挑战!


    ***“凡是少的,就连他所有的,也要夺过来。凡是多的,还要给他,叫他多多益善。”***《新约.马太福音》
    ***“凡是相信大数定律的,凡是相信热力学第一定律的,就不要去赌博,不要去炒股,不要去进行任何投机,而应该去开赌场”***《疲累的狡辩.在路上 by 赵亚》

      举一个例子,我们的互联网并不是平等的,大多数的流量都是在流向那不多的几个大型公司,20%不到的公司控制了80%以上的信息资源,这是事实!我们的一切都不是平等的,因为我们的存在不是随机的,弱者将至多维持现状,强者将至少恒强。

      逆袭的机会,很少!***不是没有可能,但逆袭确实是小概率事件,属于概率分布的***长尾!


    上周我说想要用***严谨的数学***来描述***“马太效应”***,还说用韦恩图来表示…本文我来完成愿望的一部分,即用传统的数学理论,即概率和微积分的知识来表述这个马太效应。

      所谓的马太效应,就是***“富者越富,穷者越穷”***,大道理几乎所有人都知道,但我们想知道这是为什么,这一切背后的动力学是什么。因此,我们需要建立一个数学模型,用数学来推导这一切。这样会让人信服。当然,谁都知道我们无法用朴素的数学描述整个世界的每一个细节,即便是可以我们也将会一叶障目无法看到大局,所以需要对问题进行适当的抽象。

      本文中我将首先用图论的基础知识来描述一个具有马太效应的网络的动力学细节,然后扯一通形而上学的理解(不过这部分比较重要,这是我的精髓,一般书上是看不到的),最后我用微积分的知识来证明这个马太效应在一般意义上上正确性。


    到底如何来表示马太效应。事实上,马太效应,80/20法则,它们大概说的意思是一致的,在统计学中,这些说法被抽象成所谓的***幂律分布***,在分布图上,它表现为一条拖着长长尾巴的曲线:

    这里写图片描述

    这种幂律分布曲线方程可以表示成以下的形式:

    f(x)=αxγf(x)=\alpha x^{-\gamma}  α,γ其中,\alpha,\gamma均为正数

    可见,在这种幂律概率分布上,概率越高,占比越小,反正大占比的分布位于那条长长的尾巴上。本文接下来就详细分析这种幂律特征的细节以及成因。


    考虑一个网络,我们把网络节点看作是实体,该网络遵循一定的规则自我增长,在该规则下,最终我们将导出幂律。这个规则尽可能地模拟了我们人类心智的某些特征,比如我们都喜欢有威信的人,我们总是想和混的好的人交朋友,上学的时候,如果大家都不喜欢某个孩子,我也很难喜欢他,我们同样都喜欢去好的公司上班,比如腾讯,阿里,我们也喜欢明星,如果有一天发生了天底下最难以应对的混乱,我们希望寄人篱下,每个人都希望能依附最强者…等等这一切,归根结底都是在***扩展一个网络***,我把它们抽象成以下的规则:

    • 每次有一个新节点接入到网络中,链入网络中已经存在的一个节点
    • 新节点链接旧节点的方式:新节点接入网络中已有节点ii的概率与节点ii的度正相关,其概率满足以下关系:
      pi=kijkjp_i=\dfrac{k_i}{\sum\limits_jk_j}  (k)(相当于对度k进行了归一化)

    我们把上面的pip_i整理一下。由于 在一个图中节点总的度等于边数的2倍,以边数衡量网络的规模,设该图中节点的数目为nn,则有:

    pi=kijkj=ki2np_i=\dfrac{k_i}{\sum\limits_jk_j}=\dfrac{k_i}{2n}

    现在,我们考虑一下当一个新的节点链接入一个网络时,发生了什么。

      当一个节点链接入网时,它会增加它所链接节点的度,增加11,且增加一条边,我们假设表达式pk,i,np_{k,i,n}表示的含义如下:
    既存在于网络中的节点ii在网络规模达到nn时,其度为kk的概率
    那么新加入一个节点时,这个概率会发生变化。即:新加入一个节点后,度为kk的节点包括两个部分,分别是:

    1. 新节点链入的那个旧节点,如果它的度为k1k-1
    2. 新节点没有链入的那些度本来就是kk的旧节点。

    我们分别求这两部分的概率,然后将其相加就是网络规模变成n+1n+1时节点度为kk的概率:

    1. 第1部分概率:k12npk1,i,n(k1)\dfrac{k-1}{2n}p_{k-1,i,n} (注意下标为k-1)
    2. 第2部分概率:(1k2n)pk,i,n(k)(1-\dfrac{k}{2n})p_{k,i,n}(注意下标维持k)

    所以:

    pk,i,n+1=k12npk1,i,n+(1k2n)pk,i,np_{k,i,n+1}=\dfrac{k-1}{2n}p_{k-1,i,n}+(1-\dfrac{k}{2n})p_{k,i,n}  (0)(0)

    有了这个递推关系,把(0)等式(0)关于ii展开即可(递推式不就是拿来展开相抵或者相加的吗?):
    pk,0,n+1=k12npk1,0,n+(1k2n)pk,0,np_{k,0,n+1}=\dfrac{k-1}{2n}p_{k-1,0,n}+(1-\dfrac{k}{2n})p_{k,0,n}
    pk,1,n+1=k12npk1,1,n+(1k2n)pk,1,np_{k,1,n+1}=\dfrac{k-1}{2n}p_{k-1,1,n}+(1-\dfrac{k}{2n})p_{k,1,n}
    pk,2,n+1=k12npk1,2,n+(1k2n)pk,2,np_{k,2,n+1}=\dfrac{k-1}{2n}p_{k-1,2,n}+(1-\dfrac{k}{2n})p_{k,2,n}
    pk,3,n+1=k12npk1,3,n+(1k2n)pk,3,np_{k,3,n+1}=\dfrac{k-1}{2n}p_{k-1,3,n}+(1-\dfrac{k}{2n})p_{k,3,n}

    pk,n,n+1=k12npk1,n,n+(1k2npk,n,n)p_{k,n,n+1}=\dfrac{k-1}{2n}p_{k-1,n,n}+(1-\dfrac{k}{2n}p_{k,n,n})

    上面的一系列式子左右分别相加并整理如下:

    i=1npk,i,n+1+pk,0,n+1=(k12)1ni=0npk1,i,n+i=0n1pk,i,nk21ni=0n1pk,i,n\sum\limits_{i=1}^{n}p_{k,i,n+1}+p_{k,0,n+1}=(\dfrac{k-1}{2})\dfrac{1}{n}\sum\limits_{i=0}^np_{k-1,i,n}+\sum\limits_{i=0}^{n-1}p_{k,i,n}-\dfrac{k}{2}\dfrac{1}{n}\sum\limits_{i=0}^{n-1}p_{k,i,n}

    考虑当nn非常大到海量的时候,统计期望即满足***大数定律***,即:

    limn+1ni=1npk,i,n+1=limn+1ni=0n1pk,i,n\lim_{n \to +\infty}\dfrac{1}{n}\sum\limits_{i=1}^{n}p_{k,i,n+1}=\lim_{n\rightarrow+\infty}\dfrac{1}{n}\sum\limits_{i=0}^{n-1}p_{k,i,n}

    所以在nn海量巨大的时候,可以认为下面的式子成立:

    i=1npk,i,n+1i=0n1pk,i,n\sum\limits_{i=1}^{n}p_{k,i,n+1}\approx\sum\limits_{i=0}^{n-1}p_{k,i,n}  (n)(当n趋向无穷时取等号。后面我们忽略这个无穷小差异,一律取等号)

    考虑到度的分布满足下面的表达式:
    P(k)=limn+(1nipk,i,n)P(k)=\lim_{n\rightarrow+\infty}(\dfrac{1}{n}\sum_{i}p_{k,i,n})
    则有:
    pk,0,n+1=(k12)P(k1)(k2)P(k)p_{k,0,n+1}=(\dfrac{k-1}{2})P(k-1)-(\dfrac{k}{2})P(k)  (1)(1)
    另外,根据上述的极限定义,将***新节点接入网络***作为随机事件,由***大数定律***我们得出初始加入网络的节点i0i_0在网络最终无穷大的时候(即n+n\rightarrow+\infty),其度为kk的概率趋近于整个网络的度为kk的节点占比的数学期望,即:

    pk,0,n+1=P(k)p_{k,0,n+1}=P(k)

    代入上面的(1)等式(1),即可得到如下的新的递推关系:

    P(k)=k1k+2P(k1)P(k)=\dfrac{k-1}{k+2}P(k-1)  (2)(2)

    我们把(2)k>1等式(2)在k>1时展开,得到:

    P(2)P(1)=14\dfrac{P(2)}{P(1)}=\dfrac{1}{4}
    P(3)P(2)=25\dfrac{P(3)}{P(2)}=\dfrac{2}{5}
    P(4)P(3)=36\dfrac{P(4)}{P(3)}=\dfrac{3}{6}
    P(5)P(4)=47\dfrac{P(5)}{P(4)}=\dfrac{4}{7}

    P(k1)P(k2)=k2k+1\dfrac{P(k-1)}{P(k-2)}=\dfrac{k-2}{k+1}
    P(k)P(k1)=k1k+2\dfrac{P(k)}{P(k-1)}=\dfrac{k-1}{k+2}
    这次我们把上面的一系列式子相乘,得到下面的等式:

    P(k)P(1)=1×2×3k(k+1)(k+2)\dfrac{P(k)}{P(1)}=\dfrac{1\times2\times3}{k(k+1)(k+2)}  (3)(3)

    嗯,貌似OK了…但是P(1)P(1)是什么?

      就是说刚开始加入的那个节点需要特殊处理,这其实很容易,我们再看递推式(0)(0)
    pk,i,n+1=k12npk1,i,n+(1k2n)pk,i,np_{k,i,n+1}=\dfrac{k-1}{2n}p_{k-1,i,n}+(1-\dfrac{k}{2n})p_{k,i,n}
    其中的两个概率重新定义就是了。

      首先,节点的度不可能是00,因此,新加入的节点是度为11的一部分,另外一部分度为11的节点是***原本的度就是11的节点***,因此新加入节点相比之前的递推式就是:

    p1,i,n+1=1n+(112n)p1,i,np_{1,i,n+1}=\dfrac{1}{n}+(1-\dfrac{1}{2n})p_{1,i,n}

    依然按照上面的处理方式展开相加,最终得到的结果就是:
    p1,0,n+1=1(12)P(1)p_{1,0,n+1}=1-(\dfrac{1}{2})P(1)
    进一步,由***大数定律***,得到:

    P(1)=112P(1)P(1)=1-\dfrac{1}{2}P(1),即:

    P(1)=23(3)P(1)=\dfrac{2}{3},代入(3),得到:

    P(k)=4k(k+1)(k+2)2k3P(k)=\dfrac{4}{k(k+1)(k+2)}\propto2k^{-3}
    $ 毕!$


    我们已经证明了在上述***网络扩展规则***的情况下网络上的某些节点是如何做到***胜者通吃***的。但是能不能将其总结成一个通行的公例呢?

      完全可以!

      这种网络其实就是叫做***无标度网络***,所有的幂律都符合无标度网络特征。那么什么叫做无标度网络?你可以百度谷歌一下,估计得到的仅仅是一种描述,这些解释并没有告诉你为什么。这里,我来告诉你为什么。

      所谓的无标度,几何上***指的是***曲线在双对数坐标下是一条直线,在***代数方程上***指的是***不管自变量如何缩放单位,方程的形式不会变化***。

      也许你可能不知道我在扯什么,我现在就解释。我们假设一个符合幂律的分布函数f(x)=ax3f(x)=ax^3,我们对其两边取对数:

    lnf(x)=lnax3=>lnf(x)=3lnx+lnalnf(x)=ln{ax^3}=>lnf(x)=3lnx+lna

    看看是不是点(lnx,lnf(x))(lnx,lnf(x))在同一条直线y=3x+lnay=3x+lna上呢?该直线的斜率为33,截距为lnalna。这就是***双对数意义上的直线***,所有的幂律分布均符合这种双对数坐标系里的直线性质。

      现在开个脑洞,你知道人的大脑对这种双对数直线情有独钟吗?如果有的话,那么人脑大概想的都是幂律吧,同时也把幂律和对数联系上了吧。还记得我猜测的那般,觉得人总是喜欢对数据取对数吗?人脑天生就是一台取对数机器…既然联系了起来,难道人脑是因为幂律才喜欢取对数,还是因为取了对数才符合了双对数坐标下的幂律…不得而知~~哈哈

      其实,人脑是喜欢直线吧。不想让直线弯曲了,才会拼命让自己的大脑符合幂律或者去取对数。不得而知。不过,经验看起来,人脑天生喜欢追随强者。如果追溯原因,这是因为人天生懒惰从而喜欢被奴役吗?这难道是幂律的成因?还是说因为大脑天生只识别双对数直线,从而只向着符合条件的曲线靠拢!

      换句话说,我觉得,只要是双对数坐标系下是一条直线的表达式,都是人脑易于理解的。这也正是***费希纳定律***所表达的含义。虽然物理量已经指数增加,但感觉量却只是线性增加。这也是为什么虽然80/20规则是很不公平的,但是人们却感觉不到它不公平,毕竟在人们的心理预期上,并不存在80/20,可能只是20/20。

      不管怎样,强者越强,富者越富,弱者越弱,这个确实是真理。

      看过了关于直线的几何解释,我们来看下代数方程的解释。假设我们已经知道f(x)=axbf(x)=ax^b,此时我们将xx扩大或者缩放成γx\gamma x,那么f(γx)=(aγb)xbf(\gamma x)=(a\gamma^b)x^b,请注意,形式并没有任何变化,只是函数值最终进行了等比例的缩放,缩放系数是个常数。这正像吹气球一样,同步膨胀,越膨胀越大,最为重要的是,虽然膨胀了,大师形状并没有改变(这里并没有用大气压说事…),这就说明这个气球是无标度的,这也说明它是分形的。

      但是,符合无标度特征的就一定是幂律分布吗?接下来我给出个数学推导:


    这又是一个数学题,学过微分方程的应该都能解出,但不管怎样,本文还是给出一个简要说明。题目如下:

    • f(x)ab对于一个概率分布函数f(x),如果对任意的常数a,均存在常数b,是的下面的式子成立:
      f(ax)=bf(x)f(ax)=bf(x)
      f(x)便那么f(x)便符合无标度条件,则必有:
      f(x)=f(1)xγf(x)=f(1)x^{-\gamma}  γ=f(1)f(1)其中\gamma=-\dfrac{f(1)}{f\prime(1)}

    解这个题目非常简单,首先取x=1x=1,得到b=f(a)f(1)b=\dfrac{f(a)}{f(1)},从而:

    f(ax)=f(a)f(x)f(1)f(ax)=\dfrac{f(a)f(x)}{f(1)}

    接下来我们想办法把自变量xx分离出来,因此可以对aa求导,得到:

    xdf(ax)d(ax)=f(x)f(1)df(a)dax\dfrac{df(ax)}{d(ax)}=\dfrac{f(x)}{f(1)}\dfrac{df(a)}{da}

    aa=1由于a为任意常数,为消除其影响,只需设置其为一个特殊值,然后求解题目,最终证明结果充分且必要即可,不妨设a=1,则有:

    xdf(x)d(x)=f(x)f(1)f(1)x\dfrac{df(x)}{d(x)}=\dfrac{f(x)}{f(1)}f\prime(1)

    上式整理得:

    1f(x)df(x)=f(1)f(1)1xdx\dfrac{1}{f(x)}df(x)=\dfrac{f\prime(1)}{f(1)}\dfrac{1}{x}dx

    两边对微分进行积分,微分方程可以轻易求解:

    lnf(x)=f(1)f(1)lnx+Clnf(x)=\dfrac{f\prime(1)}{f(1)}lnx+C  线注意这是双对数坐标系下的直线

    其中CC为任意常数,既然是任意常数,那么考虑值域***同样也***为任意常数的函数lnxlnx,一定会有常数C1C_1,其值等于CC,于是:

    C=lnC1设C=lnC_1,则有:

    lnf(x)=f(1)f(1)lnx+lnC1lnf(x)=\dfrac{f(1)}{f\prime(1)}lnx+lnC_1

    进一步,根据对数的性质,有:

    lnf(x)=ln(xf(1)f(1)×C1)lnf(x)=ln(x^{\frac{f(1)}{f\prime(1)}}\times C_1)

    所以:

    f(x)=C1xf(1)f(1)f(x)=C_1x^{\frac{f(1)}{f\prime(1)}}

    C1x=1f(1)=C1为了求C_1,设x=1,则有:f(1)=C_1

    结论为:

    f(x)=f(1)xγf(x)=f(1)x^{-\gamma}  γ=f(1)f(1)其中\gamma=-\dfrac{f(1)}{f\prime(1)}

    这正是幂律分布,毕!


    写到这里,本文的主要内容已经写完了,即便如此,本文到此为止依然没有提到任何关于复杂网络的术语和概念的内容,我是有理由的。

      惠州团建中有个帆船出海的项目,船主耐心的给我们讲解了帆船的各种原理以及各种操作,这趟出行让我喜欢上了帆船,纯手动操作,可完美体验操控的乐趣。关键点不在这,而是船主给我们讲空气动力原理的时候,说了很多,当我想逞能插话念出伯努利方程的时候,船主自然而然说出了这就是伯努利方程…这跟我想的简直一样…其实我对伯努利方程仅仅知道个名称以及它的表示或者还有它的一些推导,但是从来没有听到过生动的实例讲解,如果船主不说这最后一句话,我觉得他依然可以胜过很多的物理老师。嗯,同样的道理,我也不准备先把诸如小世界网络,随机网络,BA网络,Pareto分布等等术语摆出来,然后再解释幂律,我觉得即使不懂这些,也照样可以完全理解幂律。

      喜欢上了他的帆船(30万左右可以买一艘,大概是一辆奥迪A4L或者BMW 3系的价格),还有一个原因,那就是这位船主的风格是我所认同的,和一个志同道合的人终成伴侣,然后将共同的爱好变成了事业,非常不错。有幸能坐上老板亲自拉绳掌舵的帆船,这趟出游的感觉非常棒。

    展开全文
  • 2020年3月6日国家市场监督管理总局、国家标准化管理委员会发布的中华人民共和国国家标准公告(2020年第1号),全国信息安全标准化技术委员会归口的GB/T 35273-2020《信息安全技术 个人信息安全规范》(以下简称...

    2020年3月6日国家市场监督管理总局、国家标准化管理委员会发布的中华人民共和国国家标准公告(2020年第1号),全国信息安全标准化技术委员会归口的GB/T 35273-2020《信息安全技术 个人信息安全规范》(以下简称“新版规范”)正式发布,并将于2020年10月1日实施。

    新版规范以《GBT 35273-2017信息安全技术 个人信息安全规范》(以下简称“旧版规范”)为基础,同时结合或参考了《App违法违规收集使用个人信息行为认定方法》《信息安全技术-个人信息告知同意指南(征求意见稿)》《网络安全实践指南—移动互联网应用基本业务功能必要信息规范》等文件。

    首先 个人生物识别信息:个人基因、指纹、声纹、掌纹、耳廓、虹膜、面部识别特征等; 生物特征是明确属于个人敏感信息;

    区别 个人敏感信息 一般个人信息
    收集 明示同意 授权同意
    个人隐私保护政策 涉及个人敏感信息的,需明确标识或突出显示 无特别要求
    传输存储 应采用加密等安全措施 无特别要求
    权限控制 宜在对角色权限控制的基础上,按照业务流程的需求触发操作授权。 重要操作才需授权
    共享 明示同意;告知内容增加了的个人敏感信息类型、数据接收方的身份和数据安全能力; 授权同意
    公开披露 告知内容增加个人敏感信息的内容 无需告知信息内容
    信息安全事件 泄露即需告知 严重危害的才需告知

    其次如存在多项业务功能,无论是基本业务功能还是扩展业务功能,即使全部是基本业务功能,也要进行拆分,在用户实际开始使用特定业务功能时,才能索取用户授权并开始收集相应的个人信息,不能预先一次性索取授权。

    适用新规则的后果就是,隐私政策在告知同意中的作用被进一步削弱,当前主要依赖用户注册时通过隐私政策一揽子获得用户同意的做法难以为继,企业不得不越来越多地依赖弹窗等多层次、碎片化的告知同意机制,产品设计更加复杂。

    关键点: 收集个人生物识别信息前,应单独向个人信息主体告知收集、使用个人生物识别信息的目的、方式和范围,以及存储时间等规则,并征得个人信息主体的明示同意;

    明示同意 explicit consent
    个人信息主体通过书面、口头等方式主动作出纸质或电子形式的声明,或者自主作出肯定性动作,对其个人信息进行特定处理作出明确授权的行为。

    新版规范5.3规定的逐项告知是以业务功能为维度的。存在多项业务功能时,需在用户开启各项具体业务功能时逐项告知。而本条针对生物识别信息规定的单独告知则是以信息类型为维度的,即只要涉及个人生物识别信息,则需单独告知。如果控制者收集的个人生物识别信息同时涉及多项业务功能,则应该在单独告知之后再按业务功能逐项告知。

    在实践中,个人信息保护政策通常将信息存储时间表述为“实现目的所必需的最短时间”。对生物识别信息而言,这种写法曾遭到监管机构的质疑。APP治理工作组在《观察 | 没有了选择权和知情权,人脸识别还值得信任吗?》一文中提到,“核验发现,绝大部分相关App只在隐私政策中笼统提及‘个人信息的保存将在法律法规要求的最短保存限期内,当超出上述保存期限,会对其进行匿名化处理’,对于用户关心的人脸信息是否会留存原始图像信息,留存多长时间,使用范围如何,是否向第三方提供,采取了何种安全措施等均是只字不提。”

    鉴于上述意见,对于个人生物识别信息的存储期限,可适当细化表述为“在实现XXX功能之后便立即删除”,其法律内涵与“实现个人信息主体授权使用的目的所必需的最短时间”一致,但应更加具体明确。

    什么情况是不违规的利用指纹人脸等生物特征呢?

    c) 原则上不应存储原始个人生物识别信息(如样本、图像等),可采取的措施包括但不限于:

    1. 仅存储个人生物识别信息的摘要信息;

    2) 在采集终端中直接使用个人生物识别信息实现身份识别、认证等功能;

    依据新版规范3.5注2,如果产品或服务的提供者提供工具供个人信息主体使用,提供者不对个人信息进行访问的,则不属于收集。因该种处理方式下,个人信息未曾传至产品或服务提供者服务器,不构成收集行为。据此,如在终端本地使用个人生物识别信息实现身份识别、认证等功能,不属于收集行为,不承担控制者责任

    展开全文
  • 基于URL特征的网站结构信息挖掘

    千次阅读 2013-03-25 21:27:15
    基于URL特征的网站结构信息挖掘 王晓飞11 (北京邮电大学模式识别实验室) 摘要:本章首先深入的研究了网站的结构和URL的特征,然后制定了三元组节点的URL层次树的构建规则,利用建立的URL层次树描述网站的层次结构...
  • 关于相似性以及文档特征、词特征有太多种说法。弄得好乱,而且没有一个清晰逻辑与归类,包括一些经典书籍里面也分得概念模糊,所以擅自分一分。 ————————————————————————————...
  • 视觉SLAM笔记(30) 特征点法

    万次阅读 2019-10-08 18:46:15
    特征点法、特征点、ORB 特征(FAST 关键点、BRIEF 描述子)、特征匹配
  • SIFT算法系列之特征点检测

    千次阅读 2018-04-19 19:37:21
    特征点检测算法简述  说到特征(feature)可能包含许多种类:常用的图像领域的主要特征有...为什么要把图像中的变化较大的区域提取出来作为特征表述,其主要原因还是存在于模拟人眼观察一幅图像时候最先观察到的是整...
  •  知觉图是消费者对某一系列产品或品牌的知觉和偏好的形象化表述。目的是尝试将消费者或潜在消费者的感知用直观的、形象化的图像表达出来。特别是用在产品、产品系列、品牌的定位方面,也会用于描述企业与竞争对手的...
  • 被讨论群里的小伙伴催着相亲,哦不,催着讲特征工程紧啊。只是我们不太敢讲这么复杂高深的东西,毕竟工程实践的经验太复杂了,没有统一的好解释的理论,一般的教材讲这方面的内容不多。我们就打算以一个相亲的故事为...
  • 以上,我们通过实验验证了深度可视化语义表述和图像描述。本文全部原创,对于试验中出现的肖像权,我不负任何责任(摊手),不服你们来打我咯~ 转载请注明出处,虽然我有预感这个压根就不会有人读hhhh。
  • 矩阵特征分解介绍及雅克比(Jacobi)方法实现特征值和特征向量的求解(C++/OpenCV/Eigen)
  • 特征值与特征向量

    万次阅读 多人点赞 2018-01-09 18:54:14
     大学学习线性代数的时候,特征值(eigenvalue)和特征向量(eigenvector)一直不甚理解,尽管课本上说特征值和特征向量在工程技术领域有着广泛的应用,但是除了知道怎么求解特征值和特征向量之外,对其包含的现实...
  • 八、神经网络:表述(Neural Networks: Representation) 本节主要讨论一种叫做神经网络的机器学习算法。首先讨论神经网络的表层结构,在后续的课程中再讨论具体的学习算法。神经网络其实是一个比较古老的算法,它...
  • 相似矩阵中特征根的求法,一个是特征方程,一个是一般方程(由题干信息而得的,除了特征方程以外的其他形式的方程)。对于二者的结果,表述很不相同。特征方程的解和特征根一一对应,包括数值和重数。一般方程的解给...
  • 特征值与特征向量及其应用

    千次阅读 2019-08-13 17:36:47
    大学学习线性代数的时候,特征值(eigenvalue)和特征向量(eigenvector)一直不甚理解,尽管课本上说特征值和特征向量在工程技术领域有着广泛的应用,但是除了知道怎么求解特征值和特征向量之外,对其包含的现实...
  • 信息熵 条件熵 信息增益 信息增益比 GINI系数

    万次阅读 多人点赞 2016-05-24 10:30:55
    在机器学习与特征工程中,熵的概念也用得灰常多。今天就把跟熵有关的东东稍微整理一下,权当笔记。1.信息熵熵是神马东东?信息论的开山祖师爷Shannon(中文翻译过来一般叫香农,总觉得很多文字经过翻译就不对劲,就...
  • 计算思维与一种表述计算思维的框架------计算之树1.计算思维 前段时间,看了战德臣老师讲的计算机基础课《大学计算机–计算思维导论》(大学慕课网MOOC),学到了很多有关于计算机方面更加基础的知识,对于一个跨专业...
  • 现实世界中多数特征都不是连续变量,比如分类、文字、图像等,为了对非连续变量做特征表述,需要对这些特征做数学化表述,因此就用到了特征提取. sklearn.feature_extraction提供了特征提取的很多方法 1、字典数据...
  • before:本篇博文先主要叙述ORB特征点提取算法,包括对其分解, FAST特征点的生成,BRIEF描述子的生成。然后对FPGA实现特征点 提取进行简介。铺垫好这些基础后,在下一篇博文中,仔细介绍如何 采用FPGA来实现高速的...
  • SIFT特征

    千次阅读 2019-04-27 14:19:59
    SIFT的全称是Scale Invariant Feature Transform,是一种具有尺度不变性和光照不变性的特征描述子,也同时是一套特征提取的理论,首次由D. G. Lowe于2004年以《Distinctive Image Features from Sc...
  • REST(Representational Status Transfer - 表述性状态转移)架构风格,目前主要应用与互联网(如手机客户端)。   难理解?看看这个链接风格: http://example.com/customers/1234  如此,来看REST:是定义...
  • SIFT算法的全称是Scale-invariant feature transform,尺度不变特征转换,是一种不随图像尺度旋转变化而变化的特征,因此SIFT特征不会随着图像的放大缩小,或者旋转而改变,同时由于在提取特征时做的一些特殊处理,...
  • 特征向量

    万次阅读 2013-11-06 00:57:36
    特征向量 在数学上,特别是线性代数中,对于一个给定的线性变换,它的特征向量(本征向量或称正规正交向量)v经过这个线性变换[1]之后,得到的新向量仍然与原来的v 保持在同一条直线上,但其长度也许会改变。...
  • 特征工程

    千次阅读 2020-11-04 15:07:37
    特征工程 1 机器学习 机器学习简单来说就是选择一种学习算法,从数据中学习并建立成模型来对新的数据进行预测的计算机科学 。 机器学习是人工智能的一个分支。人工智能的研究是从以“推理”为重点—以“知识”为重点...
  • 地理信息系统中的空间概念常用“地理空间”(geo-spatial)来表述,一般包括地理空间定位框架及其所连接的特征实体。地理空间定位框架即大地测量控制,由平面控制网和高程控制网组成。 1.2 空间数据的类型 • 几何...
  • 信息化知识-1.1信息化知识

    千次阅读 2020-11-18 19:46:50
    信息是客观事物状态和运动特征的一种普遍形式,客观世界中大量地存在、产生和传递着以这些方式表示出来的各种各样的信息。 维纳:信息就是信息,既不是物质也不是能量; 香农:信息就是能够用来消除不确定性的东西;...
  • SIFT--特征描述符

    千次阅读 2017-10-25 21:53:26
    本节将介绍SIFT的最后一步—–特征描述符。...特征描述的思路:对关键点周围图像区域分块,计算块内梯度直方图,生成具有独特性的向量,这个向量是该区域图像信息的一种抽象,具有唯一性。实现特征描述符具
  • 特征选择和稀疏学习

    千次阅读 2018-11-01 15:38:20
    特征工程是机器学习中非常重要的一个环节,它的好坏直接影响了机器学习效果的优劣。而特征工程里非常关键的一步就是特征选择。 如果把机器学习比作是一个厨师做菜的过程,那么数据就是原材料(菜),模型可以理解为...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 30,786
精华内容 12,314
关键字:

信息的特征的表述