精华内容
下载资源
问答
  • 连通是车辆导航中车辆与地图匹配的一个重要...该匹配度通过反馈方式在下一次匹配的连通因素中加以利用。实验表明带匹配度的反馈模糊地图匹配方法可以使连通得到更加合理有效的使用,从而使地图匹配效果得到改善。
  • 为了解决基于资源传输的链路预测方法忽略节点间匹配度对资源传输过程影响的问题,提出了一种基于资源传输匹配度的复杂网络链路预测方法。首先,对资源传输路径上的2个端点进行详细分析,提出任意节点间匹配度的量化...
  • 本文在机位匹配度最高条件下,构建了以.近机位使用率和停机位预分配方案鲁棒为目标的两阶段分配模型,以求解机场的.停机位预分配问题。首先,基于硬约束条件,以机位匹配度最高为目标进行求解。.然后,根据所得...
  • 为了降低LED 太阳模拟器在有效辐照面上的辐照不均匀,在设计过程中结合LED 发光角度大的光学特点,针对的采用能够实现多次聚光的光学系统,通过对LED 阵列光源的控制,实现160 mm×160 mm 有效辐照面积上辐照不...
  • 提出一种基于邻域匹配度和能量加权平均的多源遥感图像曲波变换融合方法。对低分辨率的多光谱图像和高分辨率的全色图像作曲波变换,融合图像的曲波系数中的低频分量取自多光谱图像的低频分量。求两幅图像高频系数邻域...
  • 通过将匹配支持的相似测度引入SIFT特征匹配算法,提出了一种能够应用于不同源遥感影像的自动匹配方法。首先,建立待匹配影像中特征点的SIFT特征描述符;然后,以待匹配点与参考点间的欧氏距离为相似测度,挑选...
  • 论文研究-城市道路网络功能匹配度分析模型.pdf, 为合理地...最后结合算例,给出了城市道路网络功能匹配度计算的具体步骤并说明了该分析方法及分析模型的可行和有效
  • 在白光LED应用中明显的问题是产品的匹配性差,按照白光LED的典型规格,电流为20mA时正向电压的值为3.0V,典型值为3.5V,值为4.0V。显然,稳压源不是合理的解决方案。利用相同的电流驱动每只LED可以获得均匀亮度,但...
  • 提出了基于匹配度的广度优先推理方法,给出了匹配度的计算方法;实现了用于确定发酵过程生物量软测量混合模型结构的推理过程。实验表明,与基于穷举法的深度优先推理方法比较,基于匹配度的广度优先推理方法能够有效...
  • 提出了基于匹配度的广度优先推理方法,给出了匹配度的计算方法;实现了用于确定发酵过程生物量软测量混合模型结构的推理过程。实验表明,与基于穷举法的深度优先推理方法比较,基于匹配度的广度优先推理方法能够有效...
  • 在区间值模糊推理过程中,为合理地计算输入事实与规则前件的匹配程度,给出区间值模糊集的模糊加权均衡匹配度的定义,不仅考虑了每个前件分量在推理中的不同影响程度,而且考虑到每个分量匹配程度的均衡要求,进而...
  • 很多工程师,在电路中使用晶振时,经常会碰到这样的烦恼,一是晶振在电路中匹配...究其原因,无源晶振的使用效果不仅取决于晶振本身的指标,还与振荡电路的设计匹配关联极大,也常常出现匹配不理想的状况。有源晶振是
  • 把匹配抽象时间序列相似性的方法引入到地震预报的应用中,结合大量地震历史源数据,地震领域...匹配实验分析,取得了可信较高的实验结果,实验结果验证了所给时间序列相似性匹配控制策略的有效性、实 用性以及算法的优越
  • 在匹配过程中,首先提出了圆环匹配算法,它通过构建匹配圆环完成相似性匹配,并且通过多次重启提高相似性匹配的准确和效率;然后在规约算法的基础上,提出了期望匹配的改进算法,它通过增加包络约束消除期望匹配...
  • 在白光LED应用中最明显的问题是产品的匹配性差,按照白光LED的典型规格,电流为20mA时正向电压的最小值为3.0V,典型值为3.5V,最大值为4.0V。显然,稳压源不是合理的解决方案。利用相同的电流驱动每只LED可以获得...
  • “最合适的”候选人,一定是最合适的吗? ...目前很多公司在招聘员工的时候...也很有可能公司留不住他,换句话说,这类员工的稳定要很差,员工的能力远远高于我们对这个职位的期望,或者说我们这个小庙容不下...

    “最合适的”候选人,一定是最合适的吗?

     
    目前很多公司在招聘员工的时候,老板希望找一个非常合适的,而HR也会跟着老板的想法,努力招到一个符合老板心意的员工,但从业经验久一些的HR会发现一个问题,那个看似最合适的员工即便在工作当中表现的让老板很满意,也很有可能公司留不住他,换句话说,这类员工的稳定性要很差,员工的能力远远高于我们对这个职位的期望,或者说我们这个小庙容不下这尊大佛,总之,人走了,职位又空缺了,久而久之,老板和HR都会疑惑的问自己,我们选择一个最胜任这个职位的人,有错吗?

      从人才匹配的角度而言,这个选择可能没有错,但是谁能保证这个人选就是最合适的?现在很多HR和他们的老板在选人的时候尽可能的避开那个在他们看来最合适的人选,而选择第二合适的,但请静下心来想一下,对于稳定性差的员工我们能说在聘用的时候就认可他是最合适的吗?

      理论上那并不是最合适的,但是理论终究属于理论,没有人告诉我们谁是最合适的,我们可以甄别经验和背景同职位的匹配度,但并不能百分之百保证这个人真的很胜任相应职位。因为影响人选是否合适的因素太多了,我们只有就事论事,针对具体主客观因素进行判断和甄别,选择相对合适的人选。

      想必很多公司都会出现上述的情况,同样,也会有越来越多的企业HR遵从不选最合适,而选第二合适的招聘用人思路,但是请记住,这只是思路,而不是准则。

      当我们选择用什么人的时候,就不停地在进行博弈,但这种博弈会以不同的形式出现,有可能是由于员工的稳定性而产生的,也有可能由于其他因素,如公司内部政治等问题而在招聘过程中产生的博弈。分享一个关于“最合适”的事例:

      一家传媒公司因业务发展迅速,需在上海开设分公司,急聘分公司销售总监,公司HR部门经理M先生根据老板对此职位人选的要求和期待做出相应职位说明书,对此人选的要求简单如下:

      1、6年以上传媒领域销售工作经验,3年区域销售管理经验,业绩良好

      2、在华东地区有丰富的客户资源,善于客户的开拓及维护

      3、有较丰富的团队管理经验,团队协作能力较强

      4、具有一定的整合营销理念及相关成功案例,较善于深度挖掘客户需求

      5、较强的沟通谈判能力,较强的职业素养,综合素质佳

      6、正规本科以上学历,男性为佳,年龄30-40岁

      7、薪水面议

      M经理结合公司背景及发展特点,将此人选定位于家在上海,有较丰富的传媒领域广告销售及团队管理经验,并且由于是弱势媒体,故公司更多的以广告结合活动(线上+线下)的销售模式进行客户服务,因此对此人选要求要有一定的整合营销理念,能够为客户进行多方位全面的销售服务工作,同时也需要此人有很强的市场开拓能力,帮助华东分公司更快的起步,在一年内使公司拥有几个品牌客户,早日使分公司业务走上正轨。

      经过信息发布,简历筛选,人选面试等环节,M经理选定了两名符合职位期望的人选——S先生和Y女士,老板也分别进行了面试,对这两名人选的背景和经验都很满意,但老板明显倾向于S先生,认为他是最合适的人选,之后很快就给S先生发了offer,一周后S先生正式上岗。

      原因很简单,老板当时认为分公司处于刚刚成立阶段,需要找那种能够快速提升公司业务的人,只有进来新客户,才能有业绩,才能有发展,另一方面也好向投资方交代,出于这方面考虑,老板倾向于选择客户开拓能力很强的人,故选择了S先生。

      S先生上任后,在三个月内相继开发了2个品牌大客户,老板非常满意,对于M经理的招聘工作给予了高度赞扬,但是M经理在近期却听到了一些传言,感觉分公司业绩虽然有了,但是S先生在和分公司领导配合上出现了一些问题,隐约对此有些担心。

      不到半年,S先生离职了,老板的挽留对于他没有任何作用,故大怒,但M经理却早有先兆,认为S先生的离职在情理之中,让我们来看一下之前M经理对于人选的判断:

      两名候选人的相同点在于:

      1、均有传媒行业丰富的销售管理经验,年资相同(8年),并且业绩都不错

      2、均家在上海,也都有开拓及服务华东品牌客户经验

      3、均具备很强的市场开拓能力,并且有外资媒体整合营销客户服务经验

      4、企业所担心的团队搭建及管理能力二人也都具备

      5、二人业内口碑不错,职业,敬业,责任心强

      6、二人对本公司发展前景均很认可,并愿意和公司一起并肩发展

      7、年龄相仿,符合要求

      而两名候选人的不同点在于:

      1、工作风格

      S先生的工作风格较强势,对待客户及下属均较具有侵略性,但是其所具备的专业性和结果导向作风使他在历家任职公司内均取得了较优秀的业绩

      相对于S先生,Y女士则在工作中表现的更温和一些,同客户及公司员工相处的更融洽,同样,其所具备的专业性使得其温和之下也有着强硬的表现。

      2、任职公司背景

      S先生之前的任职经历中,有一家是境外媒体公司,完全是以事情为导向,而没有类似本土公司复杂的人际关系,事情做好了,业绩超额完成了,会得到老板级同事们的认可及赏识,换句话说,对于S先生,只要事情做得漂亮,在公司内会过的很舒服。

      Y女士虽然也在境外媒体公司工作过,业绩并没有S先生那么出众,但由于面对都是本土客户,故能够利用自己的沟通优势做好客户,也为公司拿下了几个大的品牌客户,并一直没有丢掉。

      3、对于工作的理解

      S先生是一个成就动机很强的人,期望在任何公司工作都要做出一番事业,而Y女士并没有太多的成功欲望,希望能有一个稳定的环境,努力的去工作,做好自己的事情就好了,用简单的话说,S先生希望不断超越自己,Y女士则更“安于现状”。

      经过调查,S先生的离职原因为:

      1、S先生的工作风格不适应本土公司文化

      S先生的工作风格较强势,虽然其专业性和市场营销的高度使得其开拓出了一些品牌客户,但同时也得罪了一些客户,更重要的是,其强势的沟通风格对于分公司领导及下属,互相并不相容,导致在工作过程中和内部员工出现了摩擦。

      2、S先生的成就动机可以变相看做野心,过于关注自己的发展,导致稳定性不够,当遇到更好的平台和机会,他会权衡,而结果则更倾向于新的平台。

      S先生当初看好公司是因为这里有足够的挑战,但是现在却发现这些挑战已经不能够很好的满足他的成就欲望,舞台不大,难以更快的发展,再加上对公司文化的不适应,使得其在工作中也很痛苦,当面对其他机会(一家发展前景很好的大型集团销售总监)时,他会不惜新工作所带来的风险而选择变动,而对于老东家则是一种很大的伤害。

      在当时看来,S先生可能更适合公司现在的发展需求,但是这样的人是不稳定的,给公司带来的仅仅是短期效益,而不能满足公司快速发展后的稳步提升期望,而Y女士则是一个适合同公司共同发展的人,可能其开拓能力没有S先生强,但是其优秀的沟通及人际处理能力,更适宜公司文化,所谓攘外必先安内,Y女士的这种工作风格是其最大的优势。同时,Y女士也具备很强的专业性和市场整合营销理念,并且相信通过团队管理和配合同样能够帮助公司开拓出新客户,并且很好的维系这些客户资源,满足公司现在和以后发展的期望,更重要的是,Y女士相对于S先生更踏实,“安于现状”并不是贬义词,更能摆清自己的位置,稳定性会更好。

      从这个案例我们可以看到,企业用人必定要考虑到现阶段的发展需要,聘用合适的人选,但是对于人选的甄别和使用并不是最合适就好,还要兼顾公司文化,工作风格以及未来发展期望,关键是人选的稳定性,相信任何老板都不希望优秀的人才在这里走过场,这对于公司发展一定是避大于利的。

      这是一个“悖论”,M经理看的很清楚,但是不方便直接提醒老板,导致老板的决策失误,当然这种事情在很多公司都会出现,大多数情况下大家都希望找到最合适的人,但很多因素告诉我们,在我们看来最合适的不一定就真的合适,而选择第二合适的人选则是最佳选择。

      当然,我们可以说那个看来最合适的其实就是不合适的,第二合适的其实就是最合适的,这是一个“悖论”,我们不能消除,也不能绝对的界定最合适与不合适,毕竟,影响用人的因素很多,这种“悖论”体现在工作的各个方面,甚至凭借你的专业性提交给老板,老板也知道这个合适,但是可能也会选择第二合适甚至第三合适的人选。

    转载于:https://www.cnblogs.com/roboot/archive/2011/07/21/2112398.html

    展开全文
  • 很多工程师,在电路中使用晶振时,经常会碰到这样的烦恼,一是晶振在电路中匹配...究其原因,无源晶振的使用效果不仅取决于晶振本身的指标,还与振荡电路的设计匹配关联极大,也常常出现匹配不理想的状况。有源晶振是
  • 图像匹配之序贯相似检测法匹配

    千次阅读 2015-09-12 16:51:10
    序贯相似检测法在计算匹配度的同时,不断累积模板和像元的灰度差,当累积值大于某一指定阈值时,则说明该点为非匹配点,进行下一个位置的计算,这样大大减少了计算复杂度。 代码如下: double dbMaxR = 0;

    图像匹配计算量大的原因在于搜索窗口在待匹配的图像上进行滑动,每滑动一次就要做一次匹配相关运算,在不匹配点做的运算就是'无用'的,从而导致计算量上升。序贯相似性检测法在计算匹配度的同时,不断累积模板和像元的灰度差,当累积值大于某一指定阈值时,则说明该点为非匹配点,进行下一个位置的计算,这样大大减少了计算复杂度。

    代码如下:

            double  dbMaxR = 0;                      //最大累加误差次数
    	double  dbMinr=2000;                     //最小累积误差,dbr<LTK时,最小的r
    	double  dSigmaST, dSigmaS, dSigmaT;      //	中间结果
    	double   dbr;                            //误差
    	int          i, j, m, n ;
    	int          nMaxWidth, nMaxHeight;        //序贯匹配位置
    	long       LR = 0;                         //累加误差次数
    	long       LTK = 2000;                  //阈值
    	bool       br = false;
    	CvScalar  pixelSrc, pixelTem, pixel0, pixel1;
    
    	IplImage* TemplateSrc = cvLoadImage("D:\\13.jpg");       //模板图像
    	IplImage* src = cvLoadImage("D:\\24.jpg");                //原图
    
    	//计算dSigmaT
    	dSigmaT = 0;
    	for (n = 0; n < TemplateSrc->height; n++)
    	{
    		for (m = 0; m < TemplateSrc->width; m++)
    		{
    			pixelTem = cvGet2D(TemplateSrc, n, m);
    			dSigmaT += (double)pixelTem.val[0];             //修改
    		}
    	}
    	dSigmaT = dSigmaT / ((TemplateSrc->height)*(TemplateSrc->width));
    
    	//序贯算法
    	for (j = 0; j < src->height - TemplateSrc->height+1; j++)
    	{
    		for (i = 0; i < src->width - TemplateSrc->width + 1; i++)
    		{
    			dSigmaS = 0;
    			LR = 0;
    			dbr = 0;
    			//计算dSigmaS
    			for (n = 0; n < TemplateSrc->height; n++)
    			{
    				for (m = 0; m < TemplateSrc->width; m++)
    				{
    					pixelSrc = cvGet2D(src, j+n, i+m);
    					dSigmaS += (double)pixelSrc.val[0];             //修改;
    					
    				}
    			}
    			dSigmaS = dSigmaS /((TemplateSrc->height)*(TemplateSrc->width));    
    			//计算误差dbr、LR
    			for (n = 0; n < TemplateSrc->height; n++)
    			{
    				for (m = 0; m < TemplateSrc->width; m++)
    				{
    					pixelSrc = cvGet2D(src, j + n, i + m);
    					pixelTem = cvGet2D(TemplateSrc, n, m);
    					dbr += abs(pixelSrc.val[0] - dSigmaS - pixelTem.val[0] + dSigmaT);
    					if (dbr>=LTK)
    					{
    						LR = (m + 1)*(n + 1);
    						break;       //跳出一次循环
    					}
    
    				}
    				if (dbr >= LTK)                         //再跳出一次循环
    				{
    					break;
    				}
    			}
    			if (dbr<dbMinr)
    			{
    				br = true;
    				dbMinr = dbr;
    				nMaxHeight = j;
    				nMaxWidth = i;
    			}
    			if (dbr >= LTK && LR > dbMaxR && br == false)
    			{
    				dbMaxR = LR;
    				nMaxHeight = j;
    				nMaxWidth = i;
    			}
    
    		}
    	}
    
    	//对目标像素进行赋值
    	for (j = nMaxHeight; j <TemplateSrc->height + nMaxHeight; j++)
    	{
    		for (i = nMaxWidth; i < TemplateSrc->width + nMaxWidth; i++)
    		{
    			pixel0 = cvGet2D(src, j , i );
    			pixel1.val[0] = pixel0.val[0] / 2;
    			pixel1.val[1] = pixel0.val[1] / 2;
    			pixel1.val[2] = pixel0.val[2] / 2;
    			cvSet2D(src,j, i, pixel1);
    		}
    	}
    	cvRectangle(src, cvPoint(nMaxWidth, nMaxHeight), cvPoint(nMaxWidth + TemplateSrc->width, TemplateSrc->height + nMaxHeight), cvScalar(0, 0, 255, 0), 1, 8, 0);
    
    	cvNamedWindow("White", CV_WINDOW_AUTOSIZE);
    	cvShowImage("White", src);
    	
    
    	while (1)
    	{
    		if (cvWaitKey(100) == 27) break;
    	}
    	cvDestroyWindow("White");
    	cvReleaseImage(&src);
    	exit(0);


    展开全文
  • 用机器学习计算工作技能匹配度

    千次阅读 2016-08-13 16:22:33
    本文使用Word2vec结合K-Means聚类,Word2vec结合层次聚类,和隐含狄利克雷分布三种方法描述工作技能的相关性,在评估整体关联方面它们都是有效的,最终结果在很大程度上取决于实际应用场景。 此项目的成员...

    本文使用Word2vec结合K-Means聚类,Word2vec结合层次聚类,和隐含狄利克雷分布三种方法描述工作技能的相关性,在评估整体关联性方面它们都是有效的,最终结果在很大程度上取决于实际应用场景。

    此项目的成员包括Brett AmdurChristopher RedinoAmy (Yujing) Ma。他们毕业与今年1月11日至4月1日举办的为期十二周的纽约数据科学全职训练营。这篇文章基于他们的终期项目 —— 顶点项目(Capstone Project)而完成。点击此处可见原文。

    I. 概述

    此项目的主要内容是应用机器学习方法来判断简历中工作技能的匹配程度。一家机构向纽约数据科学研究院的学生陈述了此项目,他们希望找到合适的学生来完成项目。本文的三个作者接受了这个项目,他们当时都是研究院的全日制学生。作者们与该机构的几名代表合作完成了这篇文章中的分析内容。尽管该机构不愿意我们透露他们的姓名,但是作者仍然想表达对此机构的感谢。

    这个项目的总体思路是揭示简历上展现的技能背后的语义相似性和关系。一种基于语义的评估工作技能相似性的方法有许多的潜在应用场景,它主要通过理解简历中的文本从而在简历中发现技能之间的关系。虽然有其他方法来判断工作技能之间的语义相关度,但机器学习技术带给我们更有趣和强大的结果。

    II. 词向量

    该机构为我们提供了大约250,000份简历的文本数据。在我们的项目开展之前,该机构已经给每份简历加上了是否与“数据”或是“分析”相关的标签。此数据还包括了一份经过机构编译的清单,罗列了大约3000种相关的工作技能。

    我们决定用Word2vec的词向量技术来评测清单中3000项技能的相似度,这里假设简历的文本数据就是Word2vec的文本集合。也许部分读者还不熟悉Word2vec,Word2vec技术用单词在文本中的相隔距离作为相关性的指标。具体来说,Word2vec创建了一个共现矩阵,用来表示文本集中某个单词在一个“窗口”范围内与另一个单词相邻出现的频率。用户可以调节窗口大小,即相邻单词的个数。然后利用奇异值分解的方法降低共现矩阵的维度。得到的结果是空间中的一个向量,空间的各个维度表示隐语义,因此:

    1. 在向量空间中相近的两个单词的语义可能更相近;
    2. 每个维度表示一种特定语义下的含义。

    一个经常被引用的Word2vec例子就是表示“国王”的词向量减去表示“男人”的词向量,再加上表示“女人”的词向量,计算结果得到的向量与表示“女王”的词向量非常接近。自2013年谷歌研究员公布Word2vec技术以来,它在判断术语相关性方面已经显现出卓越的成绩,而且仍将是一个重要的研究方向。

    针对这个项目,我们在250k份简历上训练了Word2vec模型,窗口大小设为12,向量空间的维度设为100.我们用Ben Schmidt开发的版本。使用skip-gram方法来创建共现矩阵,使用了8GB的内存和2.5GHz的处理器,整个处理时间大约为3.5个小时。

    向量空间创建之后,我们下一步任务就是评估向量空间对工作技能相关度的描述准确性。我们在向量空间使用聚类的方法,以评估词向量是否将工作技能聚集到对应的类别中。

    a. K-Means聚类

    我们以K-Means聚类方法为例。广义地定义,K-Means方法是将一组样本按照它们在特征空间中的相互距离划分为若干个子类,子类的个数可以自定义,即k的值。我们这里使用3000个技能作为样本来聚类,依据它们在Word2vec向量空间中的词向量(简历文本集和技能列表中的单词都使用Snowball方法提取了词干)。我们武断地决定将词分为15个簇。我们说自己的决定武断是因为我们用R的NbClust包来判断15~25之间的最佳k取值,却没有很好的结论。

    当然,在评价一个算法识别词的意义时会含有主观性的因素。但基于我们的目测判断,Word2vec对工作技能的聚类结果相对出色。每个簇内的单词的含义与其它簇内的单词含义似乎有明显差别。我们也看到,某些簇内的单词还可以被进一步分为多个子类,但鉴于我们任意选择的K值,这个结果并不奇怪(这表明事实上选择一个更大的k值就会拆散这些簇)。最重要的是,我们没有看到非常多的混合组,这意味着我们没有看到意义相近的词被分配到不同的簇。在评估聚类结果时,我们对这15个簇的含义做了如下的解释:

    1. 软件开发和数据科学
    2. 会计/项目管理
    3. 电信
    4. 通用技术
    5. 法律/职业/其它
    6. 大数据/数据工程
    7. 医学
    8. 人力资源
    9. 一般业务
    10. 设计与项目管理
    11. 银行和金融
    12. 网站开发
    13. 教育类专题
    14. 社交媒体
    15. 体育/艺术/旅游/媒体

    我们还可以浏览技能列表中任意两个词的距离,以及特征空间中与其最接近的50个词。举个例子,下图是与“机器学习”技能最相近的50个技能:

    图片描述

    github上有完整的技能列表以及它们分属的类别,还有此部分的R语言代码。

    b. 分层聚类

    在K-Means聚类方法的基础上,我们可以进一步对簇运用一种层次聚类的方法,同样是基于词向量。如同K-Means方法,层次聚类方法也是基于“距离”对一组样本聚类,但一开始并不固定簇的数量,该程序是以每个样本自身的簇作为起始,然后按照相互之间的距离依次结合这些簇。簇之间的距离度量与K-Means方法中对独立样本的距离度量是不一样的,实际上如何在集群之间实现这种“联动方法”有几个不同的选择。对当前的任务而言,基于工作技能对词向量聚类,我们偏向于全连接的方法,它认为集群间的距离就是被合并的簇内任意两个单独的样本之间的最大距离。之所以选择这种方法,因为它不容易聚类形成包含很少样本的簇,我们希望避免出现这种情况,因为少数几个大簇的情况要好于很多小簇且每个小簇只包含少量的技能。

    这种持续合并从而形成更大的簇的过程可以通过树状图(dendrogram)的结构可视化展现。通常,树状图会根据特定的应用场合限制树的高度,但是在本例中我们将展现完整的树状图,如下图所示。

    图片描述

    当把这个树状图作为一个整体考虑时,这个层次聚类的结果不容易解释。我们可以从这个过程中借鉴其它一些方面。正如在K-Means聚类的分析中提到的,其中一些簇比其它的簇要大得多,并且它们还可以进一步被细分。这里也是一样,在此情况下,进一步细分就意味着向下延伸树。我们很难从上图中学到什么内容(即使添加了标签),如果在某个合理的高度做截断,比如20层,树状图就变成了只有22个簇,与上一种方法所得到的15个簇非常相似。

    图片描述

    这更易于管理,并很容易观察树状图的分支给出相应的簇的标签,比如分支1,这显然是一个社会媒体平台相关的技能组成的簇。

    图片描述

    这张局部树状图看起来比之前的社交媒体簇更有用,因为我们能很容易地从图中读出子簇的信息,比如为何Instagram与pinterest被认为更相似,也许是因为它们都是图像相关的应用平台。这类图最有用之处就是对于那些本身庞大而难以在树状图中直接观察的子类,我们也可以对其再做切割,观察局部图的局部图。

    除了有明确的方法进一步做分组的优势之外,在K-Means聚类的同时再做分层聚类的另一个简单原因就是它可能会给一个不同的答案。这两种方法都需要设定几个自定义的输入参数,这些参数没有明确的对错之分,比如联动方法的簇的数目,所以如果一些技能被分类到两个不同的簇也不应该令人感到惊讶。使用聚类分析作为一个整体,我们可以发现除了刚才的词向量距离来测量”技能关联度”之外的另一种方法。

    聚类分析作为一个整体,可以用另一种方式做可视化;将其表示为一个矩阵,每一行是技能列表,列表示树状图的高度。

    图片描述

    因此,矩阵的每个元素表示了该技能落在树状图的哪一层。注意观察靠近表的右侧的元素,所有类别的值最终都变为了“1”,就如同在树状图的顶部所有技能都归为一类。若要衡量两个技能的相似程度,我们只需要找到这两行元素值相等时,最靠近左侧的那一列。这给我们提供了一维额外的特征,在今后的应用产品中,我们可以计算这些距离的加权平均值。

    计算树状图的脚本、完整的表和计算距离的脚本都已经上传到了github

    III. LDA和数据可视化

    我们的研究也使用了主题模型,称为隐含狄利克雷分布(Latent Dirichlet Allocation, LDA)。我们使用这个方法来寻找一堆工作简介所涵盖到的话题。

    下图所示的截屏图像是LDA模型的可视化交互工具界面。通常,我们把一些工作简介作为一个语料库,其中的技能作为我们要发现的术语。由于每个主题是许多词语的概率分布,因此很难解释这些主题。因此,我们开发了这个互动的应用程序,以帮助我们对主题进行解释。每一个圆圈代表一个主题。鼠标悬停或点击一个圆圈,你可以看到这个主题最相关的术语。

    图片描述

    要查看相关的术语,你可以简单地点击每一个术语。例如,我们可以点击“数据”一词,各个圆圈就会调整大小来显示“数据”一词与各个主题的关系。此应用显示,“数据”与每个主题都相关,尤其与第8、9和11主题相关。

    图片描述

    通过例子,在使用这个应用程序中,我们可以找到一些有趣的关系:

    • “风险”,“信用”、“投资”和“金融”共享相同的主题(如主题2、16和18)。这些主题都在PC1和PC2右上角。
    • “数据”和“业务”是无处不在。
    • “亚马逊”和“云”是主题10、13、3和2下的一个非常重要的术语;而“谷歌”和“营销”与主题15、4、5、17高度相关。这表明亚马逊与云服务和数据库更相关,而谷歌的产品在市场营销中很受欢迎。

    总结

    纵观我们所使用的三种方法 —— Word2vec结合K-Means聚类,Word2vec结合层次聚类,和隐含狄利克雷分布 —— 那么究竟哪种方法“最好”的描述了工作技能的相关性。因为在评估整体关联性方面它们都是有效的,最终结果在很大程度上取决于实际应用场景。例如,k-均值是线性复杂度,而层次聚类的运行时间是二次函数,因此,需要分析的数据量可能会变得非常重要。同时,LDA一般用于比较文本,而Word2vec更擅长逐词地比较。所以,如果应用与评估简历或职位描述最相似有关,那么LDA可能效果更好(也看到一些结合Word2vec和LDA优势的有趣的新研究)。其它应用程序的需求可能会突出不同的方法之间的差异,并驱动算法的选择。

    原文:Using Machine Learning to Measure Job Skill Similarities 
    翻译:KK4SBB 
    责编:周建丁(zhoujd@csdn.net)


    CCAI 2016中国人工智能大会将于8月26-27日在京举行,AAAI主席,国内外众多院士,MIT、微软、大疆、百度、微信、滴滴专家领衔全球技术领袖和产业先锋打造国内人工智能前沿平台,8个重磅主题报告,4大专题论坛,1000+高质量参会嘉宾,探讨人机交互、机器学习、模式识别及产业实战。八折特惠门票截止8月12日24时

    图片描述

    大会还免费开放部分创新展位,免费征集本年度人工智能领域最创新产品、技术、应用方案。在线申请:http://bss.csdn.net/cview/reg/?project_id=3118&identy_id=1732

    展开全文
  •  选用白光LED最明显的问题是产品的匹配性差,按照白光LED的典型规格,电流为20mA时正向电压的最小值为3.0V、典型值为3.5V、最大值为4.0V。显然,稳压源不是合理的解决方案。当然,利用相同的电流驱动每只LED可以...
  • 很多工程师,在电路中使用晶振时,经常会碰到这样的烦恼,一是晶振在电路中匹配不理想,影响... 究其原因,无源晶振的使用效果不仅取决于晶振本身的指标,还与振荡电路的设计匹配关联极大,也常常出现匹配不理想的
  • 对历史研究数据进行探索采集,将采集到的数据进行信息参数化处理,确定匹配算法参数,采用WRED工具实现对数据的预处理,利用树干式模型加速数据的计算与查询提高计算效率,分别从数据生成、碎片数据和数据重要三...
  • 处于各种原因,比如陀螺仪失效、轮子打滑、底盘运动参数配置错误等问题,可能导致这两个传感器上传的yaw角会发生短时间地,或微小地不匹配的情况。为了快速定位问题发生的时刻,本文解释了一种判定两者不一致的方式...

    背景

    移动机器人底盘两个重要的上传参数就是底盘的里程(x,y,θ)(x,y,θ)和陀螺仪的θθ角,即yaw角。处于各种原因,比如陀螺仪失效、轮子打滑、底盘运动参数配置错误等问题,可能导致这两个传感器上传的yaw角会发生短时间地,或微小地不匹配的情况。为了快速定位问题发生的时刻,本文解释了一种判定两者不一致的方式。其基本原理为两个时间序列的相似性分析。
    一些相关的方法有:误差信号能量方法,互相关等。

    部分不匹配的例子

    1. IMU和里程计的趋势比较相似但不完全一致
      IMU和里程计的趋势比较相似但不完全一致

    待续。。。。

    展开全文
  • 考虑离散线性周期系统的模型匹配问题, 提出一种基于参数化极点配置的模型匹配方法.... 由于所采用的参数化极点配置算法提供了充分的自由, 所提出的方法能够实现零误差匹配. 数值算例验证了所提出算法的有效.</p>
  • 针对传统特征匹配算法在实际的应用中存在搜索范围广...仿真验证试验中,图像特征匹配准确平均提高7%左右,试验结果表明:基于显著区域检测的特征匹配算法,能有效地降低图像背景对图像匹配的干扰,提高匹配的精度。
  • 通过研究匹配饱和与目的色域几何特性的关系,将色彩空间划分为5个区,在每个区采用不同匹配策略以提高匹配后色彩的饱和和精度,并在最大彩度点所在区域使用变锚点技术来保证匹配结果的色彩连续。实验结果表明...
  • 本文使用Word2vec结合K-Means聚类,Word2vec结合层次聚类,和隐含狄利克雷分布三种方法描述工作技能的相关性,在评估整体关联方面它们都是有效的,最终结果在很大程度上取决于实际应用场景。 此项目的成员包括...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 2,433
精华内容 973
关键字:

性匹配度