精华内容
下载资源
问答
  • 在SAP HR系统中,员工调动是指员工跨部门/单位的组织隶属关系变化,广义上说,还可以包括外派、借调和在部门内的岗位变动等人事调配活动。在SAP-HR中是通过人事事件来完成员工调动业务在系统中的操作,记录相关信息...

     

    SAP HR系统中,员工调动是指员工跨部门/单位的组织隶属关系变化,广义上说,还可以包括外派、借调和在部门内的岗位变动等人事调配活动。在SAP-HR中是通过人事事件来完成员工调动业务在系统中的操作,记录相关信息如调动事件及原因、调动日期,最终完成员工职位(职务)以及部门/单位等从调动之日起的变化。一般情况下,调动并不触发员工雇佣状态的变化,但可能造成员工工资核算范围、成本中心的变化。假定员工的工资核算和发放期间是日历的自然月,如果员工调动是发生在自然月的第一天,也就是员工是按整月发生异动,则SAPHR系统不需要特别的处理。工资计发、成本分摊和报表统计都不需要特别处理。但实际业务中,员工调配可能是发生在月中,则可以带来的工资发放和报表统计问题,需要特别的考虑和处理。员工月中调动是指,员工的调配(含跨调单位调动、跨部门调动和部门内部的岗位变动)的生效日不是发生在每月的1日,而是发生在2日到当月最后一天之间的任何一天。

     

    一、月中调动情况下的工资计算和发放问题

     

       对于月中调动的员工,SAP-HR系统中要求调动当月只能是在一地发放工资,也就是工资范围的变动必须是工资期间(月)的第一天开始,如果是月中调动,分两种情况:

    1)调动时原单位已经发放完工资,或者调出和调进单位双方协商由调出单位发放调动员工的工资,调动日期为M月D日,工资范围变为新单位工资范围的起始日期为下个月(M+1月)1日;

    2)调动时原单位工资尚未发放,或者调出和调进单位双方协商由调进单位发放调动员工的工资,调动日期为M月D日,工资范围变为新单位工资范围的起始日期为当月(M月)1日。

     

    二、月中调动情况下的费用过账分摊问题

     

    1.关于调动当月的工资(人工)成本分摊,对跨财务核算单位的月中调动,因为调动是跨财务核算单位即公司代码,目前尚未有企业提出按实际工作天数的成本分摊,基本是按整月处理,在调出直属单位发薪的,全额记在调出单位,反之亦然;

    2、对跨二级单位的调动和部门间岗位变动,SAP-HR系统标准方案是按月中调动当月按在原单位(部门)和新单位(部门)的时间工作天数分摊工资/人工成本费用。招聘面试目前部分直属单位按整月原则处理,要么全部记在原单位,要么全部记在新单位,但目前业务上是记在原单位和新单位的判断依据需要确认,镇海炼化的规则是如果调动时原单位已经发薪,则成本全部记在原单位,如果调动时原单位尚未发薪,则由新单位发薪并将成本全部记在原单位。

    1)SAP-HR系统用于过账的标准分摊方法是按在新旧单位的工作天数精确分摊,如果要满足目前业务上的整月原则处理方法,薪资计算SCHEMA需要做相应的调整,可以做到。

    2)当然也可以说服企业接受SAP-HR系统按工作天数精确分摊的解决方案。

     

    三、月中调动情况下的人员统计问题

     

    1.因为被调动的员工当月前半段(一天或以上)在原单位(部门)工作,后半段(一天或以上)在新单位(部门)工作,人员统计的时候到底是由有原单位统计还是由新单位统计还是两边都统计,目前没有明确的统计规则。

    2、基于SAPBW的综合应用平台统计报表的处理方法可以是按员工调动当月最后一天所在的单位/部门等决定统计回属,此方法可以解决重复统计和漏统计的问题,但是一个可以接受的近似算法;

    3、基于SAPECC的业务处理平台的其他报表和表单统计人数日期选择不尽相同,组织管理和日常人事管理的表单带关键日期的是按输进的日期当日员工回属的机构进行统计,此方法也不会重复统计和漏统计,但取出的人数和综合应用平台及工资报表比较可能会有差异。如果是按日期期间(YYYY年M月D日到yyyy年m月d日,工资期间类同)设定的统计日期范围,因为员工只要在选定的期间内存在一天也会统计进来,理论上说如果权限足够的话,月中调动的人员在调动可能会重复统计。

     

    四、月中调动情况下的工资和人工成本统计问题

     

    1.业务处理平台(SAPECC)的工资报表考虑到要按工资发放地统计,采用不同的统计规则,按工资范围提取员工,实际上是按工资方法地原则统计人数,此方法也不会重复统计和漏统计,但统计的人数(发薪人数)和按月末人数统计的人数有差异。

    2、工资类报表基本是按工资期间作为日期范围选择,只要选择条件加上工资范围,就不会出现重复统计的情况,但因为通常情况下的工资类表单工资范围不是必输的选择条件,用户可能选择组织机构、人事范围/人事子范围等的组合,实际上可能出现月中调动员工两边都被选出的情况。

     

    五、总结和建议方案

     

    1)调动处理

    部分企业按实际调动日期执行调动事件,也有部分企业按现场顾问要求在系统内按当月或下月1号执行调动事件。按实际调动日期执行调动反映了业务实际,但人数统计会有偏差特别是重复;按整月执行调动事件,避免了统计上问题,但不能反映真实的人事业务,特别是调动日期往往和员工的单位/部门/职位(职务)/职级变动直接相关,需要按精确日期记录,这样可能系统记录日期和实际业务中调动日期不一致。建议按按业务实际发生日期记录调动和岗位变动。

    2)工资发放

    因为SAP-HR系统的限制,目前调动当月工资都是在调出方和调进方一地发放。发薪人数的统计是按工资范围,和按人事范围/子范围/组织机构统计数有偏差,即使在工资表上的实有人数的统计逻辑应按下行人数统计的逻辑。建议仍然为一方发放,调动时原单位已经发放的下月起在新单位发放;调动时原单位尚未发放的本月起在新单位发放;或者按双方的协议执行。

    3)人数统计

    SAP-HR业务处理平台(SAPHR)是按关键日期统计,不重复不漏统,但可能每日都在变化;按期间统计,可能重复统计;综合应用平台(SAP-BW)制度报表统计:按月末最后一天的员工机构回属统计,不重复,不漏统计;但业务处理和综合应用平台的统计口径不一致,数据不好核对。

    4)工资统计

    按工资期间和工资范围统计,内部管理实际是按工资发放地统计;没有把工资范围做为必输选择条件,用户如果选择人事范围、人事子范围、组织机构等条件组合发薪人数可能会重复统计;另外,目前工资范围和组织机构没有一一对应关系,两者的统计口径不同。建议按工资范围统计,把工资范围设定为必输项。

    5)人工成本费用分摊

    系统可以支持按精确工作天数原则和整月原则分摊处理后过账。如此希看支持按整月原则处理,但最好统一判断规则。比如按每月15号为临界点,15号以前调动的,费用计进调进单位;15号以后调动的,费用计进调出单位。

    展开全文
  • 员工总是请假,处理方法

    千次阅读 2014-02-26 10:23:59
    很多人都反感新官上任三把火,因为这是站在了下属的角度看问题. 而为什么那么多新官上任了以后都要烧上三把火呢?因为做为领导必需要在最短的时间内树立起自己的威信. 很多没有受过领导力培训的人都会觉得自己新任领导...
           很多人都反感新官上任三把火,因为这是站在了下属的角度看问题. 而为什么那么多新官上任了以后都要烧上三把火呢?因为做为领导必需要在最短的时间内树立起自己的威信. 很多没有受过领导力培训的人都会觉得自己新任领导,要与下属处好关系,殊不知这样的想法会害了自己. 我认为与下属处好关系并不是什么都依着下属,而是先立规矩,坚持做正确的事情,维护下属的正确权益,支持下属正确的建议和做法.这样的领导才能够做到令行禁止,并且得到下属的尊重.

           "无情管理,有情关怀".对属下员工要关怀.但是关怀要有个度,不能影响正常的生产管理.对于那些经常请假的员工,可以在评先进\评奖时不给予列入.另外,员工满负荷工作也会经常请假.在人员生产能力计算时要考虑一定要时间空余



             如果站在你的角度想不出来好办法,你可不可以换种角度,站在员工的角度去看,为什么员工都来找你请假呢? 我想是不是有一种可能,就是找你请假的代价是很低的,比如一个月工资1500,请假一天少发50元钱的工资,我想员工有事情都会请假的。如果少100元的工资,可能还是有人请假,如果少150元的工资,我想很多人要好好想一下了。交换是有代价的,你请假公司就得付加班工资请别人加班,所以这个钱得请假的人掏。 另外还有一种可能,你的员工都是新员工,如果新员工一来就开始请假,而且每请必批的话,员工就会认为这个公司管理比较松的,请请假无所谓,那就不太好了。。。。


    员工请病假必须有医院的病休条 。否则不予准假。那他就会请事假 。看具体情况,一个月就只给他4天 ,再多了按矿工处理。这样的职工刚开始学徒就这样早辞退只有好处。

    展开全文
  • SQL中有一条规则:只要有NULL参与的运算其运算结果一定是NULL 以下通过实例来理解这条规则; 现有一张员工信息表(emp),包括了员工姓名(ENAMA)...像上述中计算员工年薪的函数即为“单行处理函数”,单行处理函数的特点

    SQL中有一条规则:只要有NULL参与的运算其运算结果一定是NULL

    以下通过实例来理解这条规则;
    现有一张员工信息表(emp),包括了员工姓名(ENAMA)、职位(JOB)、薪资(SAL)、补贴(COMM)等相关信息,注意COMM字段中存在NULL。

    在这里插入图片描述
    查看员工薪资:

    在这里插入图片描述
    计算员工的年薪(包括补贴COMM):

    在这里插入图片描述
    可以看到加上补贴之后,部分员工的年薪是NULL,这个运算结果明显不符合实际,原因在于COMM字段中存在NULL,SQL规定有NULL参与的运算其结果也为NULL。

    像上述中计算员工年薪的函数即为“单行处理函数”,单行处理函数的特点是:输入一行,处理一行,处理对象是每一行。

    解决单行处理函数空值问题的方法是:ifnull() 函数
    使用 ifnull 函数需要传入两个参数:

    	ifnull(可能出现空值的数据,出现空值时指定被当作什么值处理)
    

    在这里插入图片描述


    有单行处理函数,对应的也有分组函数—别名“多行处理函数”(count、sum、max、min、avg)。

    分组函数无需担心空值问题,SQL规定分组函数自动忽略NULL

    如查看员工津贴(comm)总和:

    在这里插入图片描述

    select sum(comm) from emp where comm is not NULL;
    也能实现上述相同效果,但是没有必要进行关于“是否为NULL”的判断
    
    展开全文
  • 自然语言处理中的分词问题总结

    千次阅读 2018-10-29 13:47:46
    自然语言处理中的分词问题总结   众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。把中文的汉字序列切分成有意义的词,就是中文分词,有些人...

    自然语言处理中的分词问题总结

     

    众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。本文 转载自明略研究院的技术经理牟小峰老师讲授的语言处理中的分词问题。


    如何界定分词  


    中文分词指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程;在英文中,单词之间是以空格作为自然分界符,汉语中词没有一个形式上的分界符。 (见百度百科) 正因为缺乏形式上的分界符,导致我们对词的认定会出现很大的偏差。1996 年 Sproat 等通过对 6 个母语为汉语的人进行调研,让这 6 人对同一篇中文文本进行人工切分,文本包括 100 个句子,最后统计认同率,见下表:


     


     
    不仅普通人有词语认识上的偏差,即使是语言专家,在这个问题上依然有不小的差异,这种差异反映在分词语料库上。不同语料库的数据无法直接拿过来混合训练。


    以前曾经出过分词规范 (GB13715),以“结合紧密,使用稳定”作为分词建议,后来发现这个建议弹性太大,不同的人有不同的理解,无法有效实施。


    为了统一对词语的认识,现在主要通过 “分词规范、词表、分词语料库”来使得词语切分可计算,例如北大的“词语切分与词性标注”规范。基于上述种种工作,可以把词语切分问题变得可操作和标准化,大家在统一的平台上进行实验和比较。


    对分词的诉求是什么? 


    从已有工程经验来看,几乎不存在通用而且效果非常好的分词系统,例如:在人民日报上训练的分词系统,在二次元的魔幻小说上切分效果不佳。每个领域有其独特的词汇表示,这很难通过有限的训练数据捕捉到所有语言现象。


    不用使用场景对分词的要求差异很大。在搜索的索引阶段,往往会召回所有可能切分结果,对切分准确率要求不高,但对分词速度有很高的要求,例如某中型搜索系统,每天 4000 万篇文章入库,每秒要处理 500 篇文档,每秒处理的文档字节数约有 50MB;如果分词系统太慢的话,需要开大量线程才能处理这些文档。


    在问答系统中,需要对文本实现较为深入的理解,对分词和实体识别的准确性要求很高。


    不用的使用场景,对分词提出了不同的要求,不需要片面地追求高准确率。


    别家系统的准确率怎么这么高? 


    在分词系统研发中,最容易产生误解的就是比较系统准确率。系统准确率与训练数据非常相关,脱离数据而谈论准确率无异于 “刷流氓”。2003 年 863 分词评测中就出现了 98% 的准确率,2007 年 Sighan 评测中最高准确率是 97%,在最近某司组织的评测中,最高准确率下降到了 94%。所有不同数据下的评测结果都不能直接比较高低。
     
    现在吹嘘分词准确率的公司和单位越来越少了。


    分词稳定性很重要 
    分词稳定性是指分词系统的输出在不同上下文下都比较稳定,不会出现明显被上下文影响的情况。例如,在下面句子中, “黄代恒”有时识别为人名,第二次出现未识别出来:
    实战 分享 三 黄代恒 /nr 与 轨道 交通 : 软硬 结合 到 人机 结合  黄代恒 “ 在 不同 的 客户 场景 下 , 我们 用 三 种 技术 实现 轨道 交通 的 数据 洞察


    一般纯统计分词系统的稳定性比不上基于词典实现的分词系统。在搜索中,分词稳定性非常重要,否则极容易出现查询不到的情况。


    已有分词系统小结  


    分词大概是投入人力非常大的 NLP 方向,几乎每一家“有追求”的公司都有员工实施过类似的任务,而且反复迭代更新;在 NLP 研究界,这个问题从上个世纪 80 年代就已经开始探索,一直到 ACL 2017 仍然有这方面的论文 (有 4 篇丛神经网络角度探索分词的文章)。


    如此多的人力投入到分词理论研发和工程研发中,产生了一批各有特色的分词系统。下面仅仅就本人接触到的系统作说明 (排名无先后),比较“古老”的系统不在此罗列:
     
     

     


    IK 系统 


    该系统采用 JAVA 开发,实现逻辑不复杂,由于对 Lucene 和 ES 支持较好,因而得到了比较普遍的使用。该系统可以实现英文单词、中文单词的切分,OOV 识别能力不强。该系统有几种使用模式,分别对应不同的使用场景,如索引、查询等。


    IK 有些功能比较贴心,比如热更新用户词典,支持用户自定义词典非常方面,对搜索工程师比较友好。


    IK 的代码实现上优化不够好,甚至能发现 BUG。我们发现的 BUG 会导致 ES 中长 Query 无法实现精准匹配。


    对于中小企业的内部应用来说,使用 IK 足够了。在商业系统上使用的话,要非常慎重,参与优化的人员太少了。

     


    Jieba 系统 


    Jieba 大概是最好用的基于 Python 实现的分词系统了,2-3 行代码就可以实现分词调用和词性标注,速度还不错。基于 HMM 模型实现,可以实现一定程度的未登录词识别。


    Jieba 有精确模式、全模式、搜索模式三种。全模式是找到所有可能词语;搜索模式是在精确模式的基础上对长词进行切分,提高召回率。
     
    支持繁体分词;支持自定义词典;支持并行分词,方便实现加速。


    在分词速度上,精确模式能达到 400KB/ 秒,全模式下能达到 1.5MB/ 秒。


    Jieba 除了 Python 版本外,还有多种语言实现的版本,包括 C++, JAVA, Golang 等。


    Java 版本的 Jieba 功能上受限,仅面向搜索使用。明略 SCOPA 产品中使用了 Java 版本的 Jieba 作为分词组件,替换了 IK。

     


    Hanlp 平台 


    Hanlp 是一个功能非常全面的 NLP 平台,它的分词接口借鉴了 Ansj 的设计,形式上和命名上都非常像。


    Hanlp 有“简约版”和“加强版”,简约版的模型参数较小,分词能力还可以;加强版在模型参数上扩大了若干倍,分词能力进一步提升。


    Hanlp 支持基于 HMM 模型的分词、支持索引分词、繁体分词、简单匹配分词(极速模式)、基于 CRF 模型的分词、N- 最短路径分词等。实现了不少经典分词方法。


    Hanlp 的部分模块做了重要优化,比如双数组,匹配速度很快,可以直接拿过来使用。


    Hanlp 做了不少重现经典算法的工作,可以去 GitHub 上看一下!

     


    ICTCLAS 系统 


    ICTCLAS 大概是“最知名”的分词系统了,从参加 2003 年中文分词评测,一直延续到了现在。现在已经是商业系统了 (改名 NLPIR),需要 License 才能运行。


    从未登录词识别准确率上说, ICTCLAS 已经明显落后于基于 CRF 的分词系统了。


    尽管如此,它的优点仍然比较明显:很少出现 “错得离谱”的切分结果,这在基于 CRF 模型的分词系统上不少见,尤其是迁移到其它领域时;模型和库不大,启动快;基于 C++ 实现,能够很快迁移到其它语言。


    从分词稳定性上来说, ICTCLAS 值得信赖,从分词准确率、分词速度等方面来考量,有不少分词系统超过了它;NLPIR 的源代码已经不再开放,这让用户很纠结。

     


    交大分词 


    所谓 “交大分词”,是指上交大赵海老师个人主页上的分词系统。该系统在 2007 年 Sighan 评测中拿到了多项第一。


    该系统基于 CRF 模型构建,在模型特征提取上做了大量工作,分词准确率比较高。目前可用版本支持简体、繁体分词,也支持不同分词标准。该系统被常常用来比较分词准确率。


    该系统的问题是不开源,只有 Windows 上的可执行文件,C++ 源码需要向作者申请。虽然该系统不开源,但作者的一系列论文基本上揭示了其原理,复制起来并不难。


    从工程角度来考虑,该系统只适合做 DEMO 组件,不适合大规模工业化使用。

     


    Stanford 分词 


    Stanford 分词系统的优点是准确率高,未登录词识别能力比较强;缺点非常明显,模型很大,约 300MB-400MB,启动非常慢,大概需要 10 秒 -20 秒。在所有分词系统中,没有比 Stanford 启动更慢的系统,分词速度也不快。代码优化的空间比较大。
    Stanford 系统支持自定义训练,只要用户提供训练数据,该系统可以训练新的模型参数。


    Stanford 分词系统只是验证作者论文的一种手段,为了非常微小的分词准确率提升,导致了模型参数膨胀。
    在 Demo 环境下可以使用 Stanford 系统,在大规模数据环境下不适合使用该系统。

     


    GPWS 系统 


    GPWS 是北京语言大学语言信息处理研究所研发的分词系统,2001 年对外发布。该分词系统是 2000 年后唯一一个基于大规模规则 + 统计的分词系统(仅限个人所知),在 2004 年非常低的硬件配置下,分词速度也能达到 3MB-5MB/ 秒,对系统资源的消耗很低。后来授权给了新浪、微软等公司使用,被应用在了信息检索中。


    GPWS 可以实现中文人名、外国人名、日本人名的识别,其它分词系统几乎都没有做到这个程度;对通用领域的文本切分效果较好,支持自定义词典;很少出现切分“离谱”的情况。该系统适合大规模数据处理的场景。


    上述所有系统几乎都依赖于训练数据,而 GPWS 没有这方面的问题。GPWS 依赖于高质量分词词典和歧义切分机制,采用基于可信度的人名识别方法,不依赖于公开的训练数据。


    GPWS 最大的问题在于很难复制,代码没有公开;在分词准确率上,GPWS 已经比不上字本位的分词系统;但从分词稳定性上,GPWS 仍然非常出色,比纯统计分词系统明显要好。

     


    分词的难点在哪里? 


    歧义  


    歧义问题与词长非常相关,词语越短,发生歧义的可能性越大,词语越长,发生歧义的可能性越低,很少出现成语与其他词发生歧义的情况。歧义问题在分词中不是罪严重的问题,仅占分词错误数的 10% 左右。歧义分类包括:


    交集型歧义
    abc -> 可以切分为 ab c 和 a bc,占所有歧义总量的 95%,也就是说歧义问题主要是指交集型歧义
    例如:
    研究生命的起源 | 研究生 命 的起源
    这种环境下 工作 |  这种环境 下工 作
    化妆 和 服装 |  化妆 和服 装
    这群 山里的娃娃 |这 群山 里的娃娃
    进书店 跟 进超市一样 | 进书店 跟进 超市一样


    组合型歧义
    abc ->可以切分为 abc 和 a bc 或 abc。
    组合型歧义一般要通过前后邻接搭配的可能性大小来判断。
    他从 马上 下来 | 他从 马 上 下来
    这个门 把手 坏了 | 这个门 把 手 坏了


    基于马尔科夫模型计算邻接搭配可以消除绝大部分歧义。


    通过计算词语搭配的概率估计句子的概率,选择概率最大的结果即可。
     
     

     


    分词错误的主要来源 


    未登录词 - 不在词典中的词,该问题在文本中出现频度远远高于歧义。


    未登录词的类型包括:人名、地名、机构名、公司名、数字、日期、专业术语、新词、产品名等。一般把人名、地名、机构名、公司名叫命名实体,例如:
     
    卢靖姗一夜爆红 (人名)
    在东四十条站台见面 (地点)
    银联的小兄弟网联成立了 (机构名)
    公元 2017 年 8 月 24 日发生一件大事(日期)
    中国外汇储备达到三点 94 万亿美元(数字)
    在明略软件做大数据处理 (公司名)
    基于暗网数据买牛股 (专业术语)
    招行发布了朝朝盈一号的理财产品(产品名)
    让你见识什么叫冻龄 (新词)


    不同类型的命名实体还可以细分,比如人名可以分为中文人名、藏族人名、维族人名、日本人名、欧美人名等。


    地名可以分为典型地名和非典型地名,典型地名如国、省、市、县、乡、村等;非典型地名还包括路、居委会、大厦商场、门牌单元、图书馆、门面等。理论上,只要是有经纬度坐标的实体,都可以纳入地名识别范畴。在实际工作中,这方面的识别需求非常强烈,比如在公安领域的线索或案情信息,往往涉及到这种非典型地名。


    机构和公司的类型也多种多样,除了行政机构外,还有各种社团、 NGO 组织、基金会、校友会等等;公司名涉及到公司全称和公司简称的识别,例如:
    明略软件系统科技有限公司(全称)
    明略软件(简称)
    明略数据(简称)
    全称识别相对容易一点,简称识别非常困难,比如:小米、滴滴、凡客、 OFO 等。


    机构公司名与地名之间存在很大的交集。理论上,一个机构或公司往往会有办公地点,有时也会用机构公司名来称呼该地点,这样的话机构公司名也就有了地点属性。例如:
    小明在明略软件上班(公司名)
    把球踢进了明略软件的门前(看做公司名还是地点?)
    在实际工作中,命名实体的关注程度最高,因为这些实体往往是知识图谱的节点。其它未登录词中,专业术语的提取会对文本分类和文本理解有重要帮助。

     


    分词中的语料问题 


    基于统计模型的分词系统,在分词结果上出现差异的一个原因是对语料的预处理差异导致。相当多的分词系统没有对训练数据进行一致性校验,认为训练数据是无差错的。在实际调查时发现,训练数据包含了不少标注不一致的情况。例如人民日报中的例子:
    自认倒霉 | 自 认 倒霉
    倒霉 鬼 | 倒霉鬼


    除了切分一致性外,词性标注的不一致性更严重一些,如: “自认倒霉”有时标注为 l、有时标注为 lv;“难能可贵”有时标注为 i、有时标注为 iv。


    分词语料的选择范围有限,主要包括北大人民日报标注语料、微软标注语料、社科院标注语料、 CTB 语料、OntoNotes 语料、城市大学繁体语料、中研院繁体语料等。一般选择一种数据即可,数据需要购买。


    分词语料之间在词语颗粒度上有一定差异,一般不混用进行训练,例如:
    承租人、承租者 (北大)  | 承租 商 (微软)
    高 清晰度 彩电 (北大) | 高清晰度电视 (微软)

     


    分词的理论解决方案  
    分词的理论解决方案是采用统计模型,基于切分语料进行训练。该方案在学术界和工程界都很常见,也是学术界的研究热点。方案的差异主要是模型和特征工程不一样。模型差异非常常见,比如隐马尔科夫模型、最大熵模型、条件随机场模型、结构感知机模型、 RNN 模型 等。


    特征提取 
    特征提取的第一步是选择单元:基于字还是基于词。从实践来看,基于字的模型对未登录词识别能力较强,但基于词的模型很少会出现切分“离谱”的情况。采用什么颗粒度单元,取决于具体任务。
    特征工程会对最终分词结果产生很大影响。字本位分词的常见分词特征是:
     
     
    Unigram 是单字特征模板,当前字的前一个字、当前字、后一个字。Bigram 是邻接字组合特征模板,包括前一个字与当前字、当前字与后一个字的组合。Jump 是把前一个字与后一个字组合。


    其它特征主要是关于字的属性,如是否数字、标点、字母等。这些特征都是形式上的特征,没有歧义。


    每一个特征实例在 CRF 模型中有一个权重。由于特征越多,模型参数越大,在实际工程应用中资源消耗越大,因此在实际任务中会有一定取舍。

     


    理论解决方案的问题 


    训练数据规模有限
    北大人民日报的原始语料的词语数为 2800 万;CTB9.0 词语数为 200 万;国家语委数据为 5000 万字。
    标注语料是一个非常消耗人力的事情。北大 1998 年人民日报的标注共持续了 3 年时间才完成。CTB1.0 的标注持续了约 2 年时间。


    领域迁移性不佳
    其他领域实施时,分词准确率下降很快。由于标注语料的词语使用无法覆盖实际语言现象,因此基于标注语料训练的分词系统在差异较大的领域会出现准确率降低的情况,例如基于北大语料训练的分词系统在微博上的切分准确率就不是很高。


    模型越来越大,速度越来越慢
    早期使用 HMM 模型训练分词系统,在北大数据上训练大概需要 1-2 分钟,内存消耗很小。现在使用 CRF 模型训练大概需要 3 天左右,内存大概需要十几 G。CRF 模型在训练分词系统时,其参数数量跟特征数量直接相关,训练数据越多,特征数量越大,模型也就越来越大。导致系统调用存在困难,运行速度下降。

     


    如何工程解决?
     
     


    能用规则解决的,就不要靠模型了 


    针对文本中有规律的部分,可以利用规则或者正则表达式来识别,例如数字、标点、时间、日期、重叠式等,如笑一笑。

     


    扩大训练语料  


    扩大训练语料的一种办法是购买更多语料;另外一种办法是利用其它分词系统来切分数据,对数据进行清洗,形成新数据。


    这些不同的分词系统依赖的训练数据尽量不要相同,例如 Stanford 系统是基于 CTB 语料,LTP 系统是基于人民日报,这两个系统的切分结果就可以考虑混用。在混用前,要进行一定程度的预处理,比如保持切分一致性。


    明略的分词系统通过使用多款不同分词系统的分词结果,扩大训练数据,在人名识别上大幅度提高了召回率。

     


    增加词表 


    增加词表是提高切分准确率 “立竿见影”的办法。在自然语言处理中,只要是封闭集合的词语或实体,可以考虑利用词表来切分,例如成语。该方法简单有效。


    在明略分词数据中,集成了全国所有的地名、公交站名、路名等,精确到村和居委会,对国内地名识别上有很高的准确度。对机构名和公司名,集成了经常出现的国内行政机构、上市企业等名字。
    在 Bosen 系统的演示中,对公司名识别准确率非常高,例如:“明略数据、明略软件”这种公司简称也能识别出来,即使没有上下文也能识别。这应该跟其后台的公司名数据有关。

     


    最大匹配 + 大词表 


    从诸多实践来看,最大匹配分词策略 + 大词表的方法非常有效。在《中文分词十年回顾》中作者提到了最大匹配和大词表的效果:
    Ftop 行表示没有未登录词的情况下,仅使用最大匹配达到的 F 值(准确率 + 召回率)。


    实用的分词系统,都带有大量通用词表和领域词表。


    收集整理领域词表,对迁移分词系统至关重要。这对统计分词系统比较困难。

     


    结合深度学习? 


    ACL 2017 年有 3 篇跟分词相关的文章,都是深度学习 (神经网络) 和分词结合的内容。分别是:
    Neural Word Segmentation with Rich Pretraining
    Adversarial Multi-Criteria Learning for Chinese Word Segmentation
    Fast and Accurate Neural Word Segmentation for Chinese
    从明略的实践来看,深度学习应用到分词任务中的优点在于:模型非常小。在约 200MB 的语料上训练得到的模型只有 5MB。分词准确率接近历史上最佳评测结果,但是分词速度太慢。


    从最新文献来看,利用神经网络来做分词,训练效率和运行效率都比较低,慢得无法忍受,不适合工程上部署,也不适合做 Demo。


    在《 Fast and Accurate …… for Chinese》中提供了运行速度对比,测试数据为 170k 左右,2015 和 2016 年的 6 项分词结果中,切分测试数据的时间从 28 秒到 125 秒。在传统方法上,比如基于 CRF 分词,运行时间大概只要 1 秒。

     


    根据个人经验,神经网络在 NLP 上的成功应用的领域往往是准确率不高或者运行效率很低的场合,例如问答系统、机器翻译、句法分析。在准确率比较高或者运行效率不错的场景下,利用深度学习会得不偿失。

     

    来自 “ ITPUB博客 ” ,链接:
    http://blog.itpub.net/31524777/viewspace-2217608/,如需转载,请注明出处,否则将追究法律责任。

     

     

    展开全文
  • 求每个员工的连续工作时间段及工资和 select name, first1, last1,salary * (datediff(last1, first1)+1)as salary from (select name, num, salary, min(date) as first1, max(date) as last1 from (SELECT a...
  • 调研中经常遇到的问题处理方法

    万次阅读 2007-07-13 12:37:00
    调研中经常遇到的问题处理方法1、获得用户的支持对我们调研工作是非常有利的,同是也关系到开发系统的推广顺利与否。调研人员除了应该完成课题调研工作以外还应该和客户积极配合,对用户不理解地方耐心讲解,逐步...
  • java 找bug处理问题的思路

    千次阅读 2019-01-31 20:05:48
    1 根据日志提示信息错误 关键字去代码中查找。看看哪个方法使用到了  2 进一步看这个方法被哪些调用 分析   这个过程注意看 tail -f 观察日志的实时变化, 同时做一些操作触发变化。...
  • 我在公司从事软件项目管理也有两年时间,带过大大小小三个项目,这个问题从一开始到现在,为了解决这个问题,我做过很多实践,包括:对于做的出色的员工给予及时的表扬和鼓励;分配具有挑战性的工作任务;给予奖励,...
  • 记一次MongoDB 数据乱码处理问题

    千次阅读 2018-08-01 15:43:55
    显然对于拿到的结果再去做一次遍历岂不是又要耗时耗力,数据量大了性能肯定下降的厉害,所以这种处理方式不可取。 解决思路 将拿到的的数据转换为 bson 对象,然后通过json.loads()方法将其转换为json 能处理...
  • 使用位运算处理权限问题

    千次阅读 2017-05-08 18:41:46
    我这里说到的权限管理办法是一个普遍采用的方法,主要是使用到”位运行符”操作,& 位与运算符、| 位或运行符。参与运算的如果是10进制数,则会被转换至2进制数参与运算,然后计算结果会再转换为10进制数输出。 它...
  • 企业家要妥善处理元老问题,要对公司元老充满敬意,毕竟一方面公司所取得的成就离不开元老们多年的奉献,另一方面总...那么有哪两大激励方式能够解决企业元老级员工问题呢? 第一,内部创业 内部创业模式即通过对内部
  • 员工管理

    千次阅读 2016-06-17 09:26:54
    第一讲:员工流失原因 一、新员工流失原因分析 1、外部“拉力” 外部“拉力”因素——提升的职位、高薪、发展机会等 2、内部“推力” 内部的“推力”因素(缺乏内部提升机会、不合理或不公平的薪酬分配、复杂的人际或...
  • SQL Server 2008R2 hierarchyid的使用方法(父子节点、上下级处理) ...SQL Server 2008 及以上版本,出了这样一个字段类型,用于处理父子节点、员工上下级等问题。使得此类问题变得更容易处理些。
  • 在上一讲中我们讨论了对功能处理概念的理解,那是我们识别功能处理的基础。本节我们将继续讲解如何识别功能处理。在度量手册中,对识别功能处理给出了如下的规则:a) 一个功能处理应该完全属于某层且仅属于某一层的...
  • TS - 处理故障的一些通用方法

    千次阅读 2019-09-30 23:37:58
    而对于非线上问题,客观上会有“相对多一点的处理时间、多一些的分析和处理方法”。 1 接触与了解 从总体着眼,从细节入手! 确认基本相关信息是必须执行的首要环节,也是后续处理问题的基础...
  • 如何与离职员工面谈沟通?

    千次阅读 2016-01-13 15:18:19
    对于HR经理而言,处理员工离职是件不轻松的事情。而处理好员工离职的面谈管理,在HR的工作中既要注意方式,也不能疏虞细节。那么,在实际工作中如何处理好这两类离职的员工的沟通工作呢?   首先,我们先谈主动...
  • 员工成长阶段与激励方式探讨

    千次阅读 2008-01-15 11:03:00
    员工成长阶段与激励方式探讨 摘要:每个员工的职业生涯都分为几个阶段,每个阶段又有不同的特点,如何在不同的阶段使员工的积极性都达到最大化,这是现阶段也是长期以来的一个焦点课题。所以在不同的阶段需要分别...
  • 关于activiti任务处理人变更的问题(改派)

    千次阅读 热门讨论 2018-12-19 10:36:59
    最近遇到一个需求,就针对某一个任务,配置的任务审核人可能是A,但是现在A出差了,需要B去临时处理一下,那么这个时候就需要用到了处理人变更,也就是我们常说的改派。 首先分析下activiti的审核人的方式吧,...
  • 我在公司从事软件项目管理也有两年时间,带过大大小小三个项目,这个问题从一开始到现在,为了解决这个问题,我做过很多实践,包括:对于做的出色的员工给予及时的表扬和鼓励;分配具有挑战性的工作任务;给予奖励,...
  • [转帖]知识型员工的激励方式

    千次阅读 2013-06-06 15:47:21
    德鲁克给知识型员工所下的定义是:知识型员工是指,一方面能充分利用现代科学技术知识提高工作效率,另一方面知识型员工本身具备较强的学习知识和创新知识的能力。知识创新能力是知识型员工最主要的特点。加拿大学者...
  • 员工考核画像

    万次阅读 2017-09-07 09:22:11
    2、具备一定的组织能力,偶尔方式不恰当,但能迅速纠正;3、组织能力一般,能与他人配合共同组织各项任务/活动;4、不具备组织能力,只能按照其他人的指示开展工作。二 领导能力1、具鲜明的领导风格、良好的职业素养...
  • C语言实现员工管理系统

    千次阅读 2017-07-12 18:48:01
    这俩天写了一个小玩具程序,算一个长期以来的热门题目就是《xxx管理系统》。大致的意思整个程序分为客户端和服务器段,客户端通过登录...至于员工信息这些数据,舍弃了数据库的做法,改用读写普通文件的方式存放数据。
  • 序论 一个企业怎样才能做到赋予员工更大的权利的同时,降低成本,提高数据的质量呢?建立“员工自助系统”就是其中的一种解决方案。目前,许多知名的企业都已经建立了自己的“员工自助系统”与企业中最重要的财富 ...
  • 《世界500强公司要求员工必须熟练掌握的七种工作方法,收好不谢!》 精选一 工作讲究方法,找到了好方法可以让你的工作事半功倍,而没有头绪、没有计划、没有目标的工作形式则会让你身心俱疲还毫无成效。一流公司...
  • spss实现中心化处理、标准化处理和归一化处理

    万次阅读 多人点赞 2019-03-19 22:11:33
    文章目录一、中心化、标准化、归一化简单描述二、中心化处理三、标准化处理四、归一化处理五、参考资料 一、中心化、标准化、归一化简单描述 意义:数据中心化和标准化在回归分析中是取消由于量纲不同、自身...
  • 绩效面谈中什么状况都可能发生,那么,一旦出现意外情况,经理该如何处理?...与员工一起探讨解决问题的办法;保持冷静; 如果在绩效面谈中,员工没有任何反应怎么办? 解决策略: 告诉员工:“我很想听听你的
  • 员工的积极性-能力四象限模型

    千次阅读 2019-08-17 18:15:36
    针对四类员工处理方法:
  • 职场上如何处理面子问题?

    千次阅读 2007-05-07 18:11:00
    因为好面子,向他人借出不该借的钱等私人领域问题,暂且不提;单说职场上面子的负面影响,就不可小视。 面子会破坏企业的根本目标,破坏企业中“敬业、专业、职业”的文化基础。商业的本质是赚钱,但你好我好他好的...
  • 一个员工的离职成本,很恐怖!

    千次阅读 2020-08-21 23:13:29
    一个员工离职后留下的坑,并不是再找一个人填上就万事大吉了。一般来说,核心人才的流失,至少有1-2个月的招聘期、3个月的适应期,6个月的融入期;此外,还有相当于4个月工资的招聘费用,超过40%的失败率。 《财富...
  • 员工满意度调查表第三部分,对员工培训的满意度(1-20题),(共有20个问题 ,每题5个答案 ,任选1个答案 ) 1、您的性别(): A. 男 B. 女 2、您所在单位的性质(): A. 国有企业 B. 民营企业 C. 外资企业 D. ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 166,271
精华内容 66,508
关键字:

处理问题员工的方式