精华内容
下载资源
问答
  • 数学模型方法在企业环境风险预测中的应用,周伟,李晓萌,如何进行企业环境风险预测,各有说法。传统方法主要以反映企业经营和财务状况的指标进行风险预测,它存在天然的缺陷。而数学模型
  • 确定了影响煤制甲醇项目动态收益的主要风险因素———煤炭价格和甲醇价格,建立了预测煤炭价格和甲醇价格的数学模型,并对建立的模型进行验证,旨在为投资企业提供一个可靠性较高的风险评估依据,做出合理的投资决策。
  • 企业风险预测开发复盘总结 一、背景介绍 在企业信用领域,每个企业每天都在发生着改变,这些改变有可能使得企业越来越好,也有可能使得企业面临各种风险。面对企业的百万级运营数据,从中分析出企业的风险信息对企业...

    企业风险预测开发复盘总结

    一、背景介绍

    在企业信用领域,每个企业每天都在发生着改变,这些改变有可能使得企业越来越好,也有可能使得企业面临各种风险。面对企业的百万级运营数据,从中分析出企业的风险信息对企业运营的决策和投资者都是比较好的参考。

    为了给客户提供一个比较精确企业风险信息,我们可以根据企业的历史数据和后面的表现情况,结合数据挖掘的理论知识,采用树模型分类算法模型来预测企业发生风险概率。

    二、简介

    结合实际,我们主要围绕两方面工作,第一是数据准备工作,主要是因子体系的梳理和加工,第二是实现评分卡模型。

    三、需求说明

    3.1数据方面

    企业口径:正常企业和发生风险的企业

    企业数据:参考企查查,主要有企业的工商、法务、舆情、关联企业、企业法人、企业股东、企业年报等方面数据。

    3.2 环境方面

    1.数据库
    2.Python3.7

    3.3 时间方面

    初版定于x月完成。

    四、实施方案

    4.1梳理因子体系

    时间窗口,先进行数据分析,初步想法是按照关键业务数据为基础分析,再根据分析结果确定时间窗口。

    因子体系,在已有的企业数据基础上,整理和添加与企风险有关的因子。

    4.2 数据加工

    根据因子体系加工数据,主要是在数据库里面加工,确定数据表的规范和具体内容。

    4.3 实现数据挖掘

    主要有读取数据、数据处理、特征选择、训练模型、测试模型及评估调整模型几个重要步骤,下面简单介绍下这些步骤里面的一些重要细节。

    4.3.1读取数据

    通过Python连接数据库,直接把加工好的模型数据读进Python中,同时注意数据类型和格式是否正确。

    4.3.2数据处理

    区分数据类型,将离散型和连续型数据分开。

    缺失值和异常值处理,以替换为主,删除为辅。

    离散化主要以有监督的离散化方法为主。

    4.3.3特征选择

    计算变量的woe值和iv值,根据iv值选择特征。

    数据转换,用woe值替换掉离散化后的数据。

    计算相关性和多重共线性,并根据计算结果筛选出入模的特征。

    4.3.4 训练模型

    训练模型,将最后选择特征进入算法训练。

    4.3.5 测试模型

    测试模型,把测试样本根据训练参数预测结果后和实际情况进行对比。

    4.3.6 评估和调整模型

    评估模型,根据训练的算法参数和测试的结果,挑选和计算出模型的F1指标。

    调整模型,视评估效果决定是否调整模型。

    展开全文
  • 为及时掌握煤矿风险信息并对风险进行有效预测预警,设计了一种基于GIS的煤矿企业风险预测预警系统。该系统利用GIS信息采集平台对危险源信息进行有效的采集处理;利用风险预警模型对采集的信息进行数据挖掘分析、算法...
  • 企业非法集资风险预测第一周周报 1.赛题理解 背景:非法集资严重干扰了正常的经济、金融秩序,使参与者遭受经济损失,甚至生活陷入困境,极易引发社会不稳定和大量社会治安问题,甚至引发局部地区的社会动荡。如何...

    企业非法集资风险预测第一周周报

    1.赛题理解

    • 背景:非法集资严重干扰了正常的经济、金融秩序,使参与者遭受经济损失,甚至生活陷入困境,极易引发社会不稳定和大量社会治安问题,甚至引发局部地区的社会动荡。如何根据大量的企业信息建立预测模型并判断企业是否存在非法集资风险,对监管部门、企业合作伙伴、投资者都具有一定的价值。

    • 任务:利用机器学习、深度学习等方法训练一个预测模型,该模型可学习企业的相关信息,以预测企业是否存在非法集资风险。赛题的难点在于数据集包括大量的企业相关信息,如何从中提取有效的特征并进行风险预测成为本赛题的关键问题。

    2.数据初步认识

    该数据集包含约25000家企业数据,其中约15000家企业带标注数据作为训练集,剩余数据作为测试集。数据由企业基本信息、企业年报、企业纳税情况等组成,数据包括数值型、字符型、日期型等众多数据类型(已脱敏),部分字段内容在部分企业中有缺失,其中第一列id为企业唯一标识。

    • 主要包含以下字段
      id:企业唯一标识,
      oplocdistrict:行政区划代码,
      industryphy:行业类别代码,
      industryco:行业细类代码,
      dom:经营地址,
      opscope:经营范围,
      enttype:企业类型,
      enttypeitem:企业类型小类,
      opfrom:经营期限起,
      opto:经营期限止,
      state:状态,
      orgid:机构标识,
      jobid:职位标识,
      adbusign:是否广告经营,
      townsign:是否城镇,
      regtype:主题登记类型,
      empnum:从业人数,
      compform:组织形式,
      parnum:合伙人数,
      exenum:执行人数,
      opform:经营方式,
      ptbusscope:兼营范围,
      venind:风险行业,
      enttypeminu:企业类型细类,
      midpreindcode:中西部优势产业代码,
      protype:项目类型,
      oploc:经营场所,
      regcap:注册资本(金),
      reccap:实缴资本,
      forreccap:实缴资本(外方),
      forregcap:注册资本(外方),
      congro:投资总额,
      enttypegb:企业(机构)
      (暂时只对baseinfo数据进行分析)

    3.数据分析(简单操作)

    • 初步分析是很多字段的缺失值太多,下面进行简单操作对缺失值较多的字段进行直接删除
      [‘enttypeitem’, ‘opto’, ‘empnum’, ‘compform’, ‘parnum’,‘exenum’, ‘opform’, ‘ptbusscope’, ‘venind’, ‘enttypeminu’, ‘midpreindcode’, ‘protype’, ‘reccap’, ‘forreccap’, ‘forregcap’, ‘congro’]
    • 将单一值较多的字段也剔除,如dom,opscore,oploc
    • 拆分月份特征
    • 将无关特征剔除,如id

    4.特征工程(暂不做处理)

    5.模型选择

    和之前的不良贷款预测一样,选用lgbm模型,参数设置如下
    在这里插入图片描述
    调参后续进行

    6.模型融合(后续进行)

    第一周先进行以上简单的操作,接下来的一个星期继续优化结果,此次提交成绩如下,0.8138

    在这里插入图片描述

    展开全文
  • 这项研究确定并评估了中小企业(ERP)采用ERP的收购阶段的某些关键陷阱,并建立了评估失败风险模型。 在收购阶段,已根据过去的研究工作确定了一组风险,并通过一组定义明确的风险因素或陷阱对这些风险中的每一个...
  • 根据企业生命周期理论,针对企业处于初创期、成长期、成熟期及衰退调整期4个不同阶段的特点,建立基于现金流量的财务风险预警模型,以期及时发现风险、规避风险,延长企业寿命.应用算例表明.计算结果的平均相对...
  • 模型可用于预测将导致ERP实施失败的风险影响。 本文是评估中小企业ERP决策的持续研究的一部分,涉及五个阶段,即计划,获取,实施,使用,渗透和扩展。 中小企业要承受实施ERP的风险。 在广泛参考早期研究的基础...
  • CCF2020企业非法集资风险预测-季军方案 原创四位靓仔ChallengeHub公众号 大家好,我们是四位靓仔团队,团队成员有:致Great、lrhao、姜小帅、朋飞,感谢队友们的辛勤付出;此次赛题有四千多人参加、三千多只...

    CCF2020企业非法集资风险预测-季军方案

    原创 四位靓仔 ChallengeHub 公众号

     

    大家好,我们是四位靓仔团队,团队成员有:致Great、lrhao、姜小帅、朋飞,感谢队友们的辛勤付出;此次赛题有四千多人参加、三千多只队伍,作为常见的风控模型,也是最卷的赛题,本次比赛也是在答辩之后取得季军的成绩。

     

    01 赛题背景

    • 非法集资严重干扰了正常的经济、金融秩序,使参与者遭受经济损失,甚至生活陷入困境,极易引发社会不稳定和大量社会治安问题,甚至引发局部地区的社会动荡。

    • 如何根据大量的企业信息建立预测模型并判断企业是否存在非法集资风险,对监管部门、企业合作伙伴、投资者都具有一定的价值。

    • 赛题链接:https://www.datafountain.cn/competitions/469/ranking?isRedance=0&sch=1722

     

    02 赛题难点

    • 企业信息表过多,如何筛选有效的企业画像信息

    • 线上线下不一致,如何保证单模模型的稳定性 & 泛化性能

     

    03 方案框架

    作为风控领域题目,其实能够构建衍生特征去体现用户画像与非法集资的概率联系,其实就足够了;如果能够去进行不同模型融合保证稳定性自然是更好的,但是我们在融合之后,没有显著收益,因此最后也只用了LGB单模型。

    图片

     

    04 特征工程--企业画像与资产交易

    在构建特征部分,我们考虑挑选一些重要的用户画像特征以及一些重要的资产交易特征,进行特征的交互构建统计量特征。在这一部分构建的特征较多,但是由于个人时间原因,我们没有考虑进行特征的筛选一些方法,但是的确是一个优化的方向。

    图片

     

    05 特征工程 -- 企业画像概率分布特征

    我们对一些重要的用户画像和资产特征做了目标编码特征,其中数值型特征可以考虑先进行数值分箱再进行目标编码

    图片

    在一些其他特征构建中,比如对企业变更信息表构建序列,使用Embedding技术构建Embedding向量,但是在我们的线上收益很小。

    06 最佳参数&阈值搜索--基于模型稳定

    最后也是对模型参数使用了一些参数调优方法以及线下最佳阈值的搜索,寻找0-1的分割临界点。

    图片

     

    07 方案总结

    图片

    END

    • 欢迎扫码关注ChallengeHub学习交流群,关注公众号:ChallengeHub

                                                                                         image.png

    或者添加以下成员的微信,进入微信群:

                                                                                        image.png

      •  
    展开全文
  • 这项研究测试了1985年至2013年间破产的众多私人公司样本的Altman破产预测模型的准确性。模型计算中使用的财务比率Z'-Score(私人公司的Altman's Z)也提供了有用的信息样本中有关私营公司的偿付能力和破产可能性的...
  • 在此基础上,建立了单户处置企业的不良贷款回收率预测模型,并且利用模型的各个影响因素对回收率的贡献程度进行了测算.以单户预测模型为基础,结合打包处置的处置策略,利用十折交叉验证和组合预测的思想,建立了打包处置...
  • 文章主要从风险投资家的视角 ,运用市盈率模型风险企业的股权价值进行估价 ,在选取市盈率的基础上 ,采用灰色马尔可夫模型预测风险投资利润 ,计算出风险企业的股权价值并...
  • 企业估值DCF模型

    2019-03-14 20:43:33
    考量公司的未来获利、成长与风险的完整评价模型,但是 其数据估算具有高度的主观性与不确定性。 复杂的模型,可能因数据估算不易而无法采用,即使勉强进行估算,错误的数据套入完美的模型中,也无法得到正确的结果。...
  • 针对制造企业产品销售时序具有多维、小样本、非线性和多峰等特征,将混沌理论与支持矢量机(Support vector machine,SVM)参数优选方法相结合,证明了结构风险最小化原则是在概率意义下近似正确的,由此得到支持...
  • 实证研究结果表明,我们可以使用完全最小二乘支持向量机方法建立财务预测模型,区分上市公司的财务信用风险。 与传统的统计方法和神经网络方法相比,基于最小二乘支持向量机的财务预测方法是理想的上市公司财务预测...
  • 本文以中小企业板为研究对象,在探索结合投资组合理论与股票价格波动理论的基础上,对股票价格波动过程中低点、高点出现的规律进行分析,通过统计检验,建立阶段周期低点和高点回归预测模型,最后应用该模型进行股票...
  • 综合考虑其线性和非线性均有的复杂时间序列特征,提出一种基于误差修正模型(error correction model,ECM)和支持向量回归(support vector regression,SVR)的铁矿石价格混合预测模型 ECM-SVR.实证结果表明:与...
  • Coggle数据科学:2020企业非法集资风险水哥b站直播回放 文章目录一、赛题介绍1.数据简介2.数据说明3.结果提交要求4.评测标准二、数据预处理1.分别查看每个表的数据缺失情况2.数据处理2.1数据初步处理2.2主表base_...

    首先感谢DataWhale这个组织,今年上半年在学校机器学习的过程中得知有这么个开源组织,南瓜书也是他们一起编写,看过西瓜书《机器学习-周志华》的同学应该都知道吧。感谢组织内的水哥和鱼佬baseline的分享,从他们的baseline中学到了不少。Coggle数据科学:2020企业非法集资风险水哥b站直播回放



    一、赛题介绍

    赛题地址:企业非法集资风险预测

    1.数据简介

    该数据集包含约25000家企业数据,其中约15000家企业带标注数据作为训练集,剩余数据作为测试集。数据由企业基本信息、企业年报、企业纳税情况等组成,数据包括数值型、字符型、日期型等众多数据类型(已脱敏),部分字段内容在部分企业中有缺失,其中第一列id为企业唯一标识。

    2.数据说明

    该比赛一共提供了八张表,其实包含预测集。
    在这里插入图片描述
    每一个表的内容都不一样,里面所含的特征、企业数量等,都是不同的,所以如果选取特征是这个比赛一个比较关键的地方,也是帮助你上分的一个很重要的因素!

    水哥在直播的时候分享了他自己对于这些数据的处理,先对每一个表做一个思维导图,看每一个表其中都包含哪些特征,每个特征的类别,等等,这些都是方便后面做数据的预处理和特征工程!

    在比赛的初期有一位老哥在知乎分享了天的baseline,这个分数应该是[0.83]多左右,只用了第一张表base_info,这张表也是包含信息最多的,单表貌似可以上到0.84多,群内有大佬做到了。

    具体的数据说明大家可以关注水哥他们的公众号:Coggle数据科学,后台回复企业风险,即可领取本赛题baseline和水哥自制思维导图,水哥:关注走一走,baseline免费送,不收一分钱。O(∩_∩)O哈哈~

    3.结果提交要求

    参赛队伍需依据提供的数据集8,给出企业是否有非法集资风险的预测概率值,每条预测需提供 2 列,列之间采用 “,” 分隔符分割。
    请注意:请勿改变验证集列的顺序,请按照给出的文件的列顺序加入预测值。
    [id, score]
    1.企业id
    2.预测的非法集资风险概率值,取值范围 [0, 1]

    id, score
    XXXXXX,0.1246
    XXXXXX,0.8796
    

    4.评测标准

    本赛题采用分类任务的精确率 P(precision)、召回率 R(recall) 和 F1 -score三个指标作为模型性能的评判标准。
    在这里插入图片描述
    说明:在计算精确率、召回率和 F1-score时,系统会自动将提交结果中概率大于0.5的识别为1(有非法集资风险),概率小于等于0.5的识别为0(无非法集资风险)。

    二、数据预处理

    1.分别查看每个表的数据缺失情况

    这里以第一个表base_info.csv为例
    包含数据集7和8中涉及到的所有企业的基本信息,每一行代表一个企业的基本数据,每一行有33列,其中id列为企业唯一标识,列之间采用“,”分隔符分割。

    数据格式如下:
    在这里插入图片描述

    #读取数据
    base_info = pd.read_csv(PATH + 'base_info.csv')
    #输出数据shape和不重复企业id数
    print(base_info.shape, base_info['id'].nunique())
    #读取数据
    base_info.head(1)
    #查看缺失值,这里借助了missingno这个包,import missingno as msno。
    msno.bar(base_info)#查看缺失值
    

    结果图:
    在这里插入图片描述
    这个图就很明显的看出哪些数据存在缺失值,横轴是特征,纵轴的数据是非缺失值数,每个柱形的白色区域都代表缺失!

    2.数据处理

    2.1数据初步处理

    这里分别要对没一个表进行处理,首先就是需要把所有的表中缺失值验证的列给剔除,这里可以自己写一个函数filter_col_by_nan,详细见下:

    #用于剔除空值的函数
    def filter_col_by_nan(df, ratio=0.05):
        cols = []
        for col in df.columns:
            if df[col].isna().mean() >= (1-ratio):
                cols.append(col)
        return cols
    

    这里给个参数ratio用于控制缺失值比例,比如给个0.01,意思就是缺失值超过99%这个特诊就剔除,或者可以这么写:

    thr = (1 - 0.3) * data.shape[0]  # 可以根据实际情况设定不同阈值, 此处设为30%, 则非缺失值的数量大于70%
    data = data.dropna(thresh=thr, axis=1)     #若某一列数据缺失的数量超过阀值就会被删除
    print("去除掉缺失值占比大于0.3的特征之后,当前还剩%d列特征" %(data.shape[1]))
    

    其他几个表分别做了一些其他的处理,详细的大家可以看baseline。

    2.2主表base_info的处理

    一开始也说了,这个表的信息是最完整的,所以对于这个表大家可以多花点时间来做一下特征的处理。

    #orgid	机构标识 oplocdistrict	行政区划代码	  jobid	职位标识	
    base_info['district_FLAG1'] = (base_info['orgid'].fillna('').apply(lambda x: str(x)[:6]) == \
        base_info['oplocdistrict'].fillna('').apply(lambda x: str(x)[:6])).astype(int)
    base_info['district_FLAG2'] = (base_info['orgid'].fillna('').apply(lambda x: str(x)[:6]) == \
        base_info['jobid'].fillna('').apply(lambda x: str(x)[:6])).astype(int)
    base_info['district_FLAG3'] = (base_info['oplocdistrict'].fillna('').apply(lambda x: str(x)[:6]) == \
        base_info['jobid'].fillna('').apply(lambda x: str(x)[:6])).astype(int)
    
    #parnum	合伙人数	exenum	执行人数  empnum	从业人数
    base_info['person_SUM'] = base_info[['empnum', 'parnum', 'exenum']].sum(1)
    base_info['person_NULL_SUM'] = base_info[['empnum', 'parnum', 'exenum']].isnull().astype(int).sum(1)
    
    #regcap	注册资本(金) congro	投资总额
    # base_info['regcap_DIVDE_empnum'] = base_info['regcap'] / base_info['empnum']
    # base_info['regcap_DIVDE_exenum'] = base_info['regcap'] / base_info['exenum']
    
    # base_info['reccap_DIVDE_empnum'] = base_info['reccap'] / base_info['empnum']
    # base_info['regcap_DIVDE_exenum'] = base_info['regcap'] / base_info['exenum']
    
    #base_info['congro_DIVDE_empnum'] = base_info['congro'] / base_info['empnum']
    #base_info['regcap_DIVDE_exenum'] = base_info['regcap'] / base_info['exenum']
    
    base_info['opfrom'] = pd.to_datetime(base_info['opfrom'])#opfrom	经营期限起	
    base_info['opto'] = pd.to_datetime(base_info['opto'])#opto	经营期限止
    base_info['opfrom_TONOW'] = (datetime.now() - base_info['opfrom']).dt.days
    base_info['opfrom_TIME'] = (base_info['opto'] - base_info['opfrom']).dt.days
    
    #opscope	经营范围	
    base_info['opscope_COUNT'] = base_info['opscope'].apply(lambda x: len(x.replace("\t", ",").replace("\n", ",").split('、')))
    
    #对类别特征做处理
    cat_col = ['oplocdistrict', 'industryphy', 'industryco', 'enttype',
               'enttypeitem', 'enttypeminu', 'enttypegb',
              'dom', 'oploc', 'opform','townsign']
    #如果类别特征出现的次数小于10转为-1
    for col in cat_col:
        base_info[col + '_COUNT'] = base_info[col].map(base_info[col].value_counts())
        col_idx = base_info[col].value_counts()
        for idx in col_idx[col_idx < 10].index:
            base_info[col] = base_info[col].replace(idx, -1)        
    
    # base_info['opscope'] = base_info['opscope'].apply(lambda x: x.replace("\t", " ").replace("\n", " ").replace(",", " "))
    # clf_tfidf = TfidfVectorizer(max_features=200)
    # tfidf=clf_tfidf.fit_transform(base_info['opscope'])
    # tfidf = pd.DataFrame(tfidf.toarray())
    # tfidf.columns = ['opscope_' + str(x) for x in range(200)]
    # base_info = pd.concat([base_info, tfidf], axis=1)
    
    base_info = base_info.drop(['opfrom', 'opto'], axis=1)#删除时间
    
    for col in ['industryphy', 'dom', 'opform', 'oploc']:
        base_info[col] = pd.factorize(base_info[col])[0]
    

    我自己在代码里把这些字段的含义都加上了,也便于自己理解这些含义,从而做一些处理,大家同样可以把这些含义加上。

    其中一些注释掉的信息,水哥说大家可以自行尝试一下,有的可能会上分,有的可能会掉分,说实话这个比较确实有点玄学上分的过程。

    三、模型训练与预测

    这里水哥采用给的是单模的lightbgm,效果还不错,群里也有其他小伙伴尝试了Catboost,貌似效果不太好,大家可以多尝试尝试,结果融合看看怎么样。

    这里将模型循环执行了20次,每次都是5折的交叉验证。

    1.五折交叉验证

    def eval_score(y_test,y_pre):
        _,_,f_class,_=precision_recall_fscore_support(y_true=y_test,y_pred=y_pre,labels=[0,1],average=None)
        fper_class={'合法':f_class[0],'违法':f_class[1],'f1':f1_score(y_test,y_pre)}
        return fper_class
    
    
    def k_fold_serachParmaters(model,train_val_data,train_val_kind, test_kind):
        mean_f1=0
        mean_f1Train=0
        n_splits=5
        
        cat_features = ['oplocdistrict', 'industryphy', 'industryco', 'enttype',
               'enttypeitem', 'enttypeminu', 'enttypegb',
              'dom', 'oploc', 'opform']
        
        sk = StratifiedKFold(n_splits=n_splits, shuffle=True, random_state=2021)
        pred_Test = np.zeros(len(test_kind))
        for train, test in sk.split(train_val_data, train_val_kind):
            x_train = train_val_data.iloc[train]
            y_train = train_val_kind.iloc[train]
            x_test = train_val_data.iloc[test]
            y_test = train_val_kind.iloc[test]
    
            model.fit(x_train, y_train, 
                      eval_set=[(x_test, y_test)], 
                      categorical_feature = cat_features,
                     early_stopping_rounds=100,
                     verbose=False)
            
            pred = model.predict(x_test)
            fper_class = eval_score(y_test,pred)#验证集的准确率
            
            pred_Train = model.predict(x_train)
            pred_Test += model.predict_proba(test_kind)[:, 1]/n_splits
            fper_class_train = eval_score(y_train,pred_Train)
    
            mean_f1 += fper_class['f1']/n_splits
            mean_f1Train+=fper_class_train['f1']/n_splits
            # print(mean_f1, mean_f1Train)
            
            
        return mean_f1, pred_Test
    

    2.循环执行代码

    将模型的一些参数加入随机性,然后训练20次,然后得到最终的结果。说实话这里的操作有点秀,学到了。

    score_tta = None
    score_list = []
    
    tta_fold = 20
    for _ in range(tta_fold):
        clf = lgb.LGBMClassifier(
            num_leaves=np.random.randint(6, 10), min_child_samples= np.random.randint(2,5),
            max_depth=5,learning_rate=0.03,
            n_estimators=150,n_jobs=-1,silent=False)
    
        score, test_pred = k_fold_serachParmaters(clf,
                               train_data.drop(['id', 'opscope','label'], axis=1),
                               train_data['label'],
                               test_data.drop(['id', 'opscope'], axis=1),
                              )
    
        if score_tta is None:
            score_tta = test_pred/tta_fold
        else:
            score_tta += test_pred/tta_fold
        # print(score)
        score_list.append(score)
        
    print(np.array(score_list).mean(), np.array(score_list).std())
    

    3.自动寻最优参数

    手动的调参可能也能提升,这里使用过的是自动寻找参数,然后将最优的参数反代回上面的模型中。

    lg = lgb.LGBMClassifier(silent=False)
    param_dist = {"max_depth": [4,5,6,7,8],
                  "learning_rate" : [0.01,0.03,0.05,0.07,0.09],
                  "num_leaves": [4, 5, 6, 7, 8],
                  "n_estimators": [50, 100, 150,200]
                 }
    
    cat_features = ['oplocdistrict', 'industryphy', 'industryco', 'enttype',
               'enttypeitem', 'enttypeminu', 'enttypegb',
              'dom', 'oploc', 'opform']
    
    
    grid_search = GridSearchCV(lg, n_jobs=-1, param_grid=param_dist, cv = 5, scoring='f1', verbose=5)
    grid_search.fit(train_data.drop(['id', 'opscope','label'], axis=1),
                               train_data['label'], categorical_feature = cat_features,)
    grid_search.best_estimator_, grid_search.best_score_
    

    在这里插入图片描述

    四、总结

    这个比赛也是自己第一次参加这种结构化的比赛,也是第一次将之前学的一些机器学习和数据预处理的内容用到比赛中,一开始看到比赛虽然知道是个分类问题,但是拿到数据确实不知道如何下手,在此再次感谢水哥和群里的大佬分享的baseline,对算法比赛也有一点感觉了。再接再厉吧!!!

    记录时间:2020年11月27日

    展开全文
  • 国内对Logit模型在信用风险评估应用方面已有不少实证研究,这些研究从总体预测准确率较高角度认为,该模型基本可以借鉴使用,但大多研究没有进一步区分模型误判的第一类错误与第二类错误。本文结合Logit模型的原理、优...
  • 营销作为一个学术领域和企业实践,从这个数据丰富的时代中受益匪浅,但同时也增加了相关危害的风险。 在本文中,我们讨论了这个数据收集时代带来的巨大优势和潜在危害,以及在保持收益的同时减轻危害的方法。 具体...
  • 为了制定满足风险要求的这一策略,从发电企业的角度出发,通过分析历史预测出清价的误差,统计其概率分布,最后得到误差在不同置信度下的VaR值,并且通过VaR值来指导发电企业进行段电量和段电价的申报。计算实例表明...
  • 本文的目的是了解哪些因素会影响意大利年轻,高科技,创新型公司的财务结构,并试图制定一种预测模型,以确定给定创业项目的理想财务策略。 风险资本是美国高科技初创企业最相关的融资形式,经常被认为对美国经济的...
  • 选取适当算法模型 查看数据 先查看基本的行列数目 然后查看年报信息中违法和不违法的比例 填补缺失值 查看缺失值后发现很多表的数据都有较多缺失,而且不好填补,所以对于缺失比例大于0.5的列直接删除。 ...
  • 预测分析

    2018-08-31 15:26:13
    企业中,预测模型开发模式的历史交易数据发现,识别风险和机遇。模型捕捉许多因素之间的关系,以允许评估与特定条件相关的风险或潜力,指导候选交易的决策。 这些技术方法的定义功能效果是预测分析为每个人(客户...
  • 本研究探讨了在雅典证券交易所上市的公司的破产预测模型的预测能力。 这些模型已经过测试,它们是否能够预测破产前一年,两年和三年的破产情况。... 因此,希腊破产预测模型将帮助公司最大程度地降低风险
  • 市场预测企业进行各种决策的基础,通过市场预测,企业可以避开市场风险,了解市场需求,有利于提高企业经营效益。文章主要介绍了预测的有关内容、作用、步骤及预测的基本方法,并对非直线趋势预测法作了详细研究,阐述了...
  • 生存分析之Cox模型简述与参数求解

    千次阅读 2020-11-06 16:43:09
    最近布置的任务里需要用到Cox模型去评估企业风险趋势预测并建模,讨论Cox模型企业风险量化建模过程中有实际的意义;从知网关键词检索结果可以看出Cox模型主要集中使用在医学信息工程、金融统计学领域,比如:研究...
  • 大数据风控模型

    2017-01-22 21:53:00
    基本流程: 数据收集、数据建模、构建数据画像、风险定价。 数据收集:网络行为数据、企业服务范围内行为数据、用户内容偏好数据、用户交易数据、授权数据...风险定价:申请模型、行为监控模型、违约模型、催收策...
  • 从煤炭供需、企业盈利、市场研判和市场风险角度对调节存货进行客观阐述,对我国煤炭价格的研究进行了分析,在此基础上以供给侧结构性改革为前提,运用指数平滑法构建煤炭价格模型,从而求得煤炭前一年度月份价格平滑值,...
  • 信用风险计量体系包括主体评级模型和债项评级两部分。主体评级和债项评级均有一系列评级模型组成,其中主体评级模型可用“四张卡”来表示,分别是A卡、B卡、C卡和F卡;债项评级模型通常按照主体的融资用途,分为企业...

空空如也

空空如也

1 2 3 4 5 6
收藏数 113
精华内容 45
关键字:

企业风险预测模型