精华内容
下载资源
问答
  • 针对Web用户信息的安全问题,结合机器学习的方法,对用户行为进行分析和认证。首先通过主成分分析法对原始数据集做降维处理,然后利用 SVM 算法,让计算机对历史用户行为证据进行学习,得到一个判别用户身份的模型。...
  • 机器学习用户行为分析的实践与实际运用。通过机器学习算法建立行为基线
  • 基于机器学习用户行为可预测性研究,徐帅,崔鸿雁,针对人类行为的可预测性问题,基于分布式爬虫抓取的二十万Github网站用户贡献行为轨迹数据,在利用XGBoost和随机森林两个机器学习方��
  • 深入浅出Spark机器学习实战(用户行为分析) 课程观看地址:http://www.xuetuwuyou.com/course/144 课程出自学途无忧网:http://www.xuetuwuyou.com 一、课程目标 熟练掌握SparkSQL的各种操作,深入了解Spark内部...

    深入浅出Spark机器学习实战(用户行为分析)
    课程观看地址:http://www.xuetuwuyou.com/course/144
    课程出自学途无忧网:http://www.xuetuwuyou.com


    一、课程目标
     熟练掌握SparkSQL的各种操作,深入了解Spark内部实现原理
     深入了解SparkML机器学习各种算法模型的构建和运行
     熟练Spark的API并能灵活运用
     能掌握Spark在工作当中的运用

    二、适合人群
     适合给,有java,scala基础,想往大数据spark机器学习这块发展
     适合给想学习spark,往数据仓库,大数据挖掘机器学习,方向发展的学员

    三、课程用到的软件及版本:
    Spark2.0,Spark1.6.2,STS,maven,Linux Centos6.5,mysql,mongodb3.2


    四、课程目录:

    课时1:Spark介绍 
    课时2:Spark2集群安装 
    课时3:Spark RDD操作 
    课时4:SparkRDD原理剖析 
    课时5:Spark2sql从mysql中导入 
    课时6:Spark1.6.2sql与mysql数据交互 
    课时7:SparkSQL java操作mysql数据 
    课时8:Spark统计用户的收藏转换率 
    课时9:Spark梳理用户的收藏以及订单转换率 
    课时10:最终获取用户的收藏以及订单转换率 
    课时11:Spark Pipeline构建随机森林回归预测模型 
    课时12:Spark 随机森林回归预测结果并存储进mysql
    课时13:Spark的决策树算法实现收藏转换率预测
    课时14:Spark机器学习各种分类算法介绍
    课时15:Spark机器学习协同过滤算法,构建用户与产品模型
    课时16:Spark协同算法完成给用户推荐产品。
    课时17:Spark与mongodb整合
    课时18:Spark的随机森林算法预测产品收藏购买结果存储进mongodb
    课时19:Spark操作RDD需要注意点,以及Spark资源参数调优
    课时20:Spark整个学习过程及其总结

    转载于:https://my.oschina.net/u/1458545/blog/740504

    展开全文
  • 型智能电表普及后,为了准确检测出电网中的窃电用户,可以结合机器学习的方法.为此,选择了支 持向量机、随机森林和迭代决策树3种机器学习中较常用的大数据算法进行分析,通过不断调整试验数据集 的大小,对3种算法...
  • 基于机器学习的智能终端用户行为分析研究,周勇帆,唐碧华,移动智能终端的网络数据流量特性在某种程度上可以反映用户的网络访问行为,进而能够体现用户自身的特征。在研究传统网络流量分类
  • 所提方案为运营商提供了一种机器学习模型,检测用户的携转倾向,并给予差异化待遇。实验结果证明,所提方案能够指引运营商制定有针对性的携号转网策略,准确识别出有携入或者携出倾向的“异常”用户。此外,所提方案...
  • 1.在机器学习范式中构建产品目标 2.评估机器学习的可行性 二.行为准则详情 1.在机器学习范式中构建产品目标 a.搞清楚产品为用户提供什么服务(或者说可以给用户带去什么价值) b.机器学习可以使用不同的范式,最...

    一.行为准则概要

    1.在机器学习范式中构建产品目标

    2.评估机器学习的可行性

    二.行为准则详情

    1.在机器学习范式中构建产品目标

    a.搞清楚产品为用户提供什么服务(或者说可以给用户带去什么价值)

    b.机器学习可以使用不同的范式,最要紧的是从数据中挖掘中函数.

    2.评估机器学习的可行性

    a.不是所有的机器学习问题都是平等的.

    b.评估机器学习难度的最佳方式是看已有的数据,及已有的模型在这些数据的效果.

     

    展开全文
  • Spark2.0集群安装 课时3:Spark RDD操作 课时4:SparkRDD原理剖析课时5:Spark2.0sql从mysql中导入 课时6:Spark1.6.2sql与mysql数据交互课时7:SparkSQL java操作mysql数据课时8:Spark统计用户的收藏转换率 ...
    课程目录:
    课时1:Spark介绍
    课时2:Spark2.0集群安装 
    课时3:Spark RDD操作 
    课时4:SparkRDD原理剖析
    课时5:Spark2.0sql从mysql中导入 
    课时6:Spark1.6.2sql与mysql数据交互
    课时7:SparkSQL java操作mysql数据
    课时8:Spark统计用户的收藏转换率 
    课时9:Spark梳理用户的收藏以及订单转换率
    课时10:最终获取用户的收藏以及订单转换率 
    课时11:Spark Pipeline构建随机森林回归预测模型 
    课时12:Spark 随机森林回归预测结果并存储进mysql 
    课时13:Spark对收藏转预测换率与真正的转换率对比,以及决策树模型构建
    课时14:Spark机器学习对各种监督与非监督分类学习详细介绍 
    课时15:Spark协同过滤算法,构建用户与产品模型 
    课时16:Spark协同算法完成给用户推荐产品
    课时17:mongodb的安装以及其基本操作 
    课时18:Spark与mongodb整合 
    课时19:Spark预测收藏以及给用户推荐的产品存储进mongodb 
    课时20:操作RDD需要注意点,以及Spark内存分配资源调优
    课时21:Spark整个学习过程及其总结


    下载地址:点击下载
    展开全文
  • 本项目案例根据某法律咨询服务网站的用户浏览记录,把用户划分为训练集的用户和测试集的用户,再根据找出相应用户的浏览记录划分为训练集数据和测试集数据。训练集用于后续构建用户物品矩阵,再根据用户物品矩阵构建...

    项目概述

    本项目案例根据某法律咨询服务网站的用户浏览记录,把用户划分为训练集的用户和测试集的用户,再根据找出相应用户的浏览记录划分为训练集数据和测试集数据。训练集用于后续构建用户物品矩阵,再根据用户物品矩阵构建物品相似度矩阵(根据杰卡德相似系数公式计算物品相似度);测试集用于根据用户浏览记录给用户推荐用户可能感兴趣的网页,在计算推荐结果准确度的时候需要根据测试集构建用户浏览字典(键:ip,值:url(列表))

    案例的代码已经托管到码云仓库,可自行进行下载:https://gitee.com/atuo-200/recommend_code

    案例用的的数据文件已经上传至百度云(单个文件超过100m push不上码云):
    数据在:https://pan.baidu.com/s/1m8kfgOZSZNftye_hDjxmSA
    提取码:g9t7

    案例用到的数据文件中的字段含义如下:
    在这里插入图片描述

    案例代码

    案例代码如下,代码上已经附上相应的注释

    data_explore.py(用于数据探索,独立的一个模块)

    import pandas as pd
    import re
    
    """数据探索模块"""
    
    data = pd.read_csv("data/all_gzdata.csv",encoding="gb18030")
    #查看前5条数据
    print(data.head())
    #查看数据有哪些列
    print(data.columns)
    #查看有多少条数据
    print(data.shape)
    #查看网址类型
    print(data["fullURLId"])
    #网址类型统计:统计每种网址类型的数量
    print("-----------------------")
    urlId=['101','199','107','301','102','106','103']
    count=[]
    for pattern in urlId:
          index=[sum(re.search(pattern,i)!=None for i in data.loc[:,'fullURLId'].apply(str))][0]
          count.append(index)
    urlId_count={'urlId':urlId,'count':count}
    urlId_count=pd.DataFrame(urlId_count)
    
    print(urlId_count)
    print("-----------------------")
    # 用户点击次数统计
    # pd.value_counts()  属于高级方法,返回一个 Series ,其索引值为唯一值,其值为频率,按其计数的降序排列
    res = data.loc[:, 'realIP'].value_counts()  # 对 IP 进行统计:每个 IP 点击了多少次
    res1 = res.value_counts()  # 对点击次数的 IP 统计:例如点击了 2 次的 ip 有多少个
    IP_count = pd.DataFrame({'a_IP': list(res1.index), 'count': list(res1)})
    IP_total = sum(IP_count.iloc[:, 1])
    
    #IP_count.ix[:, 'pers'] = [index / IP_total for index in IP_count.ix[:, 1]]
    IP_count['pers'] = IP_count.iloc[:, 1] / sum(IP_count.iloc[:, 1])
    print(IP_count.head())
    
    print("-----------------------")
    #统计网页点击率的排名情况
    res2=data.loc[:,'fullURL'].value_counts()
    URL_Frame=pd.DataFrame({'a_URL':list(res2.index),'count':list(res2)})
    print(URL_Frame.head())
    
    print("-----------------------")
    #对网页的点击次数进行统计
    res3=data.loc[:,'fullURL'].value_counts()
    res4=res3.value_counts()
    URL_count=pd.DataFrame({'a_URL':list(res4.index),'count':list(res4)})
    URL_total=sum(URL_count.iloc[:,1])
    URL_count.loc[:,'pers']=[index/URL_total for index in URL_count.iloc[:,1]]
    print(URL_count.head())
    

    data_process.py(用于数据预处理,对数据进行相应的抽取、删减、转换,构建用户物品列表)

    import pandas as pd
    
    def data_process(file='data/all_gzdata.csv', encoding='GB18030'):
        data = pd.read_csv(file, encoding=encoding)
    
        # 去除非html网址;
        data = data.loc[data['fullURL'].str.contains('\.html'), :]
    
        # 去除咨询发布成功页面
        data = data[data['pageTitle'].str.contains('咨询发布成功')==False]
    
        # 去除中间类型网页(带有midques_关键字);
        data[~data['fullURL'].str.contains('midques_')]
    
        # 对带?的网址进行截取还原
        index1 = data['fullURL'].str.contains('\?')
        data.loc[index1, 'fullURL'] = data.loc[index1, 'fullURL'].str.replace('\?.*', '')
    
        # 去除律师的行为记录(通过法律快车-律师助手判断);
        data = data[data['pageTitle'].str.contains('法律快车-律师助手')==False]
    
        # 去除不是本网址的数据(网址不包含lawtime关键字)
        data = data[data['fullURL'].str.contains('lawtime')]
    
        # 去除重复数据(同一时间同一用户,访问相同网页)。
        data.drop_duplicates(inplace=True)
    
        # 对翻页网址进行还原
        index2 = data['fullURL'].str.contains('\d_\d+\.html')
        data.loc[index2, 'fullURL'] = data.loc[index2, 'fullURL'].str.replace('_\d+\.html', '.html')
    
        # 取出婚姻类型数据,取其中的ip和url字段
        index3 = data['fullURL'].str.contains('hunyin')
        data_hunyin = data.loc[index3, ['realIP', 'fullURL']]
        #再去重,有必要(翻页网址还原后又出现了重复数据)
        data_hunyin.drop_duplicates(inplace=True)
    
        #类型转换
        data_hunyin.loc[:, "realIP"] = data_hunyin.loc[:,"realIP"].apply(str)
        return data_hunyin
    

    data_split.py(导入数据预处理后的数据(用户物品列表),用于数据集的划分)

    from data_process import data_process
    from random import sample
    data = data_process()   # 导入经过清洗后的婚姻数据集
    
    
    def trainTestSplit(data=data, n=2):
        ipCount = data['realIP'].value_counts()      # 统计每个用户的网页浏览数
    
        # 找出浏览网页数在2次以上的用户IP
        # 为什么要删除只有一次浏览记录的用户记录?因为该用户如果用于测试集不能验证推荐准确度,用于训练集无意义,这是增大计算成本
        reaIP = ipCount[ipCount > n].index
        ipTrain = sample(list(reaIP), int(len(reaIP)*0.8))       # 训练集用户(80%的ip用作训练训练集)
        ipTest = [i for i in list(reaIP) if i not in ipTrain]    # 测试集用户(20%的ip用作训练训练集)
    
        index_tr = [i in ipTrain for i in data['realIP']]   # 训练用户浏览记录索引,返回True或False
        index_te = [i in ipTest for i in data['realIP']]    # 测试用户浏览记录索引,返回True或False
        print(index_tr)
    
    
        dataTrain = data[index_tr]     # 训练集数据(后续用于构建用户物品矩阵)
        dataTest = data[index_te]      # 测试集数据(后续用于推荐)
        return dataTrain, dataTest
    

    jaccard.py(计算杰卡德相似系数的公式封装)

    import numpy as np
    
    def jaccard_func(data=None):
    
        te = -(data-1)              # 将用户物品矩阵的值反转
        dot1 = np.dot(data.T, data)  # 任意两网址同时被浏览次数(交集)
        dot2 = np.dot(te.T, data)    # 任意两个网址中只有一个被浏览的次数
        dot3 = dot2.T+dot2          # 任意两个网址中至少一个被浏览的次数(并集)
        cor = dot1/(dot1+dot3)      # 根据杰卡德相似系数公式,计算杰卡德相似系数
        for i in range(len(cor)):   # 将对角线值处理为零
            cor[i, i] = 0
        return cor
    

    main.py(程序的主入口)

    from data_split import trainTestSplit
    import pandas as pd
    from jaccard import jaccard_func
    
    data_tr, data_te = trainTestSplit()
    def main():
        # 取出训练集用户的IP与浏览网址
        ipTrain = list(set(data_tr['realIP']))
        urlTrain = list(set(data_tr['fullURL']))
    
        #构建用户物品矩阵构建
        te = pd.DataFrame(0, index=ipTrain, columns=urlTrain)
        for i in data_tr.index:
            te.loc[data_tr.loc[i, 'realIP'], data_tr.loc[i, 'fullURL']] = 1
        #构建物品相似度矩阵
        cor = jaccard_func(te)
        cor = pd.DataFrame(cor, index=urlTrain, columns=urlTrain)
    
        #构建测试集用户网址浏览字典
        ipTest = list(set(data_te['realIP']))
        print(len(ipTest))
        dic_te = {ip: list(data_te.loc[data_te['realIP'] == ip, 'fullURL']) for ip in ipTest}
        print(len(dic_te))
    
        #构建推荐矩阵
        #开始推荐,rem第一列为测试集用户IP,第二列为已浏览过网址,第三列为相应推荐网址,第四列为推荐是否有效
        rem = pd.DataFrame(index=range(len(data_te)), columns=['IP', 'url', 'rec', 'T/F'])
        rem['IP'] = list(data_te['realIP'])
        rem['url'] = list(data_te['fullURL'])
    
        for i in rem.index:
            if rem.loc[i, 'url'] in urlTrain:
                rem.loc[i, 'rec'] = urlTrain[cor.loc[rem.loc[i, 'url'], :].argmax()]         # 推荐的网址
                rem.loc[i, 'T/F'] = rem.loc[i, 'rec'] in dic_te[rem.loc[i, 'IP']]   # 判定推荐是否准确
    
        #计算推荐准确度,根据测试集用户网址浏览字典
        p_rec = sum(rem['T/F'] == True)/(len(rem) - sum(rem['T/F'] == 'NAN'))
        return p_rec
    
    p_rec = main()
    print(p_rec)
    

    运行结果如下
    在这里插入图片描述

    展开全文
  • 在参考业界的同时,我们也在UBA的核心算法上做了一番研究,要知道UBA之所以号称下一代SIEM,其核心就是将机器学习引入行为数据检测,本文简要总结一下近期研究的适用于UBA的机器学习算法和效果。 UBA产品并不依赖...
  • 内部威胁检测主要是基于用户的网络、文件、设备、邮件等审计日志构建正常用户行为模型,之后使用包括图、机器学习、集成学习等方法对当前行为进行异常检测。 •基于机器学习的异常检测方法 使用包括SVM、朴素...
  • 红酒品鉴和用户消费行为分析是我学习Python数据分析入门的两个案例,记录一下。 网络上关于这两个案例的介绍非常多,但是我在学习过程中,发现有很多文章的逻辑不是很清晰,代码也调试不同。 所以,还是想把自己的...
  • 基于协同过滤的推荐系统基于协同过滤的推荐系统用户行为数据简介用户行为分析基于物品的协同过滤算法思考 6.2. 基于协同过滤的推荐系统 基于协同过滤的推荐系统 为了让推荐结果符合用户口味,我们需要深入了解用户...
  • 本文使用三种已有的机器学习算法,针对可穿戴传感器采集用户日常行为数据,进行训练和测试等,涉及支持向量机、神经网络和隐藏马尔可夫模型等的研究
  • 帮川普赢得大选通过机器学习模型,预测用户的信息 机器学习基本概念 监督学习 VS 无监督学习 分类方法:结果是类别值,如情感的正负 回归方法:预测的标签是连续值,不是类别值,如年龄 聚类方法:… ——————...
  • 主要研究了在实时海量的物联网终端数据中,如何运用机器学习模型高效地识别疑似虚假用户。具体来看,通过研究相关数据的特征,采用基于正样本和未标记样本的半监督式学习模型建立实时监控异常行为的模型,达到识别...
  • 机器学习introduce

    2014-09-07 20:09:57
    机器学习(Machine Learning, ML) 专门研究计算机怎样模拟或实现人类的学习行为,以获取新...推荐系统学习用户行为然后预测用户可能会对某个产品感兴趣。Netflix和其他很多在线零售商一样也用推荐系统来推荐视频租聘。
  • 机器学习概述

    2021-03-15 21:11:11
    一、机器学习的概述 机器学习是入门人工智能必修的一科,说实话来说也就是我们的算法。这机器学习中我们一般分为两类: 监督学习: 给定某些特征去估计因变量,即因变量存在的时候,我们称这个机器学习任务为有...
  • 2019年8月23日,人类行为模式与机器学习专家Enrique Santos正式加入Gaimin团队。他有丰富的外汇和股指期货交易经验,对人类大众心理学和可预测的行为模式的理解也极其深刻。他的到来将帮助Gaimin预测虚 拟 货 币 ...
  • 什么是机器学习

    2019-09-09 00:34:23
    淘宝通过用户的浏览记录和购买记录,对用户行为进行预测,进行产品推荐 2、社交网络中的效果广告 如果用户经常点赞或者转发某类型的微博或视频,系统就会将该类型的广告展示给用户 3、互联网金融中的风控系统 银行等...
  • 机器学习2

    2016-10-12 07:50:46
    一、数据分析VS机器学习  数据分析也是从大量历史数据中分析得到一定规律,不同的是,数据分析的执行者是人,也就是主要依靠人、数据分析师来进行数据分析工作,... 机器学习处理的事用户行为数据,如搜索历史
  • MorphL Community Edition使用大数据和机器学习来预测数字产品和服务中的用户行为,其目标是通过个性化来提高KPI(点击率,转换率等)。 MorphL AI由和资助。 构建成功的数据驱动产品的过程经历了许多迭代。 数据...
  • 机器学习主要分类

    2021-02-08 23:24:01
    机器学习主要分类 有监督学习:提供数据并提供数据对应结果的机器学习过程。 无监督学习:提供数据并且不提供数据对应结果的机器学习过程。 强化学习:通过与环境交互并获取延迟返回进而改进行为的学习过程。 1....
  • 机器学习资料

    2020-08-18 07:47:34
    通过用户在主机上的操作行为用户身份画像,用户的键盘敲击行为用户的鼠标输入行为用户的网页浏览行为用户的软件使用情况,邮件使用情况等。

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 919
精华内容 367
关键字:

机器学习用户行为