精华内容
下载资源
问答
  • 数据挖掘项目

    2013-05-23 17:30:51
    数据挖掘项目,不包含数据库。基于超市销售的数据库挖掘,使用SQL2005做成。
  • 数据挖掘项目源码

    2016-10-19 14:47:38
    数据挖掘项目源码
  • 数据挖掘项目:Python
  • SPSS Modeler数据挖掘项目实战视频课程 数据挖掘项目管理基础与思想 感性认识SPSS Modeler
  • 数据挖掘项目I’ve always said that Unity as a product is made up of 60% community, 20% grand ideas and concepts, 15% groovy tech and 15%wicked developers (yes I am aware that this amounts to 110% – ...

    数据挖掘项目

    I’ve always said that Unity as a product is made up of 60% community, 20% grand ideas and concepts, 15% groovy tech and 15% wicked developers (yes I am aware that this amounts to 110% – would you have expected anything less?).

    我一直说,Unity作为一种产品,由60%的社区,20%的宏大构想和概念,15%的时髦技术和15%的邪恶开发人员组成(是的,我知道这相当于110%–您会期望吗?还有什么?)。

    Since my first day at Unity Tech, I’ve wanted to do this post, but quite simply I’ve been way too busy on this end. I still am, but I’m taking some time off to do this anyway, ha!

    从我在Unity Tech的第一天起,我一直想写这篇文章,但是很简单,我为此一直太忙了。 我仍然在,但是我还是要抽些时间做这个,哈!

    I’ve surfed most corners of the community for a while now (shout-out to #unity3d on irc.freenode.net! You should stop by and check it out!) and being part of this is really, really (really) grand. In my first blog post from UT, I’d like to mention a few of the groovy community projects I’ve stumbled on and could remember at the time of writing (I’ll try remembering/researching some more projects later). So without further ado, I present *drumroll* amazing community projects!:

    我现在已经在社区的大多数角落冲浪了一段时间( 在irc.freenode.net上#unity3d大喊大叫 !您应该停下来并检查一下!),参与其中确实是(真的)非常盛大。 在我来自UT的第一篇博客文章中,我想提到我偶然发现的一些时髦的社区项目,这些项目在撰写本文时可能还记得(稍后我将尝试记住/研究更多项目)。 因此,事不宜迟,我介绍了* drumroll *令人惊叹的社区项目!:

    Atmospheric environment wizard

    大气环境向导

    So you’ve finally set up a lovely terrain in your outdoors unity project, but something is missing. Why is it always dry and sunny? No-one ever solved grand inter-stellar corporation conspiracies under blue skies and white clouds, right? If this sounds familiar, perhaps you should give this project a look.

    因此,您终于在户外统一项目中设置了一个漂亮的地形,但是缺少了一些东西。 为什么总是干燥而阳光明媚? 在蓝天白云下,没有人解决过星际大公司的阴谋,对吗? 如果听起来很熟悉,也许您应该看看这个项目。

    Oh yes, please!

    哦,是的,请!

    Collision ignore manager

    碰撞忽略管理器

    All players except robots should be blocked by the bio force fields. Makes sense and doesn’t sound too hard to implement, right? Unfortunately the current PhysX implementation in Unity does not support setting up groups to ignore the colliders of one-another.

    除机器人外,所有玩家都应受到生物力场的阻挡。 有道理,听起来并不难实施,对吧? 不幸的是,Unity中当前的PhysX实现不支持设置组以忽略彼此的碰撞。

    Until all the roadblocks currently keeping us from addressing this are out of the way, the CollisionIgnoreManager project is an excellent solution for managing such groups. I know a lot of people, myself included, have been pulling around similar systems for their own projects, but I really like the simplicity and cleanliness of this one.

    直到当前阻止我们解决所有障碍的所有障碍之前,CollisionIgnoreManager项目都是管理此类组的绝佳解决方案。 我知道很多人,包括我自己在内,一直在为自己的项目使用类似的系统,但是我真的很喜欢这个系统的简单性和简洁性。

    You should check it out

    你应该检查一下

    Light-mapper and screen space ambient occlusion

    光线映射器和屏幕空间的环境光遮挡

    So from our quick dive into a more tech-y project, lets quickly return to some visuals. Your game is freggin awesome, you’ve been seeding some test builds to friends and family and you’re more or less ready to blow this bomb. But something is missing…

    因此,从我们的快速入门进入更具技术性的项目,让我们快速返回一些视觉效果。 您的游戏很棒,您已经给朋友和家人播下了一些测试版本,您或多或少准备炸弹。 但是缺少了一些东西……

    To give your project that extra visual edge, you should really check out these two projects. While work in progress, they could still be used to up the wickednessness of your product.

    为了使您的项目更具视觉优势,您应该真正检查这两个项目。 在进行工作时,它们仍然可以用来提高产品的邪恶性。

    Build light-maps directly inside unity:

    直接在unity内部构建光照贴图:

    Don’t mind if I do

    不管我是否

    Run screen space ambient occlusion like we’re all Crytek mages:

    运行屏幕空间环境光遮挡,就像我们都是Crytek法师一样:

    GPU power! Yea baby!

    GPU的力量! 是的,宝贝!

    Ocean shader

    海洋着色器

    You have just spiced up your game with the atmospheric environment wizard project and it looks good. But then you reach the shoreline and it just doesn’t really do it much justice. Plus when you’re jumping into the speeding powerboat from your crashing combat helicopter later on, you’ll need at least 2 metres tall waves to add some kind of challenge to it.

    您刚刚通过大气环境向导项目增添了游戏趣味性,它看起来不错 。 但是,当您到达海岸线时,它并没有真正做到很多正义。 另外,当您稍后从坠毁的战斗直升机跳入飞速的摩托艇时,您将需要至少2米高的海浪,以对其施加某种挑战。

    Water and foam and waves, oh my!

    水,泡沫和海浪,我的天哪!

    Unity/Flash integration system

    Unity / Flash集成系统

    Now, in order to sell as many coffee mugs, t-shirts and pencil sharpeners with our Interstellar Laser Powerboat Helicopter Hero 2000x game as possible, we’ll need to have the game live in the browser for a completely immersive experience. Now I don’t know how many pencil sharpeners they sell, but at Aquiris they definitely managed to pull off the immersive part. And not only that – they decided to toss their solution right back at the community – free to use.

    现在,为了尽可能多地使用我们的星际激光摩托艇Helicopter Hero 2000x游戏销售咖啡杯,T恤和卷笔刀,我们需要在浏览器中直播该游戏,以提供完全身临其境的体验。 现在我不知道他们卖出了多少卷笔刀,但是在Aquiris,他们肯定设法完成了沉浸式部分。 不仅如此-他们决定将解决方案直接回社区-免费使用。

    Their u3dobject solution is an integration layer between Unity and Flash, via Unity’s website integration feature, in order to run Unity webplayers from within flash content.

    他们的u3dobject解决方案通过Unity的网站集成功能,是Unity和Flash之间的集成层,以便从Flash内容中运行Unity Webplayer。

    Neat, huh?

    整洁吧?

    翻译自: https://blogs.unity3d.com/2009/07/08/digging-into-the-community-projects/

    数据挖掘项目

    展开全文
  • 数据挖掘项目-源码

    2021-02-16 03:46:55
    数据挖掘项目 推文聚类 目标: 主Twitter API用于提取推文 掌握自然语言处理 数据清理 推文分类 要求: Twitter开发人员帐户 Twitter API 1-数据提取: 导入库(tweepy +熊猫+ numpy) 连接到Twitter API 将...
  • 数据挖掘项目 我在复旦大学数据挖掘过程中在R中所做的数据挖掘项目(内容为中文!) 这确实是一个“了不起的”课程...
  • 预测分析数据挖掘项目 要查看我的项目,请单击下面的图像 :backhand_index_pointing_down:
  • 目录 质量分析技术 质量分析目标 ...这是质量分析在您的Web数据挖掘项目中发挥重要作用的地方。 在处理来自Internet的内容时,会以多种不同的方式引入错误,因此必须从一开始就将质量分析计划到您的项目...

     

    目录

    质量分析技术

    质量分析目标

    总结和结论


     

    在我之前的文章中,我讨论了如何从Internet内容中识别获取清理提取含义,并使用它来构建您的业​​务应用程序。但是,您如何确保您的系统始终返回最高质量的结果?这是质量分析在您的Web数据挖掘项目中发挥重要作用的地方。

    在处理来自Internet的内容时,会以多种不同的方式引入错误,因此必须从一开始就将质量分析计划到您的项目中。要进行大多数质量分析,您需要检查两个参数:

    • 你有什么?这是“完整性”或“覆盖”检查。
    • 你有什么正确的吗?这是“准确性”检查。


    质量分析技术

    在数据挖掘中进行质量分析的一些技术包括:

    • 检查计数 - 检查记录计数是否准确

    - 尽可能检查原始网站或其他第三方的计数。不要根据Internet搜索引擎结果检查计数。

    - 检查从运行到运行的计数

    - 检查太小或太大的计数

    • 验证检查 - 通过查找以下内容检查元数据的存在性和准确性:

    - 空或零长度字符串

    - 值超出范围(对于整数或浮点数)

    - 字符串太小或太大

    - 应与正则表达式匹配的字符串

    - 协调值(例如,当值相关时,检查元数据字段彼此相对)

    • 分布分析 - 检查元数据值分布并查找奇数

    - 对元数据值执行直方图

    - 检查尖峰,奇怪的非正态分布,不连续性或无法解释的间隙

    • 随机抽样丰富的子集

    - 使用grep或搜索引擎查找可能包含感兴趣模式的记录。例如,如果您尝试下载人员及其年龄(请参阅本系列第4部分中的示例模式),请查找其中包含“年龄”“岁月”“生日”的所有记录。

    - 随机抽样结果并手动检查提取是否正确执行

    • 随机抽样

    - 随机抽样所有记录

    - 手动检查样本中的每条记录,以便正确下载和提取

    质量分析目标

    • 从Internet上批量下载的完整性

    - 你有所有记录吗? - 统计所有记录并与网站提供的计数进行比较(如果有)。不要与网站的互联网搜索引擎计数进行比较。互联网搜索引擎的数量毫无例外地完全是错误的。谷歌的数量特别糟糕。

    - 所有记录都完整了吗? - 寻找零字节或小型下载。检查所有记录是否存在</ html>结束标记(如果适用)。如果可能,将HTTP标题“Content-Length”报告的大小与下载的记录的实际大小进行比较。

    • 从Internet上增量下载的完整性

    - 执行增量更新尤其令人担忧。

    - 您需要确保自上次扫描后下载所有文件,尤其是包括上次扫描期间创建的文件。

    - 如果可能,将增量更新的结果与更新的流式视图进行比较

    - 如果可能,手动检查网站更新的增量更新(例如,如果网站上的搜索引擎具有“按日期排序”功能)

    • 标记元数据提取的准确性和完整性

    - 检查从HTML标记内容(或其他上下文元数据,例如,HTML父页面)中提取的元数据是否准确和完整

    - 最好通过验证检查和分布分析来完成。

    • 基本语言处理的准确性和完整性

    - 检查标记化和令牌处理是否正常工作

    - 检查最常见和最不频繁的令牌列表是否存在异常

    - 检查最大和最小的标记是否存在异常

    - 随机样本文档和检查令牌处理

    • 实体提取的准确性和完整性

    - 检查提取的实体的直方图是否有异常

    - 执行实体部分的搜索(如名称的一部分或公司的一部分)。随机抽样此丰富子集的结果,并查看是否正确提取了实体

    - 随机抽样一组文档并检查正确的实体提取

    • 分类的准确性和完整性

    - 根据预先标记的内容(通常是训练集的百分比)评估结果

    - 检查异常和合理分布的类别直方图。将直方图与训练集进行比较

    - 随机抽样一组文件并检查分类是否正确

    - 针对内容子集执行“所有对相似性”测试。识别分类为不同类别的类似对。检查此丰富子集的随机样本

    • 自然语言处理提取的准确性和完整性

    - 执行上述所有元数据测试:验证检查,分布分析,富子集的随机样本和随机抽样

    - 将结果与手动提取的内容进行比较(如果有)

    总结和结论

    重要的是要了解此博客系列旨在提供一个完整的端到端视图,了解如何获取,收集和处理Internet内容以供内部使用。

    我确信这一切看起来都令人生畏和复杂,但并非必须如此。这一切都取决于您的要求和用例。例如:

    • 简单的元数据提取由结构化内容和来源和内容类型数量少  且来源和内容类型是相当规则:可以快速实施- 1〜2个月
    • 做一个宏观的理解  和对不正确结果的  容忍度很高(例如,循环中的人):可以快速实施 - 1到2个月
    • 做一个微观的理解  和事实或关系类型的数量很小  ,所需实体是适度和相当规律的:可以在合理的时间内实施 - 3到4个月

    此外,用于Web数据挖掘的API和工具包一直在不断改进(特别是最近),因此随着技术的进步,期望进一步缩短开发时间。

    我在1986年首先学习了自然语言处理。当时我的教授和我接着组建了自己的搜索引擎公司“ConQuest” - 用于“概念探索”。所以你可以说自然语言处理在我的血液中。

    最近,我开始注意到越来越多的客户希望从互联网上下载内容并将其用于自己的用途。在许多这种情况下,需要某种自然语言处理(宏或微)。

    现在我看到这些技术以强大的方式结合在一起。自然语言处理一直是一种“睡眠技术”,最近从个人数字助理(Alexa,Siri,Google Home等)获得了巨大的推动。我们的许多客户现在都在问:“为什么我的公司不能拥有它?”

    答案是:你可以!

    请注意可能有多少种不同类型的处理,以及如何推动架构和技术决策。通过这种方式,绝对有可能创建一个可靠的系统,用于从互联网获取,收集和转换内容,使其成为富有洞察力的知识。

     

    展开全文
  • 数据挖掘分类模型:针对我的OSU数据挖掘项目,遵循完整的CRISP-DM方法
  • 目录 从Internet清理和格式化数据的方法 其他工具 建议 ...在本系列博客的第一部分和...数据挖掘项目的原始数据准备包括: 确定格式(例如PDF,XML,HTML等) 提取文本内容 识别并删除无用的部分,例如常见的...

     

    目录

    从Internet清理和格式化数据的方法

    其他工具

    建议


     

     

    在本系列博客的第一部分第二部分中,我讨论了如何从各种Internet源中识别和获取内容,以满足您的数据挖掘需求。在第三篇博客中,我将概述一些用于数据清理和格式化的常用技术和工具。数据挖掘项目的原始数据准备包括:

    • 确定格式(例如PDF,XML,HTML等)
    • 提取文本内容
    • 识别并删除无用的部分,例如常见的页眉,页脚和侧边栏以及法律或商业样板
    • 识别差异和变化
    • 提取编码的元数据


    从Internet清理和格式化数据的方法

    清理和格式化原始数据有几种不同的方法,每种方法都有优点和缺点。

    方法1:使用屏幕抓取工具和/或浏览器自动化工具(在本博客系列的第2部分中讨论)

    优点:从复杂结构中提取元数据

    缺点:  不能大规模工作或具有大量内容,通常需要软件编程


    方法2:使用Apache TikaOracle Outside In等文本提取器 

    优点:适用于所有类型的文件和格式

    缺点:不提取太多元数据(标题,描述,作者),也可能无法提取内容结构(标题,段落,表格等)


    方法3:基于格式的自定义编码,例如XML SAX解析器用于HTML的Beautiful Soup和  用于其他格式的Aspose

    优点:最大的动力和灵活性

    缺点:实施起来最昂贵,并且需要自定义编码

    æ°æ®æ¸çï¼techniques.jpg

    其他工具

    这些附加工具可与上述基本清洁和提取方法结合使用。

    常见段落删除

    • 识别常见的常见段落,以便自动删除它们

    结构映射模式

    • 这些是易于描述的大型结构模式。它们应用于输入文档以提取和映射元数据。
    • 模式可以是XML,HTML或文本模式。

    光学字符识别(OCR)

    • OCR系统从图像中提取文本,因此文本可以由机器进一步处理。
    • 有一些开源引擎(例如TesseractOCRopus)以及一些很好的商业选择(例如AbbyyAquaForest)。

    建议

    确定要使用的工具取决于所摄取内容的类型以及可从内容结构中提取多少元数据。 

    如果大多数内容都在网页结构中(例如在表格中),那么将需要更多编码密集型方法(屏幕抓取器,浏览器自动化或结构映射模式)。

    另一方面,如果大多数内容是非结构化的自然语言文本,则文本提取器可以提取内容。根据您的要求,可能需要使用自然语言处理(NLP)进一步处理提取的内容,我将在本博客系列的下一部分深入讨论。

     

    展开全文
  • 数据挖掘项目实施步骤 数据挖掘项目周期 建立项目和报告 处理缺失值 导入和导出PMML模型
  • 数据挖掘项目 I 电力窃漏电用户自动识别 missing_data和model配套数据 期待与你相互学习
  • 数据挖掘项目版本控制说明 自己整理的
  • WineScorePredictor 预测葡萄酒品质的数据挖掘项目
  • 数据挖掘项目总结文档

    千次阅读 2016-08-01 10:33:55
    数据挖掘项目总结文档 1、文档概述 1.1 编写目的 记录本次实验思路及流程,备忘用。 1.2 适用对象 个人学习总结,描述有偏差之处陆续更进。 2、业务理解与分析定义 2.1 需求概述 针对传统网络入侵检测系统...

    数据挖掘项目总结文档

    1、文档概述

    1.1 编写目的

    记录本次实验思路及流程,备忘用。

    1.2 适用对象

    个人学习总结,描述有偏差之处陆续更进。

    2、业务理解与分析定义

    2.1 需求概述

    针对传统网络入侵检测系统存在的误判以及漏检情况,采用数据挖掘的指导思想,通过大量的攻击样本数据进行知识发现,本次实验采用的kdd99数据集,其中包含了大量的模拟攻击行为。

    1998年美国国防部高级规划署(DARPA)在MI T林肯实验室进行了一项入侵检测评估项目。林肯实验
    室建立了模拟美国空军局域网的一个网络环境,收集了9周时间的 TCPdump() 网络连接和系统审计数
    据,仿真各种用户类型、各种不同的网络流量和攻击手段,使它就像一个真实的网络环境。这些
    TCPdump采集的原始数据被分为两个部分:7周时间的训练数据 (*) 大概包含5,000,000多个网络连接
    记录,剩下的2周时间的测试数据大概包含2,000,000个网络连接记录。 ——kdd数据集背景介绍

    值得注意的是随着互联网的飞速发展,各种新的攻击手段以及工具不断涌现,而用这份98年生成的测试数据集来作基线检测缺乏一定的实效性,而今市面上也无任何组织或者团体公布出新的检测标准,学术上也一直沿用这份数据集合来度量入侵检测算法的优劣。

    2.2 分析目标定义
    2.3 模型定义

    3、数据准备与数据探索

    3.1 数据准备

    本文档采用的数据为kdd99数据集,进行分析探索。数据集合说明参照kdd99数据集整理-by dcy

    3.2 数据分析和探索

    具体分析方法可以参照另外一个文档Weka快速入门-v1.0

    3.3 数据处理流程图

    数据处理流程图

    4、模型构建

    4.1 分析思路

    参考论文《基于数据挖掘的入侵检测模型研究_王超峰》的分析思路。论文将关联规则挖掘算法和基于最小相异度的聚类算法应用于入侵检测,从而设计了一个基于数据挖掘的入侵检测模型,该模型的主要思想是:通过关联规则挖掘算法建立误用信息库并进行误用检测,能快速的检测出已知的入侵行为,但是容易产生漏报,需要进行二次检测;采用最小相异度的聚类算法建立聚类信息库,并进行二次检测,检测出漏报的和未知的入侵行为。 基于数据挖掘的入侵检测模型的关键在于误用信息库和聚类信息库的建立、更新、误用检测和聚类检测几个部分。模型框架如下图所示:

    4.2 建模工具
    • weka
    • scikit-learing
    • spss
    4.3 建模流程

    由于获取到的kdd99数据集已经经过整理成结构话的数据,每条记录包含41个特征属性以及一个分类标签,一共42个字段使用逗号分隔符进行分割。

    示例数据如下所示

    0,tcp,http,SF,181,5450,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,8,8,0.00,0.00,0.00,0.00,1.00,0.00,0.00,9,9,1.00,0.00,0.11,0.00,0.00,0.00,0.00,0.00,normal.
    0,tcp,http,SF,239,486,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,8,8,0.00,0.00,0.00,0.00,1.00,0.00,0.00,19,19,1.00,0.00,0.05,0.00,0.00,0.00,0.00,0.00,normal.

    将其转化为weka内置arff格式。其中有些属性有所省略,这里只做大概理解,详细格式信息参见Weka学习总结-v1.0

    @relation attr
    
    @attribute duration numeric
    @attribute protocol_type {tcp,udp,icmp}
    @attribute service {http,smtp,finger,domain_u,auth,telnet,ftp,eco_i,ntp_u,ecr_i,other,private,pop_3,ftp_data,rje,time,mtp,link,remote_job,gopher,ssh,name,whois,domain,login,imap4,daytime,ctf,nntp,shell,IRC,nnsp,http_443,exec,printer,efs,courier,uucp,klogin,kshell,echo,discard,systat,supdup,iso_tsap,hostnames,csnet_ns,pop_2,sunrpc,uucp_path,netbios_ns,netbios_ssn,netbios_dgm,sql_net,vmnet,bgp,Z39_50,ldap,netstat,urh_i,X11,urp_i,pm_dump,tftp_u,tim_i,red_i}
    @attribute flag {SF,S1,REJ,S2,S0,S3,RSTO,RSTR,RSTOS0,OTH,SH}
    @attribute src_bytes numeric
    @attribute dst_bytes numeric
    ......
    ......
    @attribute dst_host_rerror_rate numeric
    @attribute dst_host_srv_rerror_rate numeric
    @attribute lable {normal.,buffer_overflow.,loadmodule.,perl.,neptune.,smurf.,guess_passwd.,pod.,teardrop.,portsweep.,ipsweep.,land.,ftp_write.,back.,imap.,satan.,phf.,nmap.,multihop.,warezmaster.,warezclient.,spy.,rootkit.}
    
    @data
    0,tcp,http,SF,181,5450,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,8,8,0,0,0,0,1,0,0,9,9,1,0,0.11,0,0,0,0,0,normal.
    0,tcp,http,SF,239,486,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,8,8,0,0,0,0,1,0,0,19,19,1,0,0.05,0,0,0,0,0,normal.
    0,tcp,http,SF,235,1337,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,8,8,0,0,0,0,1,0,0,29,29,1,0,0.03,0,0,0,0,0,normal.

    特征抽取

    根据 Kayacik H G等人在Selecting features for intrusion detection这篇文章中所使用的信息增益的方法来选择特征,一方面减少冗余特征、另一方面也可以提高学习速度。
    借助开源软件Weka,我们可以很容易的在数据集合上选择出相应的和分类标签最相关的特征用来学习,由于我们直接采用kdd提供的10%小数据集合(近400w条连接记录)作为训练集,没有单独提出测试集合,故采用10折交叉验证的方式进行特征选择。

    关联分析模块
    生成关联规则
    十则交叉验证整个数据集合得到每个特征对于分类属性的一个信息熵,我们设定阈值为0.5,选出大于0.5以上的特征属性进行降为学习。

    我们发现剩下17个特征以及一个类标签:

    下面进行关联规则的生成。选择Apriori算法,由于该算法针对是离散型变量,故我们需要再对数据进行离散化处理。完了之后调整Apriori算法相关参数导出关联规则。

    图中的蕴含关系则为推导出的强关联规则

    生成关联规则之后,进行误用检测的流程图

    聚类分析模块
    聚类分析模块
    按照分类属性,使用简单聚类方式将数据集分成4个聚类。

    图中勾出了四个中心点。得到结果仅供演示使用,为了提高速度只选取了1%的数据(49402条记录)。不能代表全局,要定义的中心点的个数也可以另外指定,不断的实验对比,从而确定最优的个数。

    4.4 模型结果

    5、模型评估

    5.1 模型评估方法

    使用分类的正确率来度量。

    5.2 评估结果

    简单采用分类树进行模拟发现,在对经过提取特征的数据进行分类训练,这里采用在原来的训练集合上采用十折交叉验证方式进行评估,分类正确率99.8% ,存在着过拟合现象,由于缺乏测试集合的类标签,无法进行模型的泛化能力(对原数据集合中不曾出现过的类别)检测。总体说来,这些数据集经过非常精细的整理并除去了一些冗余的信息,而且本身包含大量的攻击行为。这是分类正确率如此之高的原因,具体应用的场景能达到一个怎么样的水平以及如何提高分类模型的准确率,还的经过真实数据的检验。

    评估结果

    混淆矩阵

    7、参考资料

    • Kayacik H G, Zincir-Heywood A N, Heywood M I. Selecting features for intrusion detection: A feature relevance analysis on KDD 99 intrusion detection datasets[C]//Proceedings of the third annual conference on privacy, security and trust. 2005.
    • 王超峰. 基于数据挖掘的入侵检测模型研究[D].青岛理工大学,2010.
    • weka快速入门-v1.0
    • kdd99数据集整理-by dcy
    本博客文章除特别声明,全部都是原创! 尊重原创,转载请注明: 转载自thinkml(http://www.cnblogs.com/thinkml) 访问更多内容 请访问个人博客 http://me.needpp.com
    展开全文
  • 为什么您的数据挖掘项目成果总是难以落地?或者数据挖掘的价值总是远远低于预期?无论您是项目管理者还是数据分析师,相信看完这篇文章,每个人都能找到一个属于自己的答案。本人先后在电力、军工、金融等行业担任...
  • 数据挖掘项目(一)

    千次阅读 2019-03-02 21:58:41
    数据挖掘项目(一) 第一次实践数据挖掘。虚心学习。 基于机器学习的数据分析模型的建立,主要分为以下几步:数据获取-&amp;gt;数据预处理-&amp;gt;模型选择-&amp;gt;数据统一化-&amp;gt;模型建立-&...
  • 数据挖掘项目ITC-关于检索原始数据和从URL解析数据我们的子主题是-证券交易所网站“ ETF.com”。 大纲 我们的项目基于ETF网站,该网站上有很多关于股票ETF的原始数据。 有很多ETF,它们是一组具有许多特征的股票。 ...
  • 数据挖掘项目 这是ITC数据科学课程的数据挖掘项目的回购。 描述 该项目的目的是从ebay提取数据并进行分析。 抓取工具会接收CLI参数。 输入: 搜索字词(str)-输入要搜索的字词,并用空格隔开(将脚本作为列表输入...
  • 某运营商数据挖掘项目汇报_新增用户维系,建立新增用户维系闭环管理体系,准确分群,分级预警,制定针对性的维系策略和方案并实施,实现新增用户保有。
  • 本课程以SPSS Modeler为应用软件,以数据挖掘项目生命周期为线索,以实际数据挖掘项目为例,讲解了从项目商业理解开始,到后应用Modeler软件实现的挖掘过程。...
  • 有网友在知乎提问:「你用 Python 做过什么有趣的数据挖掘项目?」我最近刚开始学习 Python, numpy, scipy 等, 想做一些数据方面的项目,但是之前又没有这方面的经验。所以想知道大家都做过什么有趣的项目, 或者...
  • 数据挖掘项目(二)

    2019-03-04 21:40:15
    数据挖掘项目(二) 【特征工程(2天)】 目标: 对数据特征进行衍生和进行特征挑选。 包括但不限于:特征衍生,特征挑选。 分别用IV值和随机森林等进行特征选择……以及你能想到特征工程处理。 特征选择( Feature ...
  • 数据挖掘项目——金融反欺诈前言一、数据集获取二、特征工程1、读数据2、去除特殊字符3、删除属性4、提取标签三、构建模型 前言 该项目来自北风网,模型搭建很简单,该篇记录过程总结套路。 一、数据集获取 ...
  • 数据挖掘项目(四)

    2019-03-09 10:15:48
    数据挖掘项目(四) 目标任务: 记录5个模型(逻辑回归、SVM、决策树、随机森林、XGBoost)关于accuracy、precision,recall和F1-score、auc值的评分表格,并画出ROC曲线。 思路想法汇总.先做归一化处理,应用对应...
  • 数据挖掘项目(六)

    2019-03-13 21:03:40
    数据挖掘项目(六) 目标任务:【模型融合】 模型融合,模型融合方式任意,并结合Task5给出你的最优结果。 例如Stacking融合,用你目前评分最高的模型作为基准模型,和其他模型进行stacking融合,得到最终模型及评分...
  • 数据挖掘项目(三)

    2019-03-06 21:11:14
    数据挖掘项目(三) 【模型构建(2天)】 用逻辑回归、svm和决策树;随机森林和XGBoost进行模型构建,评分方式任意,如准确率等。(不需要考虑模型调参) 查了一下博客建议。暂且贴在这做参考。 使用LR试一把总归...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 5,504
精华内容 2,201
关键字:

数据挖掘项目