-
令人敬畏的网络安全数据集:精选的令人敬畏的网络安全数据集列表-源码
2021-02-06 00:10:29令人敬畏的网络安全数据集:精选的令人敬畏的网络安全数据集列表 -
网络安全数据集
2020-11-20 09:30:06网络安全数据集:https://aistudio.baidu.com/aistudio/projectdetail/1236018展开全文 -
网络安全数据集和开源工具
2021-01-15 10:09:54由于本人从事安全相关的行业的工作,接触到很多想用机器学习解决...对于安全数据集,已经有行业从业者不辞辛劳的总结的很完善了,这里给出两个我看到的汇总网址: 网络安全中机器学习大合集 SecRepo.com -...由于本人从事安全相关的行业的工作,接触到很多想用机器学习解决网络安全相关的问题,不可避免的需要用到很多安全相关的开源数据集和工具,这里记录一下本人自己用过并感觉不错的数据集和开源工具。当然,这可能只是安全领域数据集和开源工具极小的一部分,希望能起到抛砖引玉的目的吧,本人后续也会不断更新。
1. 安全数据集
对于安全数据集,已经有行业从业者不辞辛劳的总结的很完善了,这里给出两个我看到的汇总网址:
SecRepo.com - Samples of Security Related Data
其中,对于“安全联盟的曝光台”,安全联盟是由知道创宇、腾讯等互联网企业于2012年发起的第三方公益组织,自成立以来,通过与12321举报中心、腾讯、搜狗、金山等上百家机构、企业合作,通过发动群众参与网络治理,安全联盟已建成国内最大的第三方网络安全数据共享交换平台,日平均共享数据4500万次,每日接收网民举报超5000条,截止目前已拥有超过8.9亿条恶意网址、电话数据。这些恶意数据被应用到搜索引擎、浏览器、IM、社交平台、路由器OS等互联网终端,每天为网民提供超过30亿次恶意风险提醒,极大程度地帮助网民远离网络诈骗。
这里面包罗万象,我第一次看到感觉如获至宝,感觉发现了一座金矿,紧接着又有点傻眼,这个金矿应该怎么挖?我的答案是当然是站在前人的肩膀上,多利用前辈们的智慧啦。个人建议买一本《Web安全之机器学习入门》并下载随书代码,这本书里面列举了用机器学习方法解决典型的各种网络安全问题,上面列举的很多数据集都可以用在这里面,能帮你迅速上手并判断是否有深入使用和研究的价值。当然更棒的是,这本书里也列举了一些网络安全领域的公开数据集,与上面汇总帖里的数据集互为补充,能为你在开始一个网络安全领域的机器学习项目提供快速的建模手段。
说完汇总,我也列一下我在机器学习项目里使用过数据集:
恶意url: http://www.sysnet.ucsd.edu/projects/url/
An anonymized 120-day subset of our ICML-09 data set is available from the following links:- URL Data Set (Matlab) (470 MB)
- URL Data Set (SVM-light) (234 MB)
僵尸网络DGA域名数据: http://osint.bambenekconsulting.com/feeds/dga-feed.txt
恶意流量分析: http://malware-traffic-analysis.net/
恶意软件分类数据:https://www.kaggle.com/c/malware-classification
http://www.malshare.com/index.php2. 威胁情报
当前安全领域高级持续威胁APT日益泛滥,威胁情报作为应对APT的重要手段也被越来越多的的安全厂商所重视,本人在github上发现了一个比较好的威胁情报资料汇总,网址是: https://github.com/hslatman/awesome-threat-intelligence
3. 开源扫描器集合
4. 开源软件集合
Stratosphere Linux IPS (slips)
a behavioral-based intrusion detection and prevention system that uses machine learning algorithms to detect malicious behaviors.
https://github.com/stratosphereips/StratosphereLinuxIps
https://github.com/stratosphereips/StratosphereTestingFramework
Learn2ban
Open source machine learning DDOS detection tool
https://github.com/equalitie/learn2ban
malware-detection
Experiments in malware detection and classification using machine learning techniques.
https://github.com/dchad/malware-detection
Use of machine learning for anomaly detection in netflow data
https://github.com/eraclitux/machine-learning-netflow
Botnet Detection using Machine Learning
https://github.com/hmishra2250/Botnet-Detection-using-Machine-Learning
Fraud_Detector
Fraud Detection using ensemble of Statistical, Network analysis and Machine learning approach.
https://github.com/kskk02/Fraud_Detector
Intrusion Detection With Machine Learning
https://github.com/slrbl/Intrusion-and-anomaly-detection-with-machine-learning
Adaptive Machine Learning for Credit Card Fraud Detection
https://github.com/dalpozz/AMLFD
time series data analysis
https://github.com/linkedin/luminol
open source and threat intelligence
https://github.com/Te-k/harpoon
Apache Spot:一个全新的网络安全开源项目
Apache Spot 是一个基于网络流量和数据包分析,通过独特的机器学习方法,发现潜在安全威胁和未知网络攻击能力的开源方案。目前 Apache Spot 已支持对 Netflow、sflow、DNS、Proxy 的网络流量分析,主要依靠 HDFS、Hive 提供存储能力,Spark 提供计算能力,基于 LDA 算法提供无监督式机器学习能力,最终依赖 Jupyter 提供图形化交互能力。
详细介绍: https://mp.weixin.qq.com/s/DQdcByiuMNlUMhK7uHAdCA
https://hub.docker.com/r/apachespot/spot-demo/
AIEngine (Artificial Intelligent Engine)
AIEngine is a packet inspection engine with capabilities of learning without any human intervention. AIEngine helps network/security professionals to identify traffic and develop signatures for use them on NIDS, Firewalls, Malware analysis, Traffic classifiers and so on.
网址:https://bitbucket.org/camp0/aiengine/
Passive DNS
PassiveDNS对安全研究非常重要,因为它可以得到以下三方面的答案:该域名曾经绑定过哪些IP、这个IP有没有其他的域名、该域名最早/最晚什么时候出现。Passive DNS同时也在SOC的时候起到很大的帮助。通过识别的恶意域名,可以找到其他被恶意破坏的机器。目前有很多网站允许我们访问它的PassiveDNS系统,例如:Virustotal(https://www.virustotal.com/)、passivetotal(https://www.passivetotal.com)、CIRCL (https://www.circl.lu/services/passive-dns/)。有很多这样的网站,但是,自己在本地有一个当然会更方便。
更详细的介绍:http://www.freebuf.com/articles/network/103815.html,以及https://www.farsightsecurity.com/solutions/dnsdb/
更多的开源工具: PassiveDNS::Client, https://github.com/chrislee35/passivedns-client
Vulhub
Vulhub是一个面向大众的开源漏洞靶场,无需docker知识,简单执行两条命令即可编译、运行一个完整的漏洞靶场镜像。
开源代码:https://github.com/Cherishao/vulhub
文章转载来源:https://blog.csdn.net/zourzh123/article/details/81012081
-
安全数据集和开源工具
2018-07-12 14:48:22由于本人从事安全相关的行业的工作,接触到很多想用机器学习解决网络安全相关的问题,不可避免的需要用到很多安全... 安全数据集 对于安全数据集,已经有行业从业者不辞辛劳的总结的很完善了,这里给出两个我看到的...由于本人从事安全相关的行业的工作,接触到很多想用机器学习解决网络安全相关的问题,不可避免的需要用到很多安全相关的开源数据集和工具,这里记录一下本人自己用过并感觉不错的数据集和开源工具。当然,这可能只是安全领域数据集和开源工具极小的一部分,希望能起到抛砖引玉的目的吧,本人后续也会不断更新。
1. 安全数据集
对于安全数据集,已经有行业从业者不辞辛劳的总结的很完善了,这里给出两个我看到的汇总网址:
SecRepo.com - Samples of Security Related Data
其中,对于“安全联盟的曝光台”,安全联盟是由知道创宇、腾讯等互联网企业于2012年发起的第三方公益组织,自成立以来,通过与12321举报中心、腾讯、搜狗、金山等上百家机构、企业合作,通过发动群众参与网络治理,安全联盟已建成国内最大的第三方网络安全数据共享交换平台,日平均共享数据4500万次,每日接收网民举报超5000条,截止目前已拥有超过8.9亿条恶意网址、电话数据。这些恶意数据被应用到搜索引擎、浏览器、IM、社交平台、路由器OS等互联网终端,每天为网民提供超过30亿次恶意风险提醒,极大程度地帮助网民远离网络诈骗。
这里面包罗万象,我第一次看到感觉如获至宝,感觉发现了一座金矿,紧接着又有点傻眼,这个金矿应该怎么挖?我的答案是当然是站在前人的肩膀上,多利用前辈们的智慧啦。个人建议买一本《Web安全之机器学习入门》并下载随书代码,这本书里面列举了用机器学习方法解决典型的各种网络安全问题,上面列举的很多数据集都可以用在这里面,能帮你迅速上手并判断是否有深入使用和研究的价值。当然更棒的是,这本书里也列举了一些网络安全领域的公开数据集,与上面汇总帖里的数据集互为补充,能为你在开始一个网络安全领域的机器学习项目提供快速的建模手段。
说完汇总,我也列一下我在机器学习项目里使用过数据集:
恶意url: http://www.sysnet.ucsd.edu/projects/url/
An anonymized 120-day subset of our ICML-09 data set is available from the following links:- URL Data Set (Matlab) (470 MB)
- URL Data Set (SVM-light) (234 MB)
恶意流量分析: http://malware-traffic-analysis.net/
恶意软件分类数据:https://www.kaggle.com/c/malware-classification
http://www.malshare.com/index.php2. 威胁情报
当前安全领域高级持续威胁APT日益泛滥,威胁情报作为应对APT的重要手段也被越来越多的的安全厂商所重视,本人在github上发现了一个比较好的威胁情报资料汇总,网址是:https://github.com/hslatman/awesome-threat-intelligence3. 开源扫描器集合
4. 开源软件集合
Stratosphere Linux IPS (slips)a behavioral-based intrusion detection and prevention system that uses machine learning algorithms to detect malicious behaviors.Learn2banOpen source machine learning DDOS detection toolmalware-detectionExperiments in malware detection and classification using machine learning techniques.Use of machine learning for anomaly detection in netflow dataBotnet Detection using Machine LearningFraud_DetectorFraud Detection using ensemble of Statistical, Network analysis and Machine learning approach.Intrusion Detection With Machine LearningAdaptive Machine Learning for Credit Card Fraud Detectiontime series data analysisopen source and threat intelligenceApache Spot:一个全新的网络安全开源项目Apache Spot 是一个基于网络流量和数据包分析,通过独特的机器学习方法,发现潜在安全威胁和未知网络攻击能力的开源方案。目前 Apache Spot 已支持对 Netflow、sflow、DNS、Proxy 的网络流量分析,主要依靠 HDFS、Hive 提供存储能力,Spark 提供计算能力,基于 LDA 算法提供无监督式机器学习能力,最终依赖 Jupyter 提供图形化交互能力。AIEngine (Artificial Intelligent Engine)
AIEngine is a packet inspection engine with capabilities of learning without any human intervention. AIEngine helps network/security professionals to identify traffic and develop signatures for use them on NIDS, Firewalls, Malware analysis, Traffic classifiers and so on.
网址:https://bitbucket.org/camp0/aiengine/
Passive DNS
PassiveDNS对安全研究非常重要,因为它可以得到以下三方面的答案:该域名曾经绑定过哪些IP、这个IP有没有其他的域名、该域名最早/最晚什么时候出现。Passive DNS同时也在SOC的时候起到很大的帮助。通过识别的恶意域名,可以找到其他被恶意破坏的机器。目前有很多网站允许我们访问它的PassiveDNS系统,例如:Virustotal(https://www.virustotal.com/)、passivetotal(https://www.passivetotal.com)、CIRCL (https://www.circl.lu/services/passive-dns/)。有很多这样的网站,但是,自己在本地有一个当然会更方便。
更详细的介绍:http://www.freebuf.com/articles/network/103815.html,以及https://www.farsightsecurity.com/solutions/dnsdb/
更多的开源工具: PassiveDNS::Client, https://github.com/chrislee35/passivedns-clientVulhub
Vulhub是一个面向大众的开源漏洞靶场,无需docker知识,简单执行两条命令即可编译、运行一个完整的漏洞靶场镜像。
开源代码:https://github.com/Cherishao/vulhub
-
网络安全数据集(转载)
2020-11-01 22:23:47网络安全数据集 整理自一度苦于找数据集的我。开个坑整理一下公开数据集。 希望有一天能填平(大概)。本文大概会同步到zhihu。 1、数据集集合 Canadian Institute for Cybersecurity datasets 来自加拿大网络安全...网络安全数据集
整理自一度苦于找数据集的我。开个坑整理一下公开数据集。
希望有一天能填平(大概)。本文大概会同步到zhihu。1、数据集集合
Canadian Institute for Cybersecurity datasets
来自加拿大网络安全研究所整理的数据集,包含下列数据集:Android Malware dataset (InvesAndMal2019)
DDoS dataset (CICDDoS2019)
IPS/IDS dataset on AWS (CSE-CIC-IDS2018)
IPS/IDS dataset (CICIDS2017)
Android Malware dataset (CICAndMal2017)
Android Adware dataset (CICAAGM2017)
DoS dataset (application-layer) 2017
VPN-nonVPN traffic dataset (ISCXVPN2016)
Tor-nonTor dataset (ISCXTor2016)
ISCX-URL dataset (ISCX-URL-2016)
ISCX Android Botnet dataset 2015
ISCX Botnet dataset 2014
ISCX Android Validation dataset 2014
ISCX IDS dataset 2012
ISCX NSL-KDD dataset 2009
数据挖掘与网络安全资源网
包含以下数据集:[入侵检测] DARPA入侵检测数据集
[入侵检测] KDD Cup 99数据集
[入侵检测] NSL-KDD数据集
[黑客攻击数据集] Honeynet数据集(数据集包括从2000年4月到2011年2月,累计11个月的Snort报警数据,每月大概60-3000多条Snort报警记录,其网络由8个IP地址通过ISDN连接到ISP)
[日志数据] Challenge 2013数据集(提供了某虚构的跨国公司内部网络两周的运行日志,日志类型有3种,分别是网络流量Netflow日志数据和Big Brother 网络健康和状态数据,日志包括:第一、二周的Netflow和Big Brother日志,第二周的入侵预防系统日志数据,通过日志的分析可以找出网络中存在的异常,网络包含的主机和服务器约1100 台,原始日志量接近10 GB,记录数超过9000万行)
恶意软件数据集
Vizsec
该网站包含下列数据集:UGR’16: A New Dataset for the Evaluation of Cyclostationarity-Based Network IDSs
Stanford Large Network Dataset Collection (SNAP):
APTnotes
Open Malware
Shadow Server Malware Data site
Darpa CGC (known vulnerabilities)
DNS data
SecRepo
malware-traffic-analysis
NETRESEC Data
CTU Data
Digital Corpora
Impact
Kyoto: Traffic Data from Kyoto University’s Honeypots.
The Honeynet Project: Many different types of data for each of their challenges, including pcap, malware, logs.
VAST Challenge 2013: Mini-challenge 3 is related to cybersecurity and includes network flow data, network status data (via big brother), and intrusion prevention system data.
VAST Challenge 2012: This challenge has two mini-challenges, one related to situation awareness (metadata and periodic status reports from all computing equipment) and one to forensics (Firewall and IDS logs).
VAST Challenge 2011: Mini-challenge 2 is related to Cybersecurity - Situational Awareness in Computer Networks (Firewall and IDS logs).
DARPA Intrusion Detection Data: This data set has numerous issues that have been documented in the literature.
ORNL Auto-labeled corpus: A corpus of automatically labeled text data in the cyber security domain.
Industrial Control System (ICS) Cyber Attack Data Set: Data from MSU. The dataset is made up of tuples of timestamp, network protocol (MODBUS), and system information (measurements and settings), and attack attributes. -
网络安全数据集介绍
2019-07-09 07:35:595、CNNVD 软件安全漏洞数据集 6、NVD 软件安全漏洞数据集 1、KDD99 入侵检测数据集 该数据集是从一个模拟的美国空军局域网上采集来的9个星期的网络连接数据,分成具有标识的训练数据和未加标识的测试数据。测试... -
网络安全数据集整理
2020-01-09 00:20:16整理自一度苦于找数据集的我。开个坑整理一下公开数据集。 希望有一天能填平(大概)...来自加拿大网络安全研究所整理的数据集,包含下列数据集: Android Malware dataset (InvesAndMal2019) DDoS dataset (CICDD... -
基于机器学习的安全数据集
2020-09-07 15:28:39为了更好的帮助大家从事安全领域机器学习和深度学习(AI+安全)相关的研究,这篇文章将分享安全相关的数据集供大家下载和实验,包括恶意URL、流量分析、域名检测、恶意软件、图像分类、垃圾邮件等,也欢迎大家留言... -
机器学习之安全数据集
2019-08-20 21:52:37本文主要收录安全相关的数据集,适合初创,中小型企业用于训练和验证自己的机器学习的模型,提高准确率和准确度。 由于数据集可能比较多,一开始也不能全部列举出来,所以后续会慢慢补充,慢慢增加。 数据集 每个... -
网络安全数据集收集与整理(2020版)
2020-01-11 21:22:14本系列就是帮助大家收集网络安全相关数据集。如果大家有好的数据集,可以通过留言告诉我。 威胁情况库 开源的黑名单,在网上有大量的开源黑名单FireHOL、sans.edu等。这些黑名单更新迅速、可信度高,是我们所关注... -
(网络安全数据集二)美国攻击类型数据集通用攻击枚举和分类CAPEC解析
2019-12-10 19:36:08CAPEC 攻击类型枚举和分类数据集解析 CAPEC是常用冲击类型的分类:https://capec.mitre.org/index.html 拿下载到的数据集中某一条攻击类型信息举例: 缓冲区变量溢出攻击 <Attack_Pattern xmlns:capec=... -
(网络安全数据集三)常见弱点枚举 CWE数据集和通用平台枚举 CPE解析
2019-09-12 15:20:13[影响:读取应用数据] < Note > Often this will either reveal sensitive information which may be used for a later attack or private information stored in the server. < / Note > < / ... -
(网络安全数据集一)美国国家安全漏洞库 NVD-CVE信息解读 和常用漏洞库
2019-07-01 09:31:29最近要用到这方面的数据,就对CVD中的一小段CVE信息选取做了简单的理解,有错的地方请大佬指正。 一个完整的CVE信息 包含 七部分: (一) 元数据 (二)漏洞影响软件信息 (三) 漏洞问题类型 “cve” : { “data_... -
机器学习和网络安全相关数据集
2020-06-21 09:55:28机器学习数据资源整理网络安全数据集气象数据集 网络安全数据集 https://opendata.rapid7.com/ 全球声呐开源数据集,包括SSL证书、 气象数据集 ftp://ftp.ncdc.noaa.gov/pub/data/... -
物联网安全相关数据集
2020-09-15 09:10:37物联网安全相关数据集 [原文]数据集可以在NIDS部署时使用,但是现在(文章发表于2019)没有专门针对IoT的数据集,因此开发者有两种选择1)使用针对传统系统的数据集 2)部署嗅探软件抓取自己网络的数据 [思考]按照原文的... -
人工智能 安全帽数据集
2020-11-04 11:19:47人工智能安全帽数据集,可用于yolo框架训练,如需标签文件请点击个人主页自行寻找!!! -
在安全帽佩戴检测数据集训练YOLOv5--数据集处理
2021-01-05 18:49:15在安全帽佩戴检测数据集训练YOLOv5--数据集处理参考链接数据集处理数据集 参考链接 SafetyHelmetWearing-Dataset(安全帽佩戴检测数据集) Train Custom Data(YOLOv5 训练自定义数据集) yolov5汉化版 数据集 ... -
网络安全相关数据集介绍与下载
2018-11-20 09:45:195、CNNVD 软件安全漏洞数据集 6、NVD 软件安全漏洞数据集 1、KDD99 入侵检测数据集 该数据集是从一个模拟的美国空军局域网上采集来的9个星期的网络连接数据,分成具有标识的训练数据和未加标识的测试数据。测试... -
网络安全相关数据集下载
2020-01-08 09:36:18网络安全相关数据集介绍与下载 原创 ... -
安全领域常用数据集
2019-08-08 19:23:08KDD CUP 99数据集:https://blog.csdn.net/com_stu_zhang/article/details/6987632 -
网络安全 日志数据集 总结
2018-04-30 10:00:19kdd99等的描述,国内外各大资源。 -
入侵检测数据集2017_开源 | 安全帽佩戴检测数据集
2021-01-26 05:39:46最近图像领域比较火热的两个方向都与复工复产相关,一方面是口罩识别,另一方面,就是智能工地安全领域中的安全帽佩戴检测,很多同学或许没想到印象的大工地现在已经随着计算机视觉领域的发展如此智能化了。... -
网络安全态势感知数据集问题
2020-12-22 07:55:57最近在看一些网络安全态势感知的文献,自己找数据集时,发现一个问题,比如第一张图是DARPA1999中的漏洞信息和服务信息但是这些信息在数据集中是怎么体现的呀???怎么就知道有这些漏洞呢???好困惑啊,本人菜鸟... -
网络流数据集
2019-06-13 17:16:18网络安全数据集可以参考https://blog.csdn.net/answer3lin/article/details/82966360 网络流数据集 HTTP DATASET CSIC 2010 是针对WEB服务的请求,已标注,分三块:正常训练集、正常测试集和异常测试集。 What... -
管理XML数据集的安全性
2020-03-04 10:34:04大部分熟悉数据库技术的开发人员在使用 XML 时,都必须开始学习一种完全不同的技术。...这方面的粗心可能会导致安全性缺陷。在本文中我们将学习有关 XML 透明性的安全性问题以及如何避免这些缺陷。 -
yolov5训练安全帽数据集之 xml文件生成txt
2020-10-21 17:42:15本文针对用yolov5训练安全帽数据集,由于初始的安全帽数据集数据较少,因此我找了三个数据集进行了融合,其中两个数据集的xml文件中分别以’0’,'1’代表没戴安全帽和戴安全帽,另一个数据集通过‘white’... -
国际安全事件关系发现_数据集
2018-06-23 23:09:42如何从庞大且杂乱无序的网络舆情数据中准确有效地发现多个安全事件之间隐藏的关联关系并做出及时反应,对挖掘具体安全事件发生的深层次或根本原因、正确处理国际关系、维护公共安全具有十分重要的现实意义。...
-
基于Flink+Hudi构建企业亿级云上实时数据湖教程(PC、移动、小
-
Android开发应用apk文件发送到微信打不开解决方案
-
33-docker学习笔记.docx
-
OTL用于多目标优化的比较研究
-
网络视频音频整理转成文字,你还在自己整理?——微转写
-
37岁老码农现身说法:投了500份简历,却只收到了3个面试邀请
-
Hadoop技术
-
linux网络驱动.zip
-
2021年A特种设备相关管理(电梯)模拟试题及A特种设备相关管理(电梯)模拟考试题库
-
03. ubuntu下安装软件
-
List<Map<String,Object>> 按 key 进行分组
-
settings.zip
-
NLP期刊
-
电商PC前后端分离项目Spring Boot后台实战第一期
-
vscode使用教程.xmind
-
阿里巴巴-业务平台-结算域春季招聘
-
2021年 系统架构设计师 系列课
-
基于电商业务的全链路数据中台落地方案(全渠道、全环节、全流程)
-
084_可直接用于项目的qt窗口(桑原创).rar
-
Keil.STM32F2xx_DFP.2.9.0.1.rar