精华内容
下载资源
问答
  • 图像数据挖掘作业 #1

    2021-09-17 23:41:53
    对数变换 变换前: 变换后: 代码 img3 = imread('img3.jpg'); % 读取图片 imshow(img3) g3 = im2uint8(mat2gray(log(1 + double(img3)))); % 对数变换 imshow(g3) 直方图均衡 均衡前: ...滤波后:

    对数变换

    变换前:

    在这里插入图片描述

    变换后:

    在这里插入图片描述

    代码

    img3 = imread('img3.jpg'); % 读取图片
    imshow(img3)
    g3 = im2uint8(mat2gray(log(1 + double(img3)))); % 对数变换
    imshow(g3)
    

    直方图均衡

    均衡前:

    在这里插入图片描述

    均衡后:

    在这里插入图片描述

    代码

    img1 = imread('img1.jpg');
    imshow(img1)
    g1 = histeq(img1, 100); % 直方图均衡
    imshow(g1)
    

    中值滤波

    滤波前:

    带有噪声的显卡细节图

    滤波后:

    在这里插入图片描述

    代码

    img2 = rgb2gray(imread('img2.jpg'));
    imshow(img2)
    img2_with_noise = imnoise(img2, 'salt & pepper', 0.1); % 生成噪声
    imshow(img2_with_noise)
    g2 =  medfilt2(img2_with_noise, 'symmetric'); % 进行中值滤波
    imshow(g2)
    
    展开全文
  • 机器学习与数据挖掘 图像处理程序 文档
  • 使用的是python3版本,自己编写的,能够完美运行,里面有两个py文件,一个是主程序,一个是导入的算法,只需要运行主程序就行,数据啥的都准备好了
  • 本次大作业我们选取了第一个题目:基于统计方法的数据分布的图形显示。我们从各省市统计局公布的数据中搜集了包括人均GDP(元)、人口密度(人/平方公里)、PM2.5年平均浓度(微克/立方米)、年旅游收入(亿元)的...

    代码下载链接:http://download.csdn.net/detail/jsgaobiao/9534463


    Ø  【概述】

    本次大作业我们选取了第一个题目:基于统计方法的数据分布的图形显示。我们从各省市统计局公布的数据中搜集了包括人均GDP(元)、人口密度(人/平方公里)、PM2.5年平均浓度(微克/立方米)、年旅游收入(亿元)的数据并且做了统计和可视化。

    我们认为这些数据可以一定程度上反映出一个省或直辖市的经济(人均GDP)、社会(人口密度)、环境(PM2.5年平均浓度)和文化产业(旅游收入)的发展水平。我们所呈现出来的两张图表也可以让用户直观的从地理位置和对比中,了解省市间发展的差异性以及每个省市自身的发展结构,并且能够轻松地寻找到用户感兴趣的区域。

    下面我们将分步骤详细地讲述我们完成作业的流程以及其中涉及到的算法与技术,也希望借这个报告记录下我们学习和使用这些知识技能的过程。

     

    Ø  【数据的选取】

    本次作业采用的数据来源于各省市统计局的公报,包含了各省市、自治区、特别行政区的人均GDP(元)、人口密度(人/平方公里)、PM2.5年平均浓度(微克/立方米)和年旅游收入(亿元)。其中,澳门特别行政区和台湾的PM2.5年平均浓度、年旅游收入,以及香港特别行政区的年旅游收入缺少官方数据,因此我们采用了新闻报道中的统计数据用于研究。

    为了尝试不同组织方式的数据处理,我们使用了tsv和json两种组织形式的数据文件用于两种不同的可视化方案。其中tsv类型的数据文件中,所有的数据条目按照group(数据类型)、id(省份名称)和value(数值)进行组织,而json文件中,每个数据对象表示了一个省份实体,当中包括id(省份名称)以及GDP、人口密度等不同属性的数据。

     

    Ø  【数据可视化】

    一、          环境与技术

    本次作业的可视化采用了网页端的实现方式,它具有跨平台和轻便的特点。下面介绍了我们整个项目中涉及到的开发技术:

    l  搭建HTTP本地服务器:我们希望用户通过浏览器打开HTML文件直接查看可视化的结果,不过这样有一些局限性。一旦我们需要从其他文件中加载数据,由于浏览器内建的安全机制,这样的行为会受到限制。为了绕开这个安全机制,我们使用Python搭建一个本地的HTTP服务器,用该服务器来维护HTML页面和数据文件,而不是直接从文件系统中加载。

    本机采用了Python3.4.2的环境,只需要运行“python –m http.server”命令即可启动一个HTTP服务器,默认端口是8000.如果你采用了较老版本的Python,可以尝试命令“python–m SimpleHTTPServer 8000”即可。

    l  网页前端:HTML +CSS,这两样“利器”的搭配,可以让我们方便的构建出网站和各种可视化元素的样式。

    l  数据可视化:D3.js,它是一个JavaScript库,可以通过数据来操作文档。D3可以通过使用HTML、SVG和CSS把数据鲜活形象地展现出来。D3严格遵循Web标准,因而可以让你的程序轻松兼容现代主流浏览器并避免对特定框架的依赖。同时,它提供了强大的可视化组件,可以让使用者以数据驱动的方式去操作DOM。

    二、          地图的可视化

    我们的第一部分可视化使用了地图的形式,通过将各行政区域绘制深浅不同的颜色,表示各项数据的多少。通过选择地图下面的选项可以切换显示不同的数据分布。

    从这样的图中我们可以直观的看出人均GDP和地理位置分布的关系,东部沿海省份的经济发展水平明显好于中西部地区。重庆作为一个直辖市,在中部地区的确也属于发展比较好的。另外,内蒙古在这张地图上显得比较“独树一帜”,不过结合人口密度分布图来看就可以发现,内蒙古因为人口密度特别低,所以人均GDP才会比较高。

    再通过PM2.5的浓度图和旅游收入的分布图,我们还可以发现,空气污染较为严重的地区主要分布在以京津冀为核心的华北平原,比较符合我们日常生活中的直观感受,而新疆地区的PM2.5浓度也处于一个较高的水平,可能是因为土壤沙漠化的影响。

    下面介绍具体的算法:

    首先介绍一下地图绘制的方式:我们采用了SVG(可缩放矢量图形),它是W3C颁布的一种成熟标准,用于规范网络和移动平台上的交互图形。它能够很好的与CSS、JavaScript等浏览器技术结合起来。SVG的图像基于矢量而非像素,因此具有良好的伸缩性,使得它在任意尺寸下都不会丢失精度。

    为了绘制中国地图,我们采用了D3的线条生成器,事实上,它是使用svg:path元素实现的。我们在china.js中记录下了所有省份区域边界的顶点坐标,并通过创建的path元素对线条围出的区域进行相应颜色的填充,同时设置了与鼠标事件的交互。当用户将鼠标移动到某个省份区域之上时,会渐变地弹出提示框,标明了省份名称和具体的数据信息。

           

           为了使得数值的区域显示不同深浅的颜色,我们先将数据进行了排序,然后根据排序的名字对colormap中的颜色进行插值。由于篇幅限制,此处就不附上代码了。具体可以参考index.html中的注释。

     

    三、          条形图可视化

    为了让数据的呈现更加多样化,并让用户可以方便地比较地区间的差异性,我们除了第一部分的地图可视化之外,还做了条形图的可视化。这一部分呈现了按照各个领域数据排名为标准进行度量的条形图。

    为了方便比较,我们设置了Multiples和Stacked两种显示方式,分别可以方便用户比较单项指标之间的差异和整体指标的差异程度。

    可视化界面的下方有两排选择按钮,其中第一排选择按钮可以选择可视化的方式是Multiples(上图)或者Stacked(下图)。第二排选择按钮则可以选择显示哪些数值的项目。

    条形图的可视化中,每个条形的高度与这个省份某个数值的排名成正比。我们选择通过排名而不是具体的数值(如GDP)进行可视化是因为不同属性间的数值差异可能很大。例如GDP的数值几乎都在万或者十万的量级,而PM2.5的年平均浓度都在100以内。为了在可视化中较好的体现出每个省份各种属性所占的“比重”,以及避免某些省份在某个属性的数值过高而导致其他省份的差异难以呈现,所以我们选择了按照各个属性的排名进行可视化。

    从这样的图中可以看出一个地区包括了经济(人均GDP)、社会(人口密度)、环境(PM2.5年平均浓度)和文化产业(旅游收入)的整体社会发展水平。其中,北京、江苏、上海三地位列前三,而西藏、甘肃两地的发展则比较滞后。

    除此以外,通过比较各个颜色在一个省份条形图中所占的比例,也可以看出一些特征。例如,条形图高度接近的广东和辽宁,他们各项指数比例差异主要体现在广东的旅游收入(绿色)较高,人口较多(红色),而辽宁的PM2.5年平均浓度(灰色)占了更大的比例。这一现象体现出了辽宁是以高污染的重工业为主的发展模式,而广东的发展模式则更加的“环境友好”。

    Ø  【结语】

    通过上述的说明以及截图,我们可以发现这些数据都被直观地呈现出来。到目前为止,我们已经生活在大数据的包围之中,然而大量的数据难以被人们所理解,想要迅速地提取数据中的重要信息、洞悉数据中所蕴含的趋势,数据可视化必不可少。

    这次的作业是我们第一次对数据可视化进行较为系统的学习和使用,让我们习得了很多新的技能,也让我们更清楚的认识到数据可视化的强大之处。当我们所写的代码将大量的数据绘制成漂亮的图像时,我们觉得数据可视化不仅仅是一门科学,也是一门艺术。

    展开全文
  • 天津理工大学研究生作业, 王晓晔老师的数据挖掘课程,使用数据绘制直方图、盒状图等。 含输出结果。 欢迎参考,请勿照抄。 抄也去掉作者信息再交作业吧。
  • 答:离群点是指与大部分其它对象不同的对象,在数据的散布图中,它们远离其它数据点,其属性值显著地偏离期望的或常见的属性值。 (1) 因为离群点可能是度量或执行错误所导致的,例如相对少的离群点可能扭曲一组值的...

    6.1

    为什么离群点挖掘是重要的?

    答:离群点是指与大部分其它对象不同的对象,在数据的散布图中,它们远离其它数据点,其属性值显著地偏离期望的或常见的属性值。
    (1) 因为离群点可能是度量或执行错误所导致的,例如相对少的离群点可能扭曲一组值的均值和标准差,或者改变聚类算法产生的簇的集合。
    (2) 因为离群点本身可能是非常重要的,隐藏着重要的信息,在欺诈检测,入侵检测等方面有着广泛的应用。所以离群点挖掘是非常重要的。

    6.3

    许多用于离群点检测的统计检验方法是在这样一种环境下开发的:数百个观测就是一个大数据集。我们考虑这种方法的局限性:
    (a) 如果一个值与平均值的距离超过标准差的三倍,则检测称它为离群点。对于1000000个值的集合,根据该检验,有离群点的可能性有多大?(假定正态分布);
    (b) 一种方法称离群点是具有不寻常低概率的对象。处理大型数据集时,该方法需要调整吗?如果需要,如何调整?

    答:
    (a) 如果指的是单面的点的距离超过标准差的3倍,那么概率就是0.00135,则有1350个离群点;如果指的是两面的点的距离超过标准差的3倍,那么概率就是0.0027,则有2700个离群点。
    (b) 具有百万个对象的数据集中,有成千上万个离群点,我们可以接受它们作为离群点或者降低临界值用以减少离群点。

    3σ法则:  
    在正态分布中σ代表标准差,μ代表均值x=μ即为图像的对称轴
    三σ原则即为
    数值分布在(μ—σ,μ+σ)中的概率为0.6827
    数值分布在(μ—2σ,μ+2σ)中的概率为0.9545
    数值分布在(μ—3σ,μ+3σ)中的概率为0.9973
    可以认为,Y 的取值几乎全部集中在(μ—3σ,μ+3σ)]区间内,
    超出这个范围的可能性仅占不到0.3%
    在这里插入图片描述
    在这里插入图片描述

    6.7

    一个数据分析者使用一种离群点检测算法发现了一个离群子集。出于好奇,该分析者对这个离群子集使用离群点检测算法。
    (a) 讨论本章介绍的每种离群点检测技术的行为。(如果可能,使用实际数据和算法来做);
    (b) 当用于离群点对象的集合时,你认为离群点检测算法将做何反应?

    答:
    (a) 在某些情况下,以统计学为基础的异常检测技术,在离群子集上使用这将是无效的使用技术,因为这种检测方法的假设将不再成立。对于那些依赖于模型的方法也是如此。以邻近点为基础或者以密度为基础的方法主要取决于特定的技术。如果保留原来的参数,使用距离或密度的绝对阈值的方法会将异常归类为一个异常对象的集合。其他相关方法会将大部分异常归类为普通点或者将一部分归类为异常。
    (b) 一个对象是否异常取决于整个对象的集合。因此,期望一种异常检测技术能够辨别一个异常集合,就像原始集合中并不存在这样一个异常集合,这是不合理的。

    展开全文
  • 数据挖掘作业(一):Kmeans+PAM

    千次阅读 2020-07-23 00:55:08
    编程实现K-means算法对waveform数据进行聚类,并对无噪声得图像进行分割; 编程实现PAM算法对有20%高斯噪声的waveform数据聚类,并对有噪声得图像进行分割。 算法描述 (1) K-means (2) PAM 结果展示 1.K-...
    • 题目描述
    1. 编程实现K-means算法对waveform数据进行聚类,并对无噪声得图像进行分割;
    2. 编程实现PAM算法对有20%高斯噪声的waveform数据聚类,并对有噪声得图像进行分割。

     

    • 算法描述

    (1) K -means

          

    (2) PAM

          

    • 结果展示

    1.K-means算法对waveform数据进行聚类(选取数据集的第7维和第10维作为x轴y轴进行可视化)

    2.K-means算法对有20%高斯噪声的waveform数据进行聚类(选取数据集的第7维和第10维作为x轴y轴进行可视化)

    3.PAM算法对waveform数据进行聚类(选取数据集的第7维和第10维作为x轴y轴进行可视化)

    4.PAM算法对有20%高斯噪声的waveform数据进行聚类(选取数据集的第7维和第10维作为x轴y轴进行可视化)

    • 图像分割部分

                                     

                  无噪声原图                                              有噪声原图

     

    5.K-means算法对无噪声得图像进行分割

    6.K-means算法对有噪声得图像进行分割

    7.PAM算法对无噪声得图像进行分割

    8.PAM算法对有噪声得图像进行分割

    • 实验代码
    • # -*- coding:utf-8 -*-
      from numpy import *
      import pandas as pd
      import matplotlib.pyplot as plt
      import random
      import numpy as np
      from PIL import Image
      
      
      def image_gauss_noise(image):  # 图片添加高斯噪声
          img = image.astype(np.int16)  # 此步是为了避免像素点小于0,大于255的情况
          for i in range(img.shape[0]):
              for j in range(img.shape[1]):
                      img[i, j] += random.gauss(mu=0, sigma=10)
          img[img > 255] = 255
          img[img < 0] = 0
          img = img.astype(np.uint8)
          return img
      
      
      def data_gauss_noise(data):  # 10%数据添加高斯噪声
          m, n = shape(data)
          msample = set((m * np.random.rand(int(m * 0.2))).astype(int))
          for i in msample:
              for j in range(n):
                  data[i, j] += random.gauss(mu=0, sigma=0.1)
          return data
      
      
      # 计算两个向量的距离,欧式距离
      def disMea(vecA, vecB):
          return sqrt(sum(power(vecA - vecB, 2)))
      
      
      # 随机选择中心点
      def createCent(dataSet, k):
          n = shape(dataSet)[1]
          centriods = mat(zeros((k, n)))
          for j in range(n):
              minJ = min(dataSet[:, j])
              rangeJ = float(max(array(dataSet)[:, j]) - minJ)
              centriods[:, j] = minJ + rangeJ * np.random.rand(k, 1)
          return centriods
      
      
      def kmeans(dataSet, k):
          m = shape(dataSet)[0]
          clusterA = mat(zeros((m, 1)))
          centriods = createCent(dataSet, k)
          clusterC = True
          itr = 10
          while clusterC and itr:
              clusterC = False
              for i in range(m):
                  minDist = inf
                  minIndex = -1
                  for j in range(k):
                      distJI = disMea(centriods[j, :], dataSet[i, :])
                      if distJI < minDist:
                          minDist = distJI;
                          minIndex = j
                  if clusterA[i, 0] != minIndex:
                      clusterC = True
      
                  clusterA[i, 0] = int(minIndex)
      
              for cent in range(k):
                  ptsInClust = dataSet[nonzero(clusterA[:, 0].A == cent)[0]]  # get all the point in this cluster
                  centriods[cent, :] = mean(ptsInClust, axis=0)  # assign centroid to mean
              #         print(itr)
              itr -= 1
          return centriods, clusterA
      
      
      def show1(dataSet, k, centriods, clusterA, count):
          plt.figure()
          m, n = shape(dataSet)
          mark = ['or', 'ob', 'og', 'ok', '^r', '+r', 'sr', 'dr', '<r', 'pr']
          for i in range(m):
              markIndex = int(clusterA[i, 0])
              plt.plot(dataSet[i, 6], dataSet[i, 9], mark[markIndex])
      
          #     mark = ['Dr', 'Db', 'Dg', 'Dk', '^b', '+b', 'sb', 'db', '<b', 'pb']
          #     for i in range(k):
          #         plt.plot(centriods[i, showindex[6]], centriods[i, showindex[9]], mark[i], markersize=12)
          plt.savefig("Figure_"+str(count)+".png")
      
      
      def pearson_distance(vector1, vector2):
          from scipy.spatial.distance import pdist
          X = vstack([vector1, vector2])
          return pdist(X)
      
      
      def totalcost(blogwords, medoids_idx):
          distances_cache = { }
          size = shape(blogwords)[0]
          total_cost = 0.0
          medoids = { }
          for idx in medoids_idx:
              medoids[idx] = []
          for i in range(size):
              choice = None
              min_cost = inf
              for m in medoids:
                  tmp = distances_cache.get((m, i), None)
                  if tmp == None:
                      tmp = pearson_distance(blogwords[m], blogwords[i])
                      distances_cache[(m, i)] = tmp
                  if tmp < min_cost:
                      choice = m
                      min_cost = tmp
              medoids[choice].append(i)
              total_cost += min_cost
          return total_cost, medoids
      
      
      def PAM(dataSet, k):
          m, n = shape(dataSet)  # 数据集的行
          iter_count = 0
          # 随机选取K个聚类中心
          CenterIndex = random.sample([i for i in range(m)], k)
          # 计算初始的代价和聚类结果
          pre_cost, medoids = totalcost(dataSet, CenterIndex)
          current_cost = inf
          best_choice = []
          best_res = { }
          itr = 5
          while itr:
              # 遍历所有中心点
              for m in medoids:
                  # 逐个选取中心点的簇中的数据,进行替代计算
                  for item in medoids[m]:
                      # 取的点不是中心点才计算
                      if item != m:
                          #                     print("now replace is %s" % item)
                          # 获取中心点m在类簇中的下标
                          #                     print("In for CenterIndex is %s" % CenterIndex)
                          idx = CenterIndex.index(m)
                          #                     print("now will be replaced index is %s" % idx)
                          # 临时记录该数据,因为要被替换进行计算
                          swap_temp = CenterIndex[idx]
                          # 进行替换
                          CenterIndex[idx] = item
                          # 替换后的代价和类簇
                          tmp, medoids_ = totalcost(dataSet, CenterIndex)
                          # 如果代价更小,那么就替换
                          if tmp < current_cost:
                              # 进行替换,中心点的修改
                              best_choice = list(CenterIndex)
                              # 类簇的修改
                              best_res = dict(medoids_)
                              # 代价的修改
                              current_cost = tmp
                          # 将中心点进行复原,重复上面的操作直到所有的非中心点数据计算完毕才选择一个最小的,而不是选择目前算的更小值
                          CenterIndex[idx] = swap_temp
              # 若果当前计算的最好的类簇的中心和前一次的中心是一样的,那么认为趋于稳定,结束计算
              if best_choice == CenterIndex:
                  break
              # 否则那么更新,重复上面的步骤
              if current_cost <= pre_cost:
                  pre_cost = current_cost
                  medoids = best_res
                  CenterIndex = best_choice
              itr -= 1
              print(itr)
          # 返回最小代价,中心点,划分的聚类结果
          # current_cost, best_choice, best_res
          m, n = shape(dataSet)
          centriods = mat(zeros((k, n)))
          for i in range(k):
              centriods[i, :] = dataSet[best_choice[i], :]
          clusterA = mat(zeros((m, 1)))
          n = 0
          for i in list(best_res.keys()):
              for j in best_res[i]:
                  clusterA[j, 0] = n
              n += 1
          return centriods, clusterA
      
      
      
      def fun1(count):  # waveform + kmeans
          dataset = pd.read_csv('waveform.csv',header=None)
          data = mat(dataset)[:,1:22]
          myCentroids, clustAssing = kmeans(data, 3)
          show1(data, 3, myCentroids, clustAssing, count)
      
      def fun2(count):  # gauss_noise + waveform + kmeans
          dataset = pd.read_csv('waveform.csv',header=None)
          data = mat(dataset)[:,1:22]
          data = data_gauss_noise(data)
          myCentroids, clustAssing = kmeans(data, 3)
          show1(data, 3, myCentroids, clustAssing, count)
      
      def fun3(count):  # lena + kmeans
          q = Image.open('lena.jpg')
          q = q.convert('L')
          q.save("lena_1.png")
          m, n = q.size
          q1 = array(q)
          q1 = q1.reshape((m * n, 1))
          k = 3
          Centroids, clustAssing = kmeans(q1, k)
          y_new = array(clustAssing).reshape((n, m)).astype(int16)
          pic_new = Image.new("L", (m, n))
          for i in range(m):
              for j in range(n):
                  pic_new.putpixel((i, j), tuple([int(x) for x in Centroids[y_new[j][i]]]))
          pic_new.save("Figure_"+str(count)+".png")
      
      
      def fun4(count):  # gauss_noise + lena + kmeans
          q = Image.open('lena.jpg')
          q = q.convert('L')
          gauss_img = image_gauss_noise(np.array(q))
          q = Image.fromarray(gauss_img)
          q.save("lena_2.png")
          m, n = q.size
          q1 = array(q)
          q1 = q1.reshape((m * n, 1))
          k = 3
          Centroids, clustAssing = kmeans(q1, k)
          y_new = array(clustAssing).reshape((n, m)).astype(int16)
          pic_new = Image.new("L", (m, n))
          for i in range(m):
              for j in range(n):
                  pic_new.putpixel((i, j), tuple([int(x) for x in Centroids[y_new[j][i]]]))
          pic_new.save("Figure_"+str(count)+".png")
      
      
      def fun5(count):  # waveform + kmeans
          dataset = pd.read_csv('waveform.csv', header=None)
          data = mat(dataset)[:, 1:22]
          myCentroids, clustAssing = PAM(data, 3)
          show1(data, 3, myCentroids, clustAssing, count)
      
      
      def fun6(count):  # gauss_noise + waveform + kmeans
          dataset = pd.read_csv('waveform.csv', header=None)
          data = mat(dataset)[:, 1:22]
          data = data_gauss_noise(data)
          myCentroids, clustAssing = PAM(data, 3)
          show1(data, 3, myCentroids, clustAssing, count)
      
      
      def fun7(count):  # lena + kmeans
          q = Image.open('lena.jpg')
          q = q.convert('L')
          m, n = q.size
          q1 = array(q)
          q1 = q1.reshape((m * n, 1))
          k = 3
          Centroids, clustAssing = PAM(q1, k)
          y_new = array(clustAssing).reshape((n, m)).astype(int16)
          pic_new = Image.new("L", (m, n))
          for i in range(m):
              for j in range(n):
                  pic_new.putpixel((i, j), tuple([int(x) for x in Centroids[y_new[j][i]]]))
          pic_new.save("Figure_"+str(count)+".png")
      
      
      def fun8(count):  # gauss_noise + lena + kmeans
          q = Image.open('lena.jpg')
          q = q.convert('L')
          gauss_img = image_gauss_noise(np.array(q))
          q = Image.fromarray(gauss_img)
          m, n = q.size
          q1 = array(q)
          q1 = q1.reshape((m * n, 1))
          k = 3
          Centroids, clustAssing = PAM(q1, k)
          y_new = array(clustAssing).reshape((n, m)).astype(int16)
          pic_new = Image.new("L", (m, n))
          for i in range(m):
              for j in range(n):
                  pic_new.putpixel((i, j), tuple([int(x) for x in Centroids[y_new[j][i]]]))
          pic_new.save("Figure_"+str(count)+".png")
      
      
      if '__main__' == __name__:
          fun1(1)
          fun2(2)
          fun3(3)
          fun4(4)
          fun5(5)
          fun6(6)
          fun7(7)
          fun8(8)

       

    展开全文
  • 数据挖掘作业

    2019-03-26 22:20:26
    一条线(y=x)可画到图中+以增加图像的信息。落在该线以上的y 轴上显示的值的分布比x 轴的相应的等同分位数对应的值的分布高。反之,对落点表示在在该线以下的点则低。 分位图:显示给定属性的所有数据,而且绘制了...
  • 中山大学软件工程数据挖掘第三次作业 github地址:https://github.com/linjiafengyang/DataMining 主成分分析(Principal Component Analysis,PCA) 请从课程网站或此链接下载Yale人脸数据集进行降维。通过...
  • 数据挖掘课后作业

    2020-07-06 07:58:42
    数据挖掘课后作业 文章目录数据挖掘课后作业第一章一.单选题*(共4题,40.0分)*二.多选题*(共3题,30.0分)*三.填空题*(共3题,30.0分)*第二章一.单选题*(共6题,60.0分)*二.填空题*(共4题,40.0分)*第三次一....
  • 这是《Python数据挖掘课程》系列文章,前面很多文章都讲解了分类、聚类算法,这篇文章主要讲解SVM分类算法,同时讲解如何读取TXT文件数据并进行数据分析及评价的过程。 文章比较基础,希望对你有所帮助,提供些思路...
  • 数据挖掘算法及实例

    千次阅读 2019-09-02 15:58:09
    一般来说,数据挖掘的算法包含四种类型,即分类、预测、聚类、关联。前两种属于有监督学习,后两种属于无监督学习,属于描述性的模式识别和发现。有监督学习 有监督的学习,即存在目标变量,需要探索特征变量和目标...
  • 这是《Python数据挖掘课程》系列文章,前面很多文章都讲解了分类、聚类算法,而这篇文章主要讲解如何调用SnowNLP库实现情感分析,处理的对象是豆瓣《肖申克救赎》的评论文本。文章比较基础,希望对你有所帮助,提供...
  • 这篇文章直接给出上次关于Kmeans聚类的篮球远动员数据分析...希望这篇文章对你有所帮助,尤其是刚刚接触数据挖掘以及大数据的同学,同时准备尝试以案例为主的方式进行讲解。如果文章中存在不足或错误的地方,还请海涵~
  • 数据挖掘作业FCM算法

    2021-04-15 18:39:40
    <%% 清空环境变量 clear; clc; close all; %% 初始化参数 data = rand(400, 2);...plot(data(:, 1), data(:, 2), ...title ‘样本数据’; K = 4; % 分类个数 maxgen = 100; % 最大迭代次数 alpha = 3; % 指数的次幂 t
  • 作者介绍 Toby,持牌照金融公司担任模型验证专家,国内最大医药数据中心数据挖掘部门负责人!和重庆儿科医院,中科院教授,赛柏蓝保持慢病数据挖掘项目合作!管理过欧美日中印巴西等国外药典数据库,马丁代尔数据库,...
  • 数据挖掘竞赛-优胜解决方案实战

    千人学习 2019-05-10 02:40:30
    进入学习群,获取唐宇迪老师答疑 数据科学-优胜解决方案实战课程以真实企业数据集与任务需求为背景,结合竞赛优胜解决方案,从实战角度出发,一步步讲解如何应用机器学习算法与数据挖掘技巧在实际问题中。...
  • 1.关键字:人工智能,我们可以搜索得到自然语言处理研究员、图像算法工程师 2.某人投递了互联网后台的职位,随后他被推荐了后台工程师、JAVA工程师、C++工程师等职位 在1中,因为自然语言处理研究员与图像算法工程师...
  • 从零开始学习机器学习视频教程

    万人学习 2017-12-04 22:38:30
    本门课程将系统入门机器学习,课程内容不光是对算法的学习,还包括诸如算法的评价,方法的选择,模型的优化,参数的调整,数据的整理,等等一系列工作。让大家对机器学习算法有个全面的了解,并应用到你的实际项目中...
  • 人工智能-必备数学基础视频教程

    千人学习 2017-11-09 12:43:05
    一套完整的数学基础课合集,解决与人工智能相关的所有必备数学基础。AI人工智能之数学基础视频培训课程概况:讲解人工智能、机器学习和深度学习过程中用到的数学知识。包括线性代数、微积分、信息论等等人工智能相关...
  • 数据挖掘提取文献文本信息和图片信息 本文来源于日本研究人员的一篇论文《実験的熱電特性のデータベース化に向けた論文データ収集 Web システム Starry data の開発》,这篇论文是日语,感谢金山词霸,让我第一次读...
  • Python入门视频教程

    万人学习 2017-02-13 23:30:11
    Python入门基础教程:python教程旨在掌握python开发的入门基础用法与其核心操作,便于大家在短时间内可以使用python进行后续的工作与学习。课程内容包括Python环境搭建(Anaconda方式)、变量、List基础结构、List...
  • Python数据挖掘实战

    千人学习 2017-12-15 12:04:44
    购买课程后,可扫码进入学习群,获取唐宇迪老师答疑 Python数据挖掘技术系列视频培训教程基于真实数据集进行案例实战,使用Python数据科学库从数据预处理开始一步步进行数据建模。对于每个案例首先进行流程解读与...
  • 数据挖掘之逻辑回归

    千次阅读 2019-02-28 16:25:57
    入行数据挖掘这一行1年不到,自己深知还是一个菜鸟。最近学习了一些数据挖掘的知识,一直想找个机会把学到东西保存下来,但是由于我的惰性,这个工作一直在拖,所以最近趁着项目不忙的时候,把学到一些东西记录下来...
  • 数据挖掘领域十大经典算法之—C4.5算法(超详细附代码) 数据挖掘领域十大经典算法之—K-Means算法(超详细附代码) 数据挖掘领域十大经典算法之—Apriori算法 数据挖掘领域十大经典算法之—EM算法 数据挖掘...
  • 数据挖掘领域十大经典算法之—C4.5算法(超详细附代码) 数据挖掘领域十大经典算法之—K-Means算法(超详细附代码) 数据挖掘领域十大经典算法之—SVM算法(超详细附代码) 数据挖掘领域十大经典算法之—Apriori...
  • 主要空间数据挖掘方法

    千次阅读 2017-12-15 10:37:34
    最近老是布置了空间数据挖掘作业,收集网上资料,得以拜读此篇博文,特别好,受益匪浅,转发共享
  • 数据挖掘 K-means聚类实现实例

    千次阅读 2018-10-18 17:58:42
    这学期正好上了数据挖掘这门课,本周的作业是实现 K-means的两个实例,分别是实现对waveform.data文件数据的聚类分析,还有一个就是对图像的 K-means 聚类分割。下面我分别对两个例子进行说明。 首先先来介绍一下...
  • 来源:腾讯广告算法大赛(ID:TSA-Contest)作者简介陈成龙,2015年博士毕业于中山大学,研究图像篡改检测,在图像领域顶级期刊IEEE TIP上发表论文2篇,Kaggle...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 5,113
精华内容 2,045
关键字:

图像数据挖掘作业