精华内容
下载资源
问答
  • UCI机器学习数据库

    2015-11-09 21:24:00
    UCI机器学习库主要是收集的机器学习领域的一些相关数据集和数据生成器,可以用来做一些基本的实验。存档是创建为大卫阿哈和加州大学欧文分校研究员在1987年研究生FTP文件。自那时以来,它已被广泛用于学生,教育工作...

    UC Irvine Machine Learning Repository:UCI指的是加州大学欧文分校。UCI机器学习库主要是收集的机器学习领域的一些相关数据集和数据生成器,可以用来做一些基本的实验。存档是创建为大卫阿哈和加州大学欧文分校研究员在1987年研究生FTP文件。自那时以来,它已被广泛用于学生,教育工作者,和其他研究机器学习的研究者,作为一个数据来源。

    UCI数据集 的说明 告诉了读者 数据的属性和类别,用户可以用自己的数据挖掘方法去将 uci数据集的分类,将结果与数据说明的结果对比。说明自己算法的正确性。

    连接地址:http://archive.ics.uci.edu/ml/index.html。

    ===============================

    在看别人的论文时,别人使用的数据集会给出数据集的出处或下载地址(除非是很机密的数据,例如与国家安全有关)。如果你看的论文没有给出数据集的出处,请立即停止看这篇论文,并且停止看刊发这篇论文的期刊上的所有文章。因为可以断定这些文章质量很差。

    关于源代码,网上有很多公开源码的算法包,例如最为著名的Weka,MLC++等。Weka还在不断的更新其算法,下载地址:

    http://www.cs.waikato.ac.nz/ml/weka/

    很多的机器学习的经典算法都在里面。而且公布源程序,易于修改。

    如果作者没有公布源程序,可以到作者主页找找,也可以写信给作者要,一般论文开头都会有作者的email地址。写信的时候要注意要很有礼貌,否则作者,尤其是著名学者,很有可能不会理睬。如果算法简单,可以自己实现。

    关于论文的下载,如果能够访问电子图书馆是最好的,很多学校都买了IEEE, Elsevier, Kluwer等,上面的期刊都不错。有一些很好的期刊是免费的,像JAIR和JMLR,分别在:

    http://www.cs.washington.edu/research/jair/home.html

    http://www.jmlr.org/

    ====================================

    关于源代码,网上有很多公开源码的算法包,例如最为著名的Weka,MLC++等。Weka还在不断的更新其算法,下载地址:
    http://www.cs.waikato.ac.nz/ml/weka/
    UCI收集的机器学习数据集
    ftp://pami.sjtu.edu.cn
    http://www.ics.uci.edu/~mlearn/\\MLRepository.htm

    statlib
    http://liama.ia.ac.cn/SCILAB/scilabindexgb.htm
    http://lib.stat.cmu.edu/

    样本数据库
    http://kdd.ics.uci.edu/
    http://www.ics.uci.edu/~mlearn/MLRepository.html

    关于基金的数据挖掘的网站
    http://www.gotofund.com/index.asp

    http://lans.ece.utexas.edu/~strehl/

    reuters数据集
    http://www.research.att.com/~lewis/reuters21578.html

    各种数据集:
    http://kdd.ics.uci.edu/summary.data.type.html
    http://www.mlnet.org/cgi-bin/mlnetois.pl/?File=datasets.html
    http://lib.stat.cmu.edu/datasets/
    http://dctc.sjtu.edu.cn/adaptive/datasets/
    http://fimi.cs.helsinki.fi/data/
    http://www.almaden.ibm.com/software/quest/Resources/index.shtml
    http://miles.cnuce.cnr.it/~palmeri/datam/DCI/

    进行文本分类&WEB
    http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html

    http://www.w3.org/TR/WD-logfile-960221.html
    http://www.w3.org/Daemon/User/Config/Logging.html#AccessLog
    http://www.w3.org/1998/11/05/WC-workshop/Papers/bala2.html
    http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
    http://www.web-caching.com/traces-logs.html
    http://www-2.cs.cmu.edu/webkb
    http://www.cs.auc.dk/research/DP/tdb/TimeCenter/TimeCenterPublications/TR-75.pdf
    http://www.cs.cornell.edu/projects/kddcup/index.html

    时间序列数据的网址
    http://www.stat.wisc.edu/~reinsel/bjr-data/

    apriori算法的测试数据
    http://www.almaden.ibm.com/cs/quest/syndata.html

    数据生成器的链接
    http://www.cse.cuhk.edu.hk/~kdd/data_collection.html
    http://www.almaden.ibm.com/cs/quest/syndata.html

    关联:
    http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
    http://www.almaden.ibm.com/software/quest/Resources/datasets/syndata.html#assocSynData

    WEKA:
    http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
    1。A jarfile containing 37 classification problems, originally obtained from the UCI repository
    http://prdownloads.sourceforge.net/weka/datasets-UCI.jar
    2。A jarfile containing 37 regression problems, obtained from various sources
    http://prdownloads.sourceforge.net/weka/datasets-numeric.jar
    3。A jarfile containing 30 regression datasets collected by Luis Torgo
    http://prdownloads.sourceforge.net/weka/regression-datasets.jar

    癌症基因:
    http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi

    金融数据:
    http://lisp.vse.cz/pkdd99/Challenge/chall.htm

    kdnuggets 相关链接数据集(借花献佛了):
    http://www.kdnuggets.com/datasets/index.html
    另一个人提供的
    http://www.cs.toronto.edu/~roweis/data.html
    http://kdd.ics.uci.edu/summary.task.type.html
    http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/
    http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
    http://www.phys.uni.torun.pl/~duch/software.html
    在下面的网址可以找到reuters数据集
    http://www.research.att.com/~lewis/reuters21578.html

    以下网址上有各种数据集:
    http://kdd.ics.uci.edu/summary.data.type.html

    进行文本分类,还有一个数据集是可以用的,即rainbow的数据集
    http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html
    Download the Financial Data (~17.5M zipped file, ~67M unzipped data)
    Download the Medical Data (~2M zipped file, ~6M unzipped data)
    http://lisp.vse.cz/pkdd99/Challenge/chall.htm

    转载于:https://www.cnblogs.com/Evil-Rebe/p/4951195.html

    展开全文
  • UCI机器学习数据库使用说明 数据库不断更新至2010年,是所有学习人工智能都需要用到的数据库,是看文章、写论文、测试算法的必备工具。数据库种类涉及生活、工程、科学各个领域,记录数也是从少到多,最多达几十万条...
  • UCI机器学习数据库使用说明

    千次阅读 2013-11-24 22:16:23
    UCI机器学习数据库的网址: http://archive.ics.uci.edu/ml/ 数据库不断更新至2010年,是所有学习人工智能都需要用到的数据库,是看文章、写论文、测试算法的必备工具。数据库种类涉及生活、工程、科学各个领域,...

    UCI机器学习数据库的网址:      http://archive.ics.uci.edu/ml/

    数据库不断更新至2010年,是所有学习人工智能都需要用到的数据库,是看文章、写论文、测试算法的必备工具。数据库种类涉及生活、工程、科学各个领域,记录数也是从少到多,最多达几十万条。

    UCI数据可以使用matlab的dlmread或textread读取,不过,需要先将不是数字的类别用数字,比如1/2/3等替换,否则读入不了数值,当字符了。

    UCI数据库使用说明

    转自:http://www.aiseminar.cn/bbs/thread-37-1-1.html

    此目录包含数据集和相关领域知识(后面以简短的列表形式进行的注释),这些数据已经或能用于评价学习 算法

    每个数据文件 (*.data)包含以“属性-值”对形式描述的很多个体样本的记录。对应的*.info文件包含的大量的文档资料 。(有些文件_generate_ databases;他们不包含*.data文件。)作为数据集和领域知识的补充,在utilities目录里包含了一些在使用这一数据集时的有用资料。

    地址 http://www.ics.uci.edu/~mlearn/MLRepository.html ,这里的UCI数据集可以看作是通过web的远程拷贝。作为选择
    ,这些数据同样可以通过ftp获得,ftp://ftp.ics.uci.edu . 可是使用匿名登陆ftp。可以在pub/machine-learning-databases目录中找到。

    注意:
    UCI一直都在寻找可加入的新数据,这些数据将被写入incoming子目录中。希望您能贡献您的数据,并提供相应的文档。谢谢——贡献过程可以参考DOC-REQUIREMENTS文件。目前,多数数据使用下面的格式 :一个实例一行,没有空格,属性值之间使用逗号“,”隔开,并且缺少的值使用问号“?”表示。并请在做出您的贡献后提醒一下站点管理员:ml-repository@ics.uci.edu 

    下面以UCI中IRIS为例介绍一下数据集:

    ucidata/iris中有三个文件:
    Index
    iris.data
    iris.names

    index为文件夹目录,列出了本文件夹里的所有文件,如iris中index的内容如下:
    Index of iris
    18 Mar 1996      105 Index
    08 Mar 1993     4551 iris.data
    30 May 1989     2604 iris.names

    iris.data为iris数据文件,内容如下:
    5.1,3.5,1.4,0.2,Iris-setosa
    4.9,3.0,1.4,0.2,Iris-setosa
    4.7,3.2,1.3,0.2,Iris-setosa
    ……
    7.0,3.2,4.7,1.4,Iris-versicolor
    6.4,3.2,4.5,1.5,Iris-versicolor
    6.9,3.1,4.9,1.5,Iris-versicolor
    ……
    6.3,3.3,6.0,2.5,Iris-virginica
    5.8,2.7,5.1,1.9,Iris-virginica
    7.1,3.0,5.9,2.1,Iris-virginica
    ……
    如上,属性直接以逗号隔开,中间没有空格(5.1,3.5,1.4,0.2,),最后一列为本行属性对应的值,即决策属性Iris-setosa


    iris.names介绍了irir数据的一些相关信息,如数据标题、数据来源、以前使用情况、最近信息、实例数目、实例的属性等,如下所示部分:
    ……
    7. Attribute Information:
       1. sepal length in cm
       2. sepal width in cm
       3. petal length in cm
       4. petal width in cm
       5. class: 
          -- Iris Setosa
          -- Iris Versicolour
          -- Iris Virginica
    ……
    9. Class Distribution: 33.3% for each of 3 classes.

    本数据的使用实例请参考其他论文,或本站后面的内容。

    对应的英文有:

    This is the UCI Repository Of Machine Learning Databases and Domain Theories

    ============================================================================
      This is the UCI Repository Of Machine Learning Databases and Domain Theories
                                 4 December 1995
                  ftp.ics.uci.edu: pub/machine-learning-databases
          http://www.ics.uci.edu/~mlearn/MLRepository.html 
              Librarian: Patrick M. Murphy (ml-repository@ics.uci.edu )
                      111 databases and domain theories (36MB)
      ============================================================================
    This directory contains data sets and domain theories (the latter have been
    annotated as such in the following brief listing) that have been or can be
    used to evaluate learning algorithms. Each data file (*.data) contains
    individual records described in terms of attribute-value pairs.  The
    corresponding *.info file contains voluminous documentation.  (Some files
    _generate_ databases; they do not have *.data files.)
    In addition to data sets and domain theories, the "utilities/" directory
    contains utilities that you may find useful when using datasets in this
    repository.
    The contents of this repository can be viewed and remotely copied over
    the web.  The address is http://www.ics.uci.edu/~mlearn/MLRepository.html.   
    Alternatively, the contents of this repository can be remotely copied via 
    ftp to ftp.ics.uci.edu.  Enter "anonymous" for user id, and e-mail address 
    ([email=user@host]user@host[/email]) for password.  These databases can be found by executing 
    "cd pub/machine-learning-databases".
    Notes:
    1. We're always looking for addition al databases, which can be
        written to the sub-directory named "/incoming". Please send yours, with 
        documentation.  Thanks -- See DOC-REQUIREMENTS for suggested documentation 
        procedures. Presently, most databases have the following format: 1 
        instance per line, no spaces, commas separate attribute values, and 
        missing values are denoted by "?".  Also, please notify the site librarian 
        (ml-repository@ics.uci.edu ) after making a donation.
    2. Ivan Bratko requested that the databases he donated from the Ljubljana
        Oncology Institute (e.g., breast-cancer, lymphography, and primary-tumor)
        have restricted access. We are allowed to share them with academic
        institutions upon request. These databases (like several others) require
        providing proper citations be made in published articles that use them.
        Citation requirements are in each database's corresponding *.doc file.
        To access any of these databases, send email to ml-repository@ics.uci.edu .
        To aid you in deciding if you want any of these databases, the 
        documentation files are available.
    3. An archive server may now be used to recieve via e-mail files in this
        repository.  Installed on ics, it provides email access to files in
        our anonymous ftp/uucp area (~ftp).  If people have no other access to
        our archives, then they can send mail to:
    archive-server@ics.uci.edu 
        Commands to the server may be given in the body.  Some commands are:
    help
    send <archive> <file>
    find <archive> <string>
        The help command replies with a useful help message.
    If you publish material based on databases obtained from this repository,
    then, in your acknowledgements, please note the assistance you received by
    using this repository.  Thanks -- this will help others to obtain the same
    data sets and replicate your experiments.  We suggest the following pseudo-APA
    reference format for referring to this repository (LaTeX'd):
      Murphy,~P.~M., /& Aha,~D.~W. (1994). {/it UCI Repository of machine
      learning databases} [http://www.ics.uci.edu/~mlearn/MLRepository.html ]. 
      Irvine, CA: University of California, Department of Information and Computer 
      Science.
    Patrick M. Murphy (Repository Librarian)
         
    ----------------------------------------------------------------------
    Brief Overview of Databases and Domain Theories:
    Quick Listing:
    1. annealing (David Sterling and Wray Buntine)
    2. Artificial Characters Database & DT (donated by Attilio Giordana)
    3-4. audiology (Ray Bareiss and Bruce Porter, used in Protos)
        1. Original Version
        2. Standardized-Attribute Version of the Original.
    5. auto-mpg (from CMU StatLib library)
    6. autos (Jeff Schlimmer)
    7. badges (Haym Hirsh)
    8. balance-scale (Tim Hume)
    9. balloons (Michael Pazzani)
    10. breast-cancer (Ljubljana Institute of Ontcology, restricted access)
    11. breast-cancer-wisconsin (Wisconsin Breast Cancer D'base, Olvi Mangasarian)
       1. Original version
       2. Diagnostic data set
       3. Prognostic data set
    12. bridges (Yoram Reich)
    13-21. chess
       1. Partial generator of Quinlan's chess-end-game data (kr-vs-kn) (Schlimmer)
       2. Shapiros' endgame database (kr-vs-kp) (Rob Holte)
       3. king-rook-vs-king (Michael Bain, Arthur van Hoff)
       4-9. Six domain theories (Nick Flann)
    22. Bach Chorales (time-series) database (Darrell Conklin)
    23. Connect-4 Database (John Tromp)
    24-25. Credit Screening Database
       1. Japanese Credit Screening Data and domain theory (Chiharu Sano)
       2. Credit Card Application Approval Database (Ross Quinlan)
    26. Ein-Dor and Feldmesser's cpu-performance database (David Aha)
    27. Diabetes Data (Serdar Uckun, AI-M94)
    28. dgp-2 data generation program (Powell Benedict)
    29. Document Understanding (Donato Malerba)
    30. Nine small EBL domain theories and examples in sub-directory ebl
    31. Evlin Kinney's echocardiogram database (Steven Salzberg)
    32. flags (Richard Forsyth)
    33. function-finding (Cullen Schafer's 352 case studies)
    34. glass (Vina Spiehler)
    35. hayes-roth (from Hayes-Roth^2's paper)
    36-39. heart-disease (Robert Detrano)
    40. hepatitis (G. Gong)
    41. horse colic database (Mary McLeish & Matt Cecile)
    42. (Boston) Housing database (from CMU StatLib library)
    43. ICU data (Serdar Uckun, AIM-94)
    44. Image segmentation database (Carla Brodley)
    45. ionosphere information (Vince Sigillito) 
    46. iris (R.A. Fisher, 1936)
    47. isolet (Ron Cole and Mark Fanty's database donated by Tom Dietterich)
    48. kinship (J. Ross Quinlan)
    49. labor-negotiations (Stan Matwin)
    50-51. led-display-creator (from the CART book)
    52. lenses (Cendrowska's database donated by Benoit Julien)
    53. letter-recognition database (created and donated by David Slate)
    54. liver-disorders (BUPA Medical's database donated by Richard Forsyth)
    55. logic-theorist (Paul O'Rorke)
    56. lung cancer (Stefan Aeberhard)
    57. lymphography (Ljubjana Institute of Oncology, restricted access)
    58-59. mechanical-analysis (Francesco Bergadano)
      1. Original Mechanical Analysis Data Set
      2. PUMPS DATA SET
    60 mobile robots (donated by Klingspor, Morik and Rieger)
    61-64. molecular-biology 
         1. promoter sequences (Towell, Shavlik, & Noordewier, domain theory also)
         2. splice-junction sequences (Towell, Noordewier, & Shavlik, 
            domain theory also)
         3. protein secondary structure database (Qian and Sejnowski)
         4. protein secondary structure domain theory (Jude Shavlik & Rich Maclin)
    65. MONK's Problems (donated by Sebastian Thrun)
    66. Moral Reasoner Database (donated by James Wogulis)
    67. mushroom (Jeff Schlimmer)
    68. MUSK databases (2) (donated by Tom Dietterich)
    69. othello domain theory (Tom Fawcett)
    70. Page Blocks Classification (Donato Malerba)
    71. Pima Indians diabetes diagnoses (Vince Sigillito) 
    72. Postoperative Patient data (Jerzy W. Grzymala-Busse)
    73. Primary Tumor (Ljubjana Institute of Oncology, restricted access)
    74. Qualitative Structure Activity Relationships (QSARs) (Ross King)
    75. Quadraped Animals (John H. Gennari)
    76. Servo data (Ross Quinlan)
    77. shuttle-landing-control (Bojan Cestnik)
    78. solar flare (Gary Bradshaw)
    79-80. soybean (from Ryszard Michalski's groups)
    81. space shuttle databases (David Draper)
    82. spectrometer (Infra-Red Astronomy Satellite Project Database, John Stutz)
    83. Sponge Database (Iosune Uriz and Marta Domingo)
    84. Statlog Project databases (7) (from Ross King,...)
    85  Student Loan relational database (from Michael Pazzani)
    86. tic-tac-toe endgame database (Turing Institute, David W. Aha)
    87-97. thyroid-disease (Garavan Institute, J. Ross Quinlan; Stefan Aeberhard)
    98. trains database (David Aha & Eric Bloedorn)
    99-104. Undocumented databases: sub-directory undocumented
       1. Economic sanctions database (domain theory included, Mike Pazzani)
       2. Cloud cover images (Philippe Collard)
       3. DNA secondary structure (Qian and Sejnowski, donated by Vince Sigillito) 
       4. Nettalk data (Sejnowski and Rosenberg, taken from connectionist-bench)
       5. Sonar data (Gorman and Sejnowski, taken from connectionist-bench)
       6. Vowel data (Qian, Sejnowski and Turney, taken from connectionist-bench)
    105. university (Michael Lebowitz, donated by Steve Souders)
    106. voting-records (Jeff Schlimmer)
    107. water treatement plant data (donated by Javier Bejar and Ulises Cortes)
    108-109. Waveform domain (taken from CART book)
    110. Wine Recognition Database (donated by Stefan Aeberhard)
    111. Zoological database (Richard Forsyth)

    展开全文
  • 作者:Tirthajyoti Sarkar;翻译:王雨桐;校对:丁楠雅本文约2600字,建议阅读9分钟。本文将带你了解UCI数据库的Python API,通过实际案例拆解...
        

    作者:Tirthajyoti Sarkar;翻译:王雨桐;校对:丁楠雅

    本文2600字,建议阅读9分钟

    本文将带你了解UCI数据库的Python API,通过实际案例拆解并讲解代码。

     

    本文将介绍如何为UCI机器学习库引入一个简单直观的API。用户可以借此查看数据集描述,搜索感兴趣的数据集,甚至可以根据数据集大小或机器学习任务分类下载。

     

    介绍


    UCI机器学习库是机器学习领域的一个神器。对于初学者和进阶学习者来说,它就像一家商店。它将数据库、业务知识以及用于机器学习算法实证分析的数据生成器集中在一起。1987年,加州大学欧文分校的David Aha和他的学生以ftp档案的形式创建了该网站。从那时开始,全世界的学生、教育工作者和研究人员将其作为机器学习数据集的主要来源。作为文档影响的一个标志,它已被引用超过1000次,使其成为计算机科学中引用率最高的100篇“论文”之一。


    附UCI链接:

    http://archive.ics.uci.edu/ml/index.php

     

    640?wx_fmt=png


    相比之下,用户要操纵门户网站费时费力,因为感兴趣的数据集没有简单直观的API或下载链接,必须跳转多个页面才能转到目标数据所在的原始页面。此外,如果你对特定类型的机器学习任务(例如回归或分类)感兴趣并且想要下载与该任务相对应的所有数据集,很难通过简单的命令实现。

     

    我很高兴能为UCI ML网站引入一个简单直观的API,用户可以轻松查找数据集描述,搜索他们感兴趣的特定数据集,甚至可以按大小或机器学习任务分类下载数据集。

     

    从此处下载


    这是一个由MIT授权的Python 3.6开源代码库,它提供了函数和方法,以便用户通过交互方式使用UCI ML数据集。以下Github页面可以下载/复制/分离代码库。


    附Github:

    https://github.com/tirthajyoti/UCI-ML-API


    所需要的包


    运行此代码只需要以下三个广泛使用的Python包。为了便于安装这些支持包,setup.bash和setup.bat文件包含在我的repo中。只需在Linux / Windows shell中运行即可!


    • Pandas

    • Beautifulsoup 4

    • Requests

     

    如何运行?


    首先,确保你已连接到网络!然后,只需下载/克隆Github中的repo,确保安装了以上包。


    git clone https://github.com/tirthajyoti/UCI-ML-API.git 

    {your_local_directory}


    然后转到已克隆Git的your_local_directory并在终端上运行以下命令。


    python Main.py


    随后将打开一个菜单,允许你执行各种任务。菜单的屏幕截图如下:

     


    640?wx_fmt=png


    目前支持的特征和函数


    以下是目前应用的特征(即上图中1-9)


    1. 抓取整个网站以构建本地数据库,其中包括数据集名称,描述和URL。

    2. 抓取整个网站以构建本地数据库,其中包括数据集名称,大小和机器学习任务。

    3. 搜索并下载特定数据集。

    4. 下载前几个数据集。

    5. 显示所有数据集的名称。

    6. 显示所有数据集的简要描述。

    7. 搜索数据集的单行描述和网页链接(了解更多信息)。

    8. 根据数据集大小下载数据集。

    9. 根据与之关联的机器学习任务下载数据集。

     

    案例(搜索并下载某个数据集)


    例如,如果要下载著名的Iris数据集,只需从菜单中选择选项3,输入存储的本地数据库的名称(以便搜索更迅速)。 就可以下载Iris数据集并将其存储在名为“Iris”的文件夹中!


    640?wx_fmt=png

     

    案例(搜索包含关键词的数据集)


    如果选择选项7,将使用关键字进行搜索,得到名称与搜索字符串匹配的所有数据集(甚至部分)的简短摘要。你还可以获得每个结果的网页链接,以便根据需要进一步探索数据。 下面的屏幕截图是使用关键词Cancer进行搜索的结果。


    640?wx_fmt=png


    如果你想另辟蹊径

     

    如果你想避开这个简单的用户API,而使用基础函数,也是可行的。大致流程如下,首先导入必要的包。

     

    from UCI_ML_Functions import *import pandas as pd

     

    read_dataset_table()从url读取数据集并进一步处理以便后续的数据清洗和分类。


    url:

    https://archive.ics.uci.edu/ml/datasets.html


    clean_dataset_table()清洗原始数据集(数据框对象(DataFrame))并返回数据。处理后的数据删除了包含空缺值的观测。并且删除了“默认任务”列,该列用来显示与数据集关联的主机学习任务。

     

    build_local_table(filename=None, msg_flag=True)读取UCI ML网站并使用名称,大小,ML任务,数据类型等信息构建本地表。


    • filename :用户可以选择的文件名。如果未选择,则选择默认名称('UCI table.csv')

    • msg_flag:控制信息复杂度(verbosity)

     

    build_dataset_list():抓取UCI ML数据集页面的信息,并构建包含所有数据集信息的列表。

     

    build_dataset_dictionary():抓取UCI ML数据集页面的信息,并构建包含所有数据集名称和描述的字典(dictionary)。此外,还对应数据集生成了唯一标识符,下载器需要这个标识符字符串来下载数据文件。这种情况下,通用名称不起作用。

     

    build_full_dataframe():构建一个包含所有信息的数据框(DataFrame),包括用于下载数据的URL链接。

     

    build_local_database(filename=None, msg_flag=True):读取UCI ML网站并使用以下信息构建本地数据库:name,abstract,data page URL。

     

    • filename:可由用户选择的文件名。如果未选择,程序将选择默认名称('UCI database.csv')

    • msg_flag:控制信息复杂度(verbosity)

     

    return_abstract(name,local_database=None,msg_flag=False)通过搜索给定的名称,返回特定数据集的单行描述(以及更多信息的网页链接)。

     

    • local_database:本地存储的数据库名称(CSV文件),即在同一目录中,其中包含有关UCI ML repo上所有数据集的信息

    • msg_flag:控制信息复杂度(verbosity)

     

    describe_all_dataset(msg_flag=False)调用build_dataset_dictionary函数并显示所有数据集的描述。

     

    print_all_datasets_names(msg_flag=False)调用build_dataset_dictionary函数并显示所有数据集的名称。

     

    extract_url_dataset(dataset,msg_flag=False)给定数据集标识符,此函数提取实际原始数据所在页面的URL。

     


    download_dataset_url(url,directory,msg_flag=False,download_flag=True):从给定url中的链接下载所有文件。

     

    • msg_flag:控制信息复杂度(verbosity)

    • download_flag:默认为True。如果设置为False,则仅创建目录但不下载(用于测试目的)


    download_datasets(num=10,local_database=None,msg_flag=True,download_flag=True)下载数据集并将它们放在以数据集命名的本地目录中。默认情况下,仅下载前10个数据集。用户可以选择要下载的数据集数量。


    • msg_flag:控制信息复杂度(verbosity)

    • download_flag:默认为True。如果设置为False,则仅创建目录但不启动下载(用于测试目的)


    download_dataset_name(name,local_database=None,msg_flag=True,download_flag=True):根据下载指定名称的数据集。

     

    • local_database:本地存储的数据库名称(CSV文件),即在同一目录中包含有关UCI ML存储库中所有数据集的名称和URL信息

    • msg_flag:控制信息复杂度(verbosity)

    • download_flag:默认为True。如果设置为False,则仅创建目录但不启动下载(用于测试目的)

     

    download_datasets_size(size='Small',local_database=None,local_table=None,msg_flag=False,download_flag=True)下载满足'size'标准的所有数据集。

     

    • size:用户想要下载的数据集的大小。取值可以是以下任何一种:‘Small’, ‘Medium’, ‘Large’, ’Extra Large’。

    • local_database:本地存储的数据库名称(CSV文件),即在同一目录中包含有关UCI ML存储库中所有数据集的名称和URL信息。


    • local_table:本地存储的数据库名称(CSV文件),即在同一目录中包含关于UCI ML repo上所有数据集的特征信息,即样本数量以及数据集执行的机器学习任务类型。

    • msg_flag:控制信息复杂度(verbosity)。

    • download_flag:默认值为True。如果设置为False,则仅创建目录而不下载(用于测试目的)。

     

    download_datasets_task(task='Classification',local_database=None,local_table=None,msg_flag=False,download_flag=True)下载用户想要的所有符合ML任务标准的数据集。

     

    • task:用户想要下载数据集的机器学习任务。task取值可以是以下任何一种:'Classification', 'Recommender Systems', 'Regression', 'Other/Unknown', 'Clustering', 'Causal Discovery'

    • local_database:本地存储的数据库名称(CSV文件),即在同一目录中包含有关UCI ML存储库中所有数据集的名称和URL信息

    • local_table:本地存储的数据库名称(CSV文件),即在同一目录中包含关于UCI ML repo上所有数据集的特征信息,即样本数量以及数据集执行的机器学习任务类型

    • msg_flag:控制信息复杂度(verbosity)

    • download_flag:默认值为True。如果设置为False,则仅创建目录而不下载(用于测试目的)


    原文标题:

    Introducing a simple and intuitive Python API for UCI machine learning repository

    原文链接:

    https://www.codementor.io/tirthajyotisarkar/introducing-a-simple-and-intuitive-python-api-for-uci-machine-learning-repository-p8dfargnt

    译者简介:王雨桐,UIUC统计学在读硕士,本科统计专业,目前专注于Coding技能的提升。理论到应用的转换中,敬畏数据,持续进化。

    「完」


    转自:http://www.todayx.org/

    版权声明:本号内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请和我们联系。

    关联阅读

    原创系列文章:

    1:从0开始搭建自己的数据运营指标体系(概括篇)

    2 :从0开始搭建自己的数据运营指标体系(定位篇)

    3 :从0开始搭建自己的数据运营体系(业务理解篇)

    4 :数据指标的构建流程与逻辑

    5 :系列 :从数据指标到数据运营指标体系

    6:   实战 :为自己的公号搭建一个数据运营指标体系

    7:  从0开始搭建自己的数据运营指标体系(运营活动分析)

    数据运营 关联文章阅读:  

    运营入门,从0到1搭建数据分析知识体系    

    推荐 :数据分析师与运营协作的9个好习惯

    干货 :手把手教你搭建数据化用户运营体系

    推荐 :最用心的运营数据指标解读

    干货 : 如何构建数据运营指标体系

    从零开始,构建数据化运营体系

    干货 :解读产品、运营和数据三个基友关系

    干货 :从0到1搭建数据运营体系

    数据分析、数据产品 关联文章阅读:

    干货 :数据分析团队的搭建和思考

    关于用户画像那些事,看这一文章就够了

    数据分析师必需具备的10种分析思维。

    如何构建大数据层级体系,看这一文章就够了

    干货 : 聚焦于用户行为分析的数据产品

    80%的运营注定了打杂?因为你没有搭建出一套有效的用户运营体系

    从底层到应用,那些数据人的必备技能

    读懂用户运营体系:用户分层和分群

    做运营必须掌握的数据分析思维,你还敢说不会做数据分析

    合作请加qq:365242293  


    更多相关知识请回复:“ 月光宝盒 ”;

    数据分析(ID : ecshujufenxi )互联网科技与数据圈自己的微信,也是WeMedia自媒体联盟成员之一,WeMedia联盟覆盖5000万人群。

    640?wx_fmt=png

    展开全文
  • 作者:Tirthajyoti Sarkar翻译:王雨桐校对:丁楠雅本文约2600字,建议阅读9分钟。本文将带你了解UCI数据库的Python API,通过实际案例拆解并讲...
        

    640?wx_fmt=png

    作者:Tirthajyoti Sarkar

    翻译:王雨桐

    校对:丁楠雅

    本文2600字,建议阅读9分钟

    本文将带你了解UCI数据库的Python API,通过实际案例拆解并讲解代码。

     

    本文将介绍如何为UCI机器学习库引入一个简单直观的API。用户可以借此查看数据集描述,搜索感兴趣的数据集,甚至可以根据数据集大小或机器学习任务分类下载。

     

    介绍


    UCI机器学习库是机器学习领域的一个神器。对于初学者和进阶学习者来说,它就像一家商店。它将数据库、业务知识以及用于机器学习算法实证分析的数据生成器集中在一起。1987年,加州大学欧文分校的David Aha和他的学生以ftp档案的形式创建了该网站。从那时开始,全世界的学生、教育工作者和研究人员将其作为机器学习数据集的主要来源。作为文档影响的一个标志,它已被引用超过1000次,使其成为计算机科学中引用率最高的100篇“论文”之一。


    附UCI链接:

    http://archive.ics.uci.edu/ml/index.php

     

    640?wx_fmt=png


    相比之下,用户要操纵门户网站费时费力,因为感兴趣的数据集没有简单直观的API或下载链接,必须跳转多个页面才能转到目标数据所在的原始页面。此外,如果你对特定类型的机器学习任务(例如回归或分类)感兴趣并且想要下载与该任务相对应的所有数据集,很难通过简单的命令实现。

     

    我很高兴能为UCI ML网站引入一个简单直观的API,用户可以轻松查找数据集描述,搜索他们感兴趣的特定数据集,甚至可以按大小或机器学习任务分类下载数据集。

     

    从此处下载


    这是一个由MIT授权的Python 3.6开源代码库,它提供了函数和方法,以便用户通过交互方式使用UCI ML数据集。以下Github页面可以下载/复制/分离代码库。


    附Github:

    https://github.com/tirthajyoti/UCI-ML-API


    所需要的包


    运行此代码只需要以下三个广泛使用的Python包。为了便于安装这些支持包,setup.bash和setup.bat文件包含在我的repo中。只需在Linux / Windows shell中运行即可!


    • Pandas

    • Beautifulsoup 4

    • Requests

     

    如何运行?


    首先,确保你已连接到网络!然后,只需下载/克隆Github中的repo,确保安装了以上包。


    git clone https://github.com/tirthajyoti/UCI-ML-API.git

    {your_local_directory}


    然后转到已克隆Git的your_local_directory并在终端上运行以下命令。


    python Main.py


    随后将打开一个菜单,允许你执行各种任务。菜单的屏幕截图如下:

     

    640?wx_fmt=png


    目前支持的特征和函数


    以下是目前应用的特征(即上图中1-9)


    1. 抓取整个网站以构建本地数据库,其中包括数据集名称,描述和URL。

    2. 抓取整个网站以构建本地数据库,其中包括数据集名称,大小和机器学习任务。

    3. 搜索并下载特定数据集。

    4. 下载前几个数据集。

    5. 显示所有数据集的名称。

    6. 显示所有数据集的简要描述。

    7. 搜索数据集的单行描述和网页链接(了解更多信息)。

    8. 根据数据集大小下载数据集。

    9. 根据与之关联的机器学习任务下载数据集。

     

    案例(搜索并下载某个数据集)


    例如,如果要下载著名的Iris数据集,只需从菜单中选择选项3,输入存储的本地数据库的名称(以便搜索更迅速)。 就可以下载Iris数据集并将其存储在名为“Iris”的文件夹中!


    640?wx_fmt=png

     

    案例(搜索包含关键词的数据集)


    如果选择选项7,将使用关键字进行搜索,得到名称与搜索字符串匹配的所有数据集(甚至部分)的简短摘要。你还可以获得每个结果的网页链接,以便根据需要进一步探索数据。 下面的屏幕截图是使用关键词Cancer进行搜索的结果。


    640?wx_fmt=png


    如果你想另辟蹊径

     

    如果你想避开这个简单的用户API,而使用基础函数,也是可行的。大致流程如下,首先导入必要的包。

     

    from UCI_ML_Functions import *import pandas as pd

     

    read_dataset_table()从url读取数据集并进一步处理以便后续的数据清洗和分类。


    url:

    https://archive.ics.uci.edu/ml/datasets.html


    clean_dataset_table()清洗原始数据集(数据框对象(DataFrame))并返回数据。处理后的数据删除了包含空缺值的观测。并且删除了“默认任务”列,该列用来显示与数据集关联的主机学习任务。

     

    build_local_table(filename=None, msg_flag=True)读取UCI ML网站并使用名称,大小,ML任务,数据类型等信息构建本地表。


    • filename :用户可以选择的文件名。如果未选择,则选择默认名称('UCI table.csv')

    • msg_flag:控制信息复杂度(verbosity)

     

    build_dataset_list():抓取UCI ML数据集页面的信息,并构建包含所有数据集信息的列表。

     

    build_dataset_dictionary():抓取UCI ML数据集页面的信息,并构建包含所有数据集名称和描述的字典(dictionary)。此外,还对应数据集生成了唯一标识符,下载器需要这个标识符字符串来下载数据文件。这种情况下,通用名称不起作用。

     

    build_full_dataframe():构建一个包含所有信息的数据框(DataFrame),包括用于下载数据的URL链接。

     

    build_local_database(filename=None, msg_flag=True):读取UCI ML网站并使用以下信息构建本地数据库:name,abstract,data page URL。

     

    • filename:可由用户选择的文件名。如果未选择,程序将选择默认名称('UCI database.csv')

    • msg_flag:控制信息复杂度(verbosity)

     

    return_abstract(name,local_database=None,msg_flag=False)通过搜索给定的名称,返回特定数据集的单行描述(以及更多信息的网页链接)。

     

    • local_database:本地存储的数据库名称(CSV文件),即在同一目录中,其中包含有关UCI ML repo上所有数据集的信息

    • msg_flag:控制信息复杂度(verbosity)

     

    describe_all_dataset(msg_flag=False)调用build_dataset_dictionary函数并显示所有数据集的描述。

     

    print_all_datasets_names(msg_flag=False)调用build_dataset_dictionary函数并显示所有数据集的名称。

     

    extract_url_dataset(dataset,msg_flag=False)给定数据集标识符,此函数提取实际原始数据所在页面的URL。

     

    download_dataset_url(url,directory,msg_flag=False,download_flag=True):从给定url中的链接下载所有文件。

     

    • msg_flag:控制信息复杂度(verbosity)

    • download_flag:默认为True。如果设置为False,则仅创建目录但不下载(用于测试目的)


    download_datasets(num=10,local_database=None,msg_flag=True,download_flag=True)下载数据集并将它们放在以数据集命名的本地目录中。默认情况下,仅下载前10个数据集。用户可以选择要下载的数据集数量。


    • msg_flag:控制信息复杂度(verbosity)

    • download_flag:默认为True。如果设置为False,则仅创建目录但不启动下载(用于测试目的)


    download_dataset_name(name,local_database=None,msg_flag=True,download_flag=True):根据下载指定名称的数据集。

     

    • local_database:本地存储的数据库名称(CSV文件),即在同一目录中包含有关UCI ML存储库中所有数据集的名称和URL信息

    • msg_flag:控制信息复杂度(verbosity)

    • download_flag:默认为True。如果设置为False,则仅创建目录但不启动下载(用于测试目的)

     

    download_datasets_size(size='Small',local_database=None,local_table=None,msg_flag=False,download_flag=True)下载满足'size'标准的所有数据集。

     

    • size:用户想要下载的数据集的大小。取值可以是以下任何一种:‘Small’, ‘Medium’, ‘Large’, ’Extra Large’。

    • local_database:本地存储的数据库名称(CSV文件),即在同一目录中包含有关UCI ML存储库中所有数据集的名称和URL信息。

    • local_table:本地存储的数据库名称(CSV文件),即在同一目录中包含关于UCI ML repo上所有数据集的特征信息,即样本数量以及数据集执行的机器学习任务类型。

    • msg_flag:控制信息复杂度(verbosity)。

    • download_flag:默认值为True。如果设置为False,则仅创建目录而不下载(用于测试目的)。

     

    download_datasets_task(task='Classification',local_database=None,local_table=None,msg_flag=False,download_flag=True)下载用户想要的所有符合ML任务标准的数据集。

     

    • task:用户想要下载数据集的机器学习任务。task取值可以是以下任何一种:'Classification', 'Recommender Systems', 'Regression', 'Other/Unknown', 'Clustering', 'Causal Discovery'

    • local_database:本地存储的数据库名称(CSV文件),即在同一目录中包含有关UCI ML存储库中所有数据集的名称和URL信息

    • local_table:本地存储的数据库名称(CSV文件),即在同一目录中包含关于UCI ML repo上所有数据集的特征信息,即样本数量以及数据集执行的机器学习任务类型

    • msg_flag:控制信息复杂度(verbosity)

    • download_flag:默认值为True。如果设置为False,则仅创建目录而不下载(用于测试目的)


    原文标题:

    Introducing a simple and intuitive Python API for UCI machine learning repository

    原文链接:

    https://www.codementor.io/tirthajyotisarkar/introducing-a-simple-and-intuitive-python-api-for-uci-machine-learning-repository-p8dfargnt


    译者简介


    640?wx_fmt=png

    王雨桐,UIUC统计学在读硕士,本科统计专业,目前专注于Coding技能的提升。理论到应用的转换中,敬畏数据,持续进化。

    翻译组招募信息

    工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。

    你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。

    其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。


    点击文末“阅读原文”加入数据派团队~

    640?wx_fmt=png640?wx_fmt=jpeg

    点击“阅读原文”拥抱组织


    展开全文
  • 适用于聚类和分类测试用的数据集。
  • 机器学习UCI数据库

    2017-04-21 16:09:10
    里面包含了模式识别使用的常用的UCI经典数据,能够按照索引寻找对应的数据,如winData、IrisData等。
  • 机器学习UCI数据库说明

    万次阅读 2012-12-31 10:26:29
    数据库是加州大学欧文分校(UniversityofCaliforniaIrvine)提出的用于机器学习数据库,这个数据库目前共有187个数据集,其数目还在不断增加,UCI数据集是一个常用的标准测试数据集。   UCI上的...
  • 用于机器学习数据库--UCI数据库

    千次阅读 2015-03-28 10:58:37
    UCI数据库是加州大学欧文分校(University of CaliforniaIrvine)提出的用于机器学习数据库,这个数据库目前共有187个数据集,其数目还在不断增加,UCI数据集是一个常用的标准测试数据集。 UCI数据可以使用matlab...
  • 多层感知机(MLP)(三层)(UCI乳腺癌数据库)(k折交叉验证)(反向传递)(机器学习,神经网络)
  • 机器学习相关数据库

    千次阅读 2013-01-03 19:35:20
    UCI机器学习数据库。 AWS(亚马逊网络服务)公共数据集,提供了一个集中的资料库,可以无缝集成到基于AWS的云应用程序的公共数据集。 生物测定数据,在 虚拟筛选,生物测定数据,对化学信息学,J.由阿曼达Schierz...
  • 机器学习-UCI数据库

    千次阅读 2017-11-15 15:38:37
    UCI数据库是加州大学欧文分校(University of CaliforniaIrvine)提出的用于机器学习数据库 数据库地址:http://archive.ics.uci.edu/ml/datasets.html
  • 机器学习 免费数据库

    千次阅读 2013-08-30 10:48:28
    UCI机器学习数据库。AWS(亚马逊网络服务)公共数据集,提供了一个集中的资料库,可以无缝集成到基于AWS的云应用程序的公共数据集。生物测定数据,在 虚拟筛选,生物测定数据,对化学信息学,J.由阿曼达Schierz的,...
  • UCI机器学习数据库。 AWS(亚马逊网络服务)公共数据集,提供了一个集中的资料库,可以无缝集成到基于AWS的云应用程序的公共数据集。 生物测定数据,在虚拟筛选,生物测定数据,对化学信息学,J.由阿曼达Schierz的...
  • 资料库 KDD杯的中心,所有的数据,任务和结果。...UCI机器学习数据库。AWS(亚马逊网络服务)公共数据集,提供了一个集中的资料库,可以无缝集成到基于AWS的云应用程序的公共数据集。生物测定数据,
  • 资料库 KDD杯的中心,所有的数据,任务和结果。 UCI机器学习和知识发现研究中使用...UCI机器学习数据库。 AWS(亚马逊网络服务)公共数据集,提供了一个集中的资料库,可以无缝集成到基于AWS的云应用程序的公...
  • 机器学习数据库

    2018-07-11 14:56:32
    http://archive.ics.uci.edu/ml/datasets.html 点击打开链接
  • 2012年10月10日忙菇...UCI机器学习数据库。 AWS(亚马逊网络服务)公共数据集,提供了一个集中的资料库,可以无缝集成到基于AWS的云应用程序的公共数据集。 生物测定数据,在 虚拟筛选,生物测定数据,对
  • UCI机器学习数据库。AWS(亚马逊网络服务)公共数据集,提供了一个集中的资料库,可以无缝集成到基于AWS的云应用程序的公共数据集。生物测定数据,在 虚拟筛选,生物测定数据,对化学信息学,J.由阿曼达Schierz的,...

空空如也

空空如也

1 2 3 4 5 ... 9
收藏数 163
精华内容 65
关键字:

uci机器学习数据库