2019-07-04 12:24:08 vivian_ll 阅读数 350
  • Python-数据

    Python数据库编程视频教程,数据库是MySQL,讲解Python链接MySQL数据库,并对数据库进行增删改查操作。

    10871 人正在学习 去看看 尹成

一、数据准备:

全唐诗数据集https://github.com/todototry/AncientChinesePoemsDB
从郑州大学图书馆网站上爬取下来的全唐诗库,收录了唐代诗人2539人的诗作42863首,共计900卷。
该数据集格式为:每首诗一个txt文件,按照卷进行排序和命名。其中有一些为空白文件,总大小为5MB左右。
中华古诗数据集https://github.com/jackeyGao/chinese-poetry
唐宋两朝14000名古诗人,55000首唐诗,260000首宋词,用数据分析抽丝剥茧文化内涵。
该数据集格式为:每一千首诗词一个json文件,其中包含平仄、作者、诗句和题目。诗句均为繁体。

[
  {
    "strains": [
      "仄仄仄仄平仄仄,平平仄平○仄仄。", 
      "平平仄仄平仄平,仄仄平平?仄仄。"
    ], 
    "author": "宋太祖", 
    "paragraphs": [
      "欲出未出光辣達,千山萬山如火發。", 
      "須臾走向天上來,逐却殘星趕却月。"
    ], 
    "title": "日詩"
  }, 
  ...
]

二、全唐诗数据集处理

首先,将4万多个古诗词文件合并为一个大txt,每行一首诗。
为了去除空白文件,将文件读入集合后,将集合元素逐行写入txt中。
如果文件过多或过大,为防止内存溢出,可以使用os.path.getsize('./ks_accumulate.csv')判断文件是否为空,再逐个文件写入大txt。
分析发现部分诗句中含有括号,形如

先生自舞琴。(《三乐达节》)波上人如潘玉儿,掌中花似赵飞燕。(《采莲曲》,以上并见《乐书》)

部分诗句后含有多余文本,形如

弟子已攀桂,先生犹卧云。把得新诗草里论。枯井夜闻邻果落,废巢寒见别禽来。卷六百五十四

用正则表达式对这种文本进行处理,去除括号中的内容和诗句后多余内容。
其中还有少部分问题诗句,如包含多个句号的、有特殊符号的等等。

微官同侍苍龙阙,直谏偏推白马生。。
傩击鼓长笛,瘦鬼染面惟齿白。暗中拽茅鞭,。。倮足朱行戚戚。ń相顾笑声冲庭燎,桃弧射矢时独叫。
卷263_46【九日登高】严维诗家九日怜芳菊,迟客高斋瞰浙江。汉浦浪花摇素壁,西陵树色入秋窗。木奴向熟悬金实,桑落新开泻玉缸。四子醉时争讲德,笑论黄霸屈为邦。
五杂组,四豪客。往复还,阡与陌。不得已,长沙谪。__张荐五杂组,五辛盘。往复还,马上鞍。不得已,左降官。__李崿五杂组,甘咸醋。往复还,乌与兔。不得已,韶光度。__颜真卿五杂组,五色丝。往复还,回文诗。不得已,失喜期。__皎然

进一步分析发现,部分诗句不是以句号结尾的。为了后续任务分析,对感叹号结尾的替换为句号,对没有标点或者多个标点的,去除最后一句,令其句号或问号结尾。但这种语句不多,也可手动处理。

三径何寂寂,主人山上山。亭空檐月在,水落钓矶闲。药院鸡犬静,酒垆苔藓班。知君少机事,当待暮云还
弟兄俱已尽,松柏问何人。闻道茂陵山水好,碧溪流水有桃源。赤城峭壁无人到,丹灶芝田有鹤来。三千宫女露蛾眉,笑煮黄金日月迟。,
浮生共多故,聚宿喜君同。人息时闻磬,灯摇乍有风。霜阶疑水际,夜木似山中。一愿持如意,长来事远公。知

最后从全部诗中提取带有数字的诗句,去除含特殊符号的句子,并将多个句号替换为一个句号。

def MergeTxt(filepath,outfile):
    poemset = set()
    for parent, dirnames, filenames in os.walk(filepath):
        for filepath in filenames:
            txtPath = os.path.join(parent, filepath)
            f = open(txtPath)
            line = f.read()
            line = line.replace('!', '。')        # 将感叹号替换为句号
            line = '。'.join(line.split('。')[:-1])+'。'   # 令句子以最后一个句号结尾
            poem = re.sub("(.*?)", "", line)     # 去除括号里的内容
            poem = re.sub("。卷.*", "。", poem)    # 去除“卷六百五十四”这种
            poemset.add(poem)

    print(len(poemset))

    k = open(outfile, 'w', encoding='utf-8')
    for poem in poemset:
        if poem!='':
            k.write(poem+"\n")
    k.close()

    print("merge finished!")

def extractNumberPoemtry(inputfile,outfile):
    with open(inputfile,'r',encoding="utf-8") as f1, open(outfile,'w') as f2:
        for line in f1:
            if '_' in line:
                continue
            if re.match(".*[一二三四五六七八九十百千万亿].*",line):
                f2.write(line.replace('。。','。'))
  • f.read():每次读取整个文件,它通常将读取到底文件内容放到一个字符串变量中。
  • f.readlines():读取整个文件所有行,保存在一个列表(list)变量中,每行作为一个元素,但读取大文件会比较占内存。

注意
文件在close()之前只能读取一次,不能f.read()之后再f.readlines(),或f.readlines()f.read()之后再这样将输出为空。

三、中华古诗数据集处理

首先从json中提取诗词,合并为一个大txt,每行一首诗词。
这个数据集全部为繁体字,所以涉及到繁简转换,这里用到的工具是langconv.pyzh_wiki.py,只需要把这两个文件下载下来,保存到与代码同一目录下即可。工具放在我的GitHub里,地址见后文。
这个数据集同样有一些特殊字符,如{},“”,□等。

莽莽荒茨岸,回回乱石滩。雨寒收市早,风急泊舟难。{宀禹}县兵犹鬭,乾坤网正宽。慇懃嘱龙剑,莫久卧波澜。
遥泉滴滴度更迟,秋夜霜天入竹扉。明月自随山影去,清风长送白云归。(同前书卷六)-1033-。
云中古城郁嵯峨,塞上行吟麦秀歌。感时伤古今如此,报主怀恩奈老何!。
子瞻词里贬眉汉,鲁直诗中返哺僧。□□□□□□针,血写南山□□□。□□□□□□□,□□□□□来似。不曾□□□□□,□□□□□□□。
花榭香红烟景迷,满庭芳草绿萋萋,金铺闲掩绣帘底。YY紫燕一双娇语碎,翠屏十二晚峰齐,梦魂消散醉空闺。
金陵朱世英官长沙,或有画箕踞而坐者号大着肚。旧有赞颂皆鄙语,朱为题小诗其上以易之。其尾云“但将贮酒三千锺,莫话容卿数百辈。”馀爱其语有味,更作此诗以广其意。

处理方法类似:

# 合并同一个文件夹下多个txt
def MergeTxt(filepath,outfile):
    poemset = set()
    for parent, dirnames, filenames in os.walk(filepath):
        for filepath in filenames:
            txtPath = os.path.join(parent, filepath)
            with open(txtPath, encoding='utf-8') as f:
                s = json.load(f)
                for item in s:
                    sentence = ''.join(item["paragraphs"])
                    sentence = Converter('zh-hans').convert(sentence)   # 繁体转简体
                    poem = re.sub("{.*?}", "", sentence)                # 去除{}里的内容
                    poem = re.sub("(.*?)", "", poem)                  # 去除()里的内容
                    poem = re.sub("-.*?。", "", poem)                   # 去除“-143-。”这种内容
                    poem.replace("。。", "。")                           # 将两个句号替换为一个句号
                    poemset.add(poem)
    print(len(poemset))

    k = open(outfile, 'w', encoding='utf-8')
    for poem in poemset:
        if poem != '':
            k.write(poem + "\n")
    k.close()
    print("merge finished!")

# 提取出带数字的诗
def extractNumberPoemtry(inputfile,outfile):
    with open(inputfile,'r',encoding="utf-8") as f1, open(outfile,'w',encoding="utf-8") as f2:
        for line in f1:
            if '□' in line:
                continue
            if re.match(".*[一二三四五六七八九十百千万亿].*",line):
                f2.write(line.replace('。。', '。').replace('!。', '。').replace('!', '。').replace('Y', '').replace('。”。', '。').replace(':“',',').replace('”','').replace('“',','))

注意:replace如果放在MergeTxt()里,速度会慢,放在extractNumberPoemtry()里更快一些。

最后,将两个数据集中提取的带数字的古诗词合并去重即可。

# 把几个数据集的文本合起来
def mergefile(inputfile1,inputfile2,outfile):
    poemset = set()
    with open(inputfile1, 'r', encoding="utf-8") as f1, open(inputfile2, 'r', encoding="utf-8") as f2, open(outfile, 'w', encoding="utf-8") as f3:
        for line1 in f1:
            poemset.add(line1)
        for line2 in f2:
            poemset.add(line2)
        for line in poemset:
            f3.write(line)

注意,txt文件可能需要在文本编辑器里手动转成utf-8编码。

三、自找诗句

这部分为从百度知道等地方找的少部分诗句,需要看是否包含在合并数据集里,如果没有,则手动加入。

with open(mergefile, 'r', encoding="utf-8") as f1,open(finefile,'r',encoding="utf-8") as f2:
    forfindlines = f2.readlines()
    alllines = f1.read()
    print(type(alllines))
    for line in forfindlines:
        if ''.join(line.split('\n')[0]) not in alllines:
            print(''.join(line.split('\n')[0]))

最后得到的带数字的古诗词数据集约为十八万首。
处理脚本和繁简转换工具的全部代码在:https://github.com/vivianLL/PoetryWithNumber

2016-10-27 22:46:34 u011026329 阅读数 736
  • Python-数据

    Python数据库编程视频教程,数据库是MySQL,讲解Python链接MySQL数据库,并对数据库进行增删改查操作。

    10871 人正在学习 去看看 尹成

介绍

唐诗三百首网址:http://www.gushiwen.org/gushi/tangshi.aspx

  • 爬取诗词标题
  • 爬取诗词作者
  • 爬取诗词的网页地址
  • 根据诗的网页地址爬取诗的正文。

步骤

分析数据格式

诗的标题,作者,url的数据格式如下

如上图所示,所要提取的数据在<a>标签中,但是光靠<a>标签,不能确定这一行,

故需要借助<a>标签的父标签<div>来锁定<a>标签

诗的正文数据格式如下

根据<p>标签和其属性align即可确定诗的正文。

编写代码

# -*- coding: utf-8 -*-
import requests
from HTMLParser import HTMLParser
import re

def _attr(attrs,attrname):
    for attr in attrs:
        if attr[0] == attrname:
            return attr[1]
    return None

#解析诗的标题,作者,url
class PoemParser(HTMLParser):
    def __init__(self):
        HTMLParser.__init__(self)
        self.tangshi_list = []
        self.in_div = False
        self.in_a = False
        #行宫(元稹)
        self.pattern = re.compile(r'''(.+) #匹配标题 group(1)
                                        \(  #匹配作者左边的括号
                                        (.+) #匹配作者 group(2)
                                        \) #匹配作者右边的括号
                                    ''',re.VERBOSE)
        self.current_poem = {}

    def handle_starttag(self, tag, attrs):
        #找到数据所在的<div>标签
        if tag == 'div' and _attr(attrs,'class') == 'guwencont2':
            self.in_div = True

        #找到<div>标签下的<a>标签
        if self.in_div and tag == 'a':
            self.in_a = True
            self.current_poem['url'] = _attr(attrs,'href')

    def handle_endtag(self, tag):
        if tag == 'div':
            self.in_div = False

        if tag == 'a':
            self.in_a = False

    def handle_data(self, data):
        #找到查找的数据
        if self.in_a:
            print data
            m = self.pattern.match(data)
            if m:
                self.current_poem['title'] = m.group(1)
                self.current_poem['author'] = m.group(2)
                self.tangshi_list.append(self.current_poem)
                self.current_poem = {}

#解析诗的正文
class PoemContentParser(HTMLParser):
    def __init__(self):
        HTMLParser.__init__(self)
        self.content = []
        self.in_p = False

    def handle_starttag(self, tag, attrs):
        if tag == 'p' and _attr(attrs,'align') == 'center':
            self.in_p = True

    def handle_endtag(self, tag):
        if tag == 'p':
            self.in_p = False

    def handle_data(self, data):
        if self.in_p:
            self.content.append(data)


def retrive_tangshi_300():
    url = 'http://www.gushiwen.org/gushi/tangshi.aspx'
    r = requests.get(url)
    p = PoemParser()
    p.feed(r.content)
    return p.tangshi_list

#根据poem的url并把诗的正文爬取出来
def down_poem(poem):
    url = poem['url']
    r = requests.get(url)
    p = PoemContentParser()
    p.feed(r.content)
    poem['content'] = '\n'.join(p.content)

if __name__ == '__main__':
    l = retrive_tangshi_300()
    print 'total %d poems.' % len(l)
    for i in range(10):
    #print l[i]
    print ('标题:%(title)s\t作者:%(author)s\tURL:%(url)s' % (l[i]))

    #download all poem
    for i in range(len(l)):
        print '%d downloading poem from: %s' % (i,l[i]['url'])
        down_poem(l[i])
        print ('标题:%(title)s\t作者:%(author)s\tURL:%(url)s\n%(content)s' % (l[i]))
2019-02-19 11:13:24 Smile_Mr 阅读数 723
  • Python-数据

    Python数据库编程视频教程,数据库是MySQL,讲解Python链接MySQL数据库,并对数据库进行增删改查操作。

    10871 人正在学习 去看看 尹成

本章所讲内容:

1、5分钟快速了解爬虫概念

2、beautifulsoup 匹配原则

3、wordcloud 使用详情

实战:爬取中国唐诗宋词,体验文人雅士最常用的词语!

1、5分钟快速了解爬虫

爬虫(spider:网络蜘蛛):是一个用脚本代替浏览器请求服务器获取服务器资源的程序。

数据收集(数据分析、人工智能)

模拟操作(测试、数据采集)

接口操作(自动化)

爬虫的原理:

              说到底,我们的爬虫是模拟web请求,不论学习什么框架我们都需要对http协议的请求和响应有所了解:

             

     简单的了解一下这幅图。

2、beautifulsoup 匹配原则

        如果一个正则匹配稍有差池,那可能程序就处在永久的循环之中,而且有的小伙伴们也对写正则表达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫Beautiful Soup,有了它我们可以很方便地提取出HTML或XML标签中的内容,实在是方便,这一节就让我们一起来感受一下Beautiful Soup的强大吧。

         什么是Beautiful Soup?

    简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。

    官方解释如下:

     Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。

2.1 bs的安装

          环境介绍: pycharm 2017.2.3 + python 3.5.0

     bs的安装:pip install bs4

        首先必须要导入 bs4 库, 创建BeautifulSoup对象

  • from bs4 import BeautifulSoup as BS
    text = '''
    <html>
    <head>
        <meta = charset='UTF-8' >
        <title id =1 href = 'http://example.com/elsie' class = 'title'>Test</title>
    </head>
    <body>
       <div class = 'ok'>
           <div class = 'nice'>
               <p class = 'p'>
                   Hello World
               </p>
                <p class = 'e'>
                   风一般的男人
               </p>
           </div>
       </div>
    </body> 
    </html>
    '''
    soup = BS(text,"lxml")#前面是要解析的内容,后面是指定的解析器
    print(soup.prettify())#转换字符串
    print(type(soup.prettify()))
    print(type(soup))

    2.2.2  搜索文档树

find()和find_all()

find_all()方法搜索当前tag的所有tag子节点,并判断是否符合过滤器的条件。

find()find_all()的区别就是,find直接返回元素的一个结果,find_all返回元素列表

find_all( name , attrs , recursive , text , **kwargs )简介一下参数

name 参数可以查找所有名字为name的tag,字符串对象会被自动忽略掉;name参数可以传入字符串、正则表达式、列表、True、自定义的方法等但是各自代表的含义不一样。

字符串,在搜索方法中传入一个字符串参数,Beautiful Soup会查找与字符串完整匹配的内容。

print(soup.find('body'))
print(soup.find_all('body')

如果匹配成功将会匹配所有的tag

如果一个指定名字的参数不是搜索内置的一些参数名,搜索时会把该参数当作指定名字tag的属性来

搜索;例如id=1

如果包含一个名字为 id 的参数,Beautiful Soup会搜索每个tag的”id”属性;

如果传入 href 参数,Beautiful Soup会搜索每个tag的”href”属性;

使用多个指定名字的参数可以同时过滤tag的多个属性;

对于class ,可以使用class_来搜索

#返回这个class=‘p’的标签内容。

print(soup.find_all('p',class_='p'))

对于某些tag属性不能通过搜索得到值,可以使用attrs参数得到

#返回class为e的标签

print(soup.find_all(attrs={'class':'e'}))

3、wordcloud 使用详情

wordcloud 简单利用英语来看就是词云,它是以词语为基本单位,更加直观的展示出我们的内容。

wordcloud 的安装:pip install wordcloud

大家顺便安装下:pip install jieba

1、基本格式
#导入词云
from wordcloud import WordCloud
#打开文件并且读取完全
f = open('1.txt','r').read()
#创建wc设个实例对象,里面可传递相应的参数
#generate根据文本生成词云
wc = WordCloud(
    background_color='white',
    width=500,
    height=366,
    margin=2
).generate(f)
#to_file 输出到文件
wc.to_file('./image/0.jpg')

运行结果展示:

实战:爬取中国唐诗宋词,体验文人雅士最常用的词语!

第一步:下载中国的唐诗宋词

第二步:把数据保存到本地

第三步:结巴分词

第四步:生成词云简单分析

代码如下:

下载唐诗宋词保存本地

import re
import requests
from bs4 import BeautifulSoup
from concurrent.futures import ThreadPoolExecutor, wait, ALL_COMPLETED
#这是url地址
urls = ['https://so.gushiwen.org/gushi/tangshi.aspx',
        'https://so.gushiwen.org/gushi/sanbai.aspx',
        'https://so.gushiwen.org/gushi/songsan.aspx',
        'https://so.gushiwen.org/gushi/songci.aspx'
        ]
#处理获取每个诗词的url地址
poem_links = []
for url in urls:
    # 请求头部
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.80 Safari/537.36'}
    req = requests.get(url, headers=headers)
    #把爬取到的文本格式改成bs4可改变的格式
    soup = BeautifulSoup(req.text, "lxml")
    #定位到第一个class = sone的内容
    content = soup.find_all('div', class_="sons")[0]
    #获取该content 下所有a标签
    links = content.find_all('a')
    print(links)
    #进行比遍历,url地址拼接
    for link in links:
        poem_links.append('https://so.gushiwen.org'+link['href'])

poem_list = []
def get_poem(url):
    # 请求头部
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36'}
    req = requests.get(url, headers=headers)
    soup = BeautifulSoup(req.text, "lxml")
    poem = soup.find('div', class_='contson').text.strip()
    poem = poem.replace(' ', '')
    poem = re.sub(re.compile(r"\([\s\S]*?\)"), '', poem)
    poem = re.sub(re.compile(r"([\s\S]*?)"), '', poem)
    poem = re.sub(re.compile(r"。\([\s\S]*?)"), '', poem)
    poem = poem.replace('!', '!').replace('?', '?')
    poem_list.append(poem)
# 利用并发爬取
executor = ThreadPoolExecutor(max_workers=10)  # 可以自己调整max_workers,即线程的个数
# submit()的参数: 第一个为函数, 之后为该函数的传入参数,允许有多个
future_tasks = [executor.submit(get_poem, url) for url in poem_links]
# 等待所有的线程完成,才进入后续的执行
wait(future_tasks, return_when=ALL_COMPLETED)

# 将爬取的诗句写入txt文件
poems = list(set(poem_list))
poems = sorted(poems, key=lambda x:len(x))
print(poems)
for poem in poems:
    poem = poem.replace('《','').replace('》','').replace(':', '').replace('“', '')
    print(poem)
    with open('poem.txt', 'a') as f:
        f.write(poem)
        f.write('\n')

生成词云进行分析:

import jieba
from wordcloud import WordCloud,STOPWORDS
wc = WordCloud(background_color='white',  # 背景颜色
               max_words=1000,  # 最大词数
               # mask=back_color,  # 以该参数值作图绘制词云,这个参数不为空时,width和height会被忽略
               max_font_size=100,  # 显示字体的最大值
               stopwords=STOPWORDS.add('国'),  # 使用内置的屏蔽词,再添加'苟利国'
               # font_path="C:/Windows/Fonts/STFANGSO.ttf",  # 解决显示口字型乱码问题,可进入C:/Windows/Fonts/目录更换字体
               font_path='C:\Windows\Fonts\simfang.ttf',
               random_state=42,  # 为每个词返回一个PIL颜色
               # width=1000,  # 图片的宽
               # height=860  #图片的长
               )
text = open('poem.txt').read()
# 该函数的作用就是把屏蔽词去掉,使用这个函数就不用在WordCloud参数中添加stopwords参数了
# 把你需要屏蔽的词全部放入一个stopwords文本文件里即可
def stop_words(texts):
    words_list = []
    word_generator = jieba.cut(texts, cut_all=False)  # 返回的是一个迭代器
    for word in word_generator:
        words_list.append(word)
    print(words_list)
    return ' '.join(words_list)  # 注意是空格
text = stop_words(text)
wc.generate(text)
# 显示图片
wc.to_file('maikou.png')

效果展示

有想要了解的请加qq:3440037784

 
2018-07-07 22:12:44 wyx100 阅读数 1891
  • Python-数据

    Python数据库编程视频教程,数据库是MySQL,讲解Python链接MySQL数据库,并对数据库进行增删改查操作。

    10871 人正在学习 去看看 尹成

NLP自然语言处理步骤

未完待续。。。

1.数据收集(建立语料库)

1.1.利用已有数据
1.2.爬取数据
2.数据处理
2.1.数据读取(语料)
2.2.数据清洗(去掉标点符号(空格、句号、逗号、问好、引号等)等)
2.3.分词(token)
文章样本集中的句子分解成单个单词。
输入:文章(例如:莎士比亚全集、尼采全集、唐诗300首等)
输出:词集合(可以有重复词)

2.4.词频统计

计算词集合中,每个样本(词)出现的次数。
输入: 词集合(可以有重复词)

输出:词频表(key为词,值为词的出现次数)

可根据实际项目需求,删除高频词(例如常用词the、a、is等出现次数比较多,但没有实际意义)和低频词。

2.5.字母小写
2.6.编号替换

用2.4中的词编号替换语料库中的词。

备注:有些情况下,使用词频作为词的编号。

例如
test.txt中
A B C D  A B  A   
替换后:
3 2 1 1 3 2 3
2.7.句子截取

 句子长度截取为规定长度,不足补规定字符(例如0)


3.模型搭建


4.模型训练


实例说明(简单实例,方便理解,实际项目更复杂):

text.txt文件(内容)2.1
A ,B’ c.D A B A E F G

text.txt文件 (对应词集合,text.txt中单词已经存入到一个词集合中)2.2
A B c D A B A E F G

注意:字母之间不是空格了,表示分开

text.txt文件 对应词集合2.3
A
B
C
D
A
B
A
E
F

G

text.txt文件 对应词集合2.4
Key(词) value(词在语料库出现次数)
A                 3
B                 2
C                 1
D                 1
E                 1
F                 1

G                 1 

根据以上集合,可以建立一个词矩阵

one-hot列构成了一个词向量的矩阵,实际项目中可能根据需要删除词频较低的词,例如,可以删除C-G行

text.txt文件 对应词集合(字母小写)2.5
a 3
b 2
c 1
d 1
e 1
f 1
g 1 

text.txt文件 2.6
3 2 1 1 3 2 3 1 1 1

text.txt文件2.7 读取第一个句子处理后 句子长度为5
3 2 1 1 3

text.txt文件2.7  读取第一个句子处理后 句子长度为15(不足15用0补齐)
3 2 1 1 3 2 3 1 1 1 0 0 0 0 0
2019-09-19 10:24:02 zy0412326 阅读数 7
  • Python-数据

    Python数据库编程视频教程,数据库是MySQL,讲解Python链接MySQL数据库,并对数据库进行增删改查操作。

    10871 人正在学习 去看看 尹成

分享一个Python3写的GUI框架,主要是个人学习Python的过程写的一些工具包括:人工智能、训练、数据采集、实用工具、系统设置和帮助。数据采集你懂得。人工智能有好多没写GUI界面。人工智能分词、做唐诗、命名实体识别、传统三分等。

数据采集绝对是福利包含:百度关键字检索、美女视频网站采集、采集千千MP3、采集美女图片(这个可多了)。

实用工具我就不介绍了。地址在这里:https://blog.csdn.net/zy0412326/article/details/100591783

总界面:

人工智能菜单:

人工智能的菜单均需要模型和预料库支撑,后继我会把语料库放出来

数据采集(绝对是福利):

后面会单独介绍一下数据采集的功能。

LSTM生成藏头诗

阅读数 921

没有更多推荐了,返回首页