精华内容
下载资源
问答
  • http://pocore.com/blog/article_504.html系列阅读从美国的两个城市中选取一些人, 通过分析这些人发布的征婚广告信息,来比较这两个城市的人们在广告用词上是否不同,如果结论确实是不同,那么他们各自常用的词是...

     转载来源:http://pocore.com/blog/article_504.html

    系列阅读

    从美国的两个城市中选取一些人, 通过分析这些人发布的征婚广告信息,来比较这两个城市的人们在广告用词上是否不同,如果结论确实是不同,那么他们各自常用的词是哪些?从人们的用词当中,我们能否对不同城市的人所关心的内容有所了解


    大致流程算法和区分广告邮件的差不多下面记录差异的部分

    1.对所有词出现频率进行排序,返回排序后出现频率最高的前30个

    2.训练词表去掉出现频数最高的钱30个词(关键)

    3.trainingSet取较小rss源的文档数的两倍

    4.testSet随机取20个文档

    5.按区分广告邮件的的操作从trainingSet剔除掉testSet

    6.交叉测试分类错误率并返回 listOPosts, p0V, p1V

    挑出最具代表性的词汇

    最具代表性的词汇显示函数

    由于p0V, p1V 中的单个值表示了某个单词属于0或者1的概率,我们只需要指定一个概率阀值便可以得到大于该阀值得所有单词并且按概率顺序排序然后将单词输出即可,下面是摘要的书中的结果

    Cinque Terre

    展开全文
  • 示例:使用朴素贝叶斯分类器从个人广告中获取区域倾向 我们将分别从美国的两个城市中...如果结论确实是不同,那么他们各自常用的词是哪些?从人们的用词当中,我们能否对不同城市的人所关心的内容有所了解? ...

    示例:使用朴素贝叶斯分类器从个人广告中获取区域倾向

    我们将分别从美国的两个城市中选取一些人,通过分析这些人发布的征婚广告信息,来比较这两个城市的人们在广告用词上是否不同。如果结论确实是不同,那么他们各自常用的词是哪些?从人们的用词当中,我们能否对不同城市的人所关心的内容有所了解?

    下面使用来自不同城市的广告训练一个分类器,然后观察分类器的效果。我们的目的并不是使用该分类器进行分类,而是通过观察单词和条件概率值来发现与特定城市相关的内容。

    一、收集数据:导入RSS源
    Universal Feed Parser是python中最常用的RSS程序库。
    下载并安装feedparser:
    1、下载的是feedparser-5.2.1版本https://pypi.python.org/pypi/feedparser/ ,下载后解压缩
    2、修改setup.py文件
    用python打开文件夹里面的setup.py文件,修改第一行代码,将from setuptools import setup改为from distutils.core import setup,然后保存。
    3、打开cmd命令窗口,进入setup.py所在目录,执行命令:
    python setup.py install
    4、测试,关闭pycharm,再重新打开,命令行输入:import feedparser
    不报错即为安装成功 。

    我们可以构建一个类似于spamTest()的函数来测试过程自动化。程序代码如下:

    #RSS源分类器及高频词去除函数
    def calcMostFreq(vocabList, fullText):
        import operator
        freqDict = {}
        for token in vocabList:
            freqDict[token] = fullText.count(token)
        sortedFreq = sorted(freqDict.items(), key=operator.itemgetter(1), reverse=True)
        return sortedFreq[:30] #返回30个频率最高的词汇
    
    def localWords(feed1, feed0):
        import feedparser
        docList = []; classList = []; fullText = []  #初始化数据列表
        minLen = min(len(feed1['entries']), len(feed0['entries']))
    
        for i in range(minLen):#导入文本文件     
            wordList = textParse(feed1['entries'][i]['summary']) #切分文本
            docList.append(wordList)#切分后的文本以原始列表形式加入文档列表       
            fullText.extend(wordList)#切分后的文本直接合并到词汇列表     
            classList.append(1)#标签列表更新
            
            wordList = textParse(feed0['entries'][i]['summary'])#切分文本     
            docList.append(wordList) #切分后的文本以原始列表形式加入文档列表    
            fullText.extend(wordList)#切分后的文本直接合并到词汇列表
            classList.append(0)#标签列表更新
            
        vocabList = createVocabList(docList)#获得词汇表   
        top30Words = calcMostFreq(vocabList, fullText)#获得30个频率最高的词汇
        
        for pairW in top30Words:#去掉出现次数最高的那些词
            if pairW[0] in vocabList:
                vocabList.remove(pairW[0])
        trainingSet = range(2*minLen)
        testSet = []
        
        for i in range(20):#随机构建测试集,随机选取二十个样本作为测试样本,并从训练样本中剔除       
            randIndex = int(random.uniform(0, len(trainingSet)))#随机得到Index
            #print(randIndex)
            testSet.append(trainingSet[randIndex])#将该样本加入测试集中        
            del(trainingSet[randIndex]) #同时将该样本从训练集中剔除
            
        trainMat = []; trainClasses = [] #初始化训练集数据列表和标签列表
        
        for docIndex in trainingSet: #遍历训练集
            trainMat.append(setOfWords2Vec(vocabList, docList[docIndex]))#词表转换到向量,并加入到训练数据列表中        
            trainClasses.append(classList[docIndex]) #相应的标签也加入训练标签列表中
        p0V, p1V, pSpam = trainNB0(array(trainMat), array(trainClasses))#朴素贝叶斯分类器训练函数
        errorCount = 0
        
        for docIndex in testSet:   #遍历测试集进行测试
            wordVector = setOfWords2Vec(vocabList, docList[docIndex])#词表转换到向量
            if classifyNB(array(wordVector), p0V, p1V, pSpam) != classList[docIndex]:
                errorCount += 1         
                print("classification error",docList[docIndex])#输出出错的文档
        print('the erroe rate is: ', float(errorCount)/len(testSet))
        return vocabList, p0V, p1V #返回词汇表和两个类别概率向量
    

    calcMostFreq()函数遍历词汇表中的每个词并统计它在文本中出现的次数,然后根据出现次数从高到低对词典进行排序,最后返回频率最高的30个词。
    localWords()函数使用两个RSS源作为参数,其余与spamTest()基本类似。可以注释掉用于移除高频词的三行代码,然后比较注释前后的分类性能。
    书上说 保留代码的错误率是70%,去掉代码的错误率是54%。而留言中出现次数最多的前30个词涵盖了所有用词的30%,也就是说,词汇表的一小部分单词却占据了所有文本用词的一大部分。==产生这种现象是因为语言中大部分都是冗余和结构辅助性内容。==另一个常用的方法是不仅移除高频词,同时从某个预定词表中移除结构上的辅助词。

    def main():
        import feedparser
        ny = feedparser.parse('https://newyork.craigslist.org/search/stp?format=rss')
        print(ny)
        print(len(ny['entries']))
        sf = feedparser.parse('http://sfbay.craiglist.org/stp/index.rss')
        vocabList, pSF, pNY = localWords(ny, sf)
    

    执行结果为:
    在这里插入图片描述
    也就是说,从网页确实获得了数据,但是print(len(ny[‘entries’]))的结果为0,这里的用法是我没搞明白还是就是0?先记录在这,之后再解决……

    二、分析数据:显示地域相关的用词

    #最具表征性的词汇显示函数
    def getTopWords(ny,sf):
        import operator
        vacabList, p0V, p1V = localWords(ny,sf) #训练并测试朴素贝叶斯分类器
        topNY = []
        topSF = []
        for i in range(len(p0V)):
            if p0V[i] > -6.0:
                topSF.append((vocabList[i],p0V[i]))
            if p1V[i] > -6.0:
                topSF.append((vocabList[i],p1V[i]))
        sortedSF = sorted(topSF, key=lambda pair:pair[1], reverse=True)
        print("SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**")
        for item in sortedSF:
            print(item[0])
        sortedNY = sorted(topNY, key=lambda pair: pair[1], reverse=True)
        print("NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**")
        for item in sortedNY:
            print(item[0])
    

    函数getTopWords()使用两个RSS源作为输入,然后训练并测试朴素贝叶斯分类器,返回使用的概率值。然后创建两个列表用于元组的存储。与之前返回排名最高的X个单词不同,这里可以返回大于某个阈值的所有词。这些元组会按照它们的条件概率进行排序。

    三、总结
    1、贝叶斯概率及贝叶斯准则提供了一种利用已知值来估计未知概率的有效方法;
    2、朴素贝叶斯:通过特征之间的条件独立性假设,降低对数据量的需求。(独立性假设是指一个词的出现概率并不依赖于文档中的其他词)
    3、编程语言:下溢出是其中一个问题,可以通过对概率取对数来解决;
    4、词袋模型在解决文档分类问题上比词集模型有所提高;
    5、其他方面的改进:比如移除停用词,也可以花大量时间对切分器进行优化。

    展开全文
  • WordPress常用的页面判断

    千次阅读 2016-09-09 11:02:47
    很多时候我们需要将某些内容在指定的页面中显示,例如把友情链接这只成只在...下面为常用的页面判断语句 is_home() ====主页 is_single() ==== 文章页 is_page() ==== 页面 is_category() ==== 文章分类

    很多时候我们需要将某些内容在指定的页面中显示,例如把友情链接这只成只在首页显示,或者将广告设置为只在文章页显示,这些都可以通过修改代码来达到效果。

    下面为常用的页面判断语句

    1. is_home()     ====主页
    2. is_single()     ==== 文章页
    3. is_page()     ==== 页面
    4. is_category()     ==== 文章分类页
    5. is_tag()      ====文章标签页
    6. is_archive()     ==== 归档页
    7. is_404()     ==== 404页
    8. is_search()     ==== 搜索结果页
    9. is_feed()     ==== 订阅页

    知道了这些语句后,我们如何使用呢?举个例子:

    我要将“天空团首页”五个字设置为只显示在首页,那么可以这样,<?php if ( is_home() ) { ?>天空团首页<?php } ?>

    上方示例中黄色加粗部分可以任意替换,可以判断 is_single()  [只在文章页显示]或 is_archive() [归档页显示]等等方式

    既然可以设置为只在某页显示某内容,那么可不可以设置成只在某页禁止显示某内同呢?答案是肯定的

    语法小注:|| 表示或,&& 表示和,! 表示非,使用上面的语法便可以更加灵活的定义页面显示内容了,语法示例如下:

    1. !is_home()      ====除首页以外的页面都显示
    2. !is_category(4)     ====仅在ID非4的分类显示
    3. is_home() || is_category(‘movies’)      ====在首页显示同时在名称为movies的分类显示
    4. is_page(‘about’)      ====仅在名称为about的页面显示
    5. is_home()&&!is_paged()     ==== 在首页显示,分页不显示


    展开全文
  • 搜索引擎营销主要方法包括:竞价排名、分类目录登录、搜索引擎登录、付费搜索引擎广告、关键词广告、搜索引擎优化 (搜索引擎自然排名)、地址栏搜索、网站链接策略等。 病毒式营销是一种常用的网络营销方法...

    一:搜索引擎营销
      ‍搜索引擎营销是目前最主要的网站推广营销手段之一,尤其基于自然搜索结果的搜索引擎推广,因为是免费的,因此受到众多中小网站的重视。

    搜索引擎营销方法也成为网络营销方法体系的主要组成部分。搜索引擎营销主要方法包括:竞价排名、分类目录登录、搜索引擎登录、付费搜索引擎广告、关键词广告、搜索引擎优化 (搜索引擎自然排名)、地址栏搜索、网站链接策略等。

    病毒式营销是一种常用的网络营销方法,常用于进行网站推广、品牌推广等,病毒式营销利用的是用户口碑传播的原理,在互联网上,这种“口碑传播”更为方便,可以像病毒一样迅速蔓延,因此病毒式营销(病毒性营销)成为一种高效的信息传播方式,而且,由于这种传播是用户之间自发进行的,因此几乎是不需要费用的网络营销手段。

    三:微博营销
       微博营销是指通过微博平台为商家、个人等创造价值而执行的一种营销方式,也是指商家或个人通过微博平台发现并满足用户的各类需求的商业行为方式。微博营销以微博作为营销平台,每一个听众(粉丝)都是潜在营销对象,企业利用更新自己的微型博客向网友传播企业信息、产品信息,树立良好的企业形象和产品形象。每天更新内容就可以跟大家交流互动,或者发布大家感兴趣的话题,这样来达到营销的目的,这样的方式就是新兴推出的微博营销。

    四:微信营销
       微信营销是网络经济时代企业营销模式的一种。是伴随着微信的火热而兴起的一种网络营销方式。微信不存在距离的限制,用户注册微信后,可与周围同样注册的"朋友"形成一种联系,订阅自己所需的信息,商家通过提供用户需要的信息,推广自己的产品,从而实现点对点的营销。

    五:论坛营销
      企业、消费者都在日益接受网络带来的变化,网络论坛营销也因此应运而生,并且因其独有的特点正在成为现代营销市场的主流,无论营销环境还是营销方法都处于一个转换过程之中。

    六:视频营销
      视频营销是通过在广泛传播的而个性视频中植入广告或在播客网站进行创艺挂广告征集等方式来进行品牌宣传语推广,例如2013年的可口可乐昵称瓶,2014的可口可乐歌词瓶的定制,在社会都有很大的反响。知名公司通过发布创意视频广告宣传品牌概念,使品牌效应不断被深化。

    展开全文
  • 小偏参考了国内外的一些大型网站,整理了网页最常用的ClassName集合,共有100+个。希望对前端小朋友们有那么一点帮助。:) about 关于 account 账户 action 操作 ad,advertisment 广告 arrow 箭头图标 ...
  • Changer常用的软件

    2015-08-28 14:32:46
     3、其他未分类:百度贴吧、微信、QQ轻聊版、ADSafe(去广告)、百度云盘(保存资料和看视频)、QQ影音、Awesome、优酷、喜马拉雅电台、YY视听、百度卫士、支付宝钱包、wps、高德地图、美团团购、优酷、全佛历 ...
  • 就是被分对样本数除以所有样本数,通常来说,正确率越高,分类器越好。 缺点:准确率这个评价指标有很大缺陷。比如在互联网广告里面,点击数量是很少,一般只有千分之几,如果用acc,即使全部预测成负类...
  • 本篇博客将结合redis在电商项目中使用,说明redis的常用命令 redis中数据结构: 业务场景一:缓存商城首页不同分类栏中商品信息,以优化商城首页访问速度。Forexample:以淘宝网为例 1.1.有好货分类...
  • 索引擎营销 电子邮件营销 即时通讯营销 ...创意广告营销 知识型营销 事件营销 口碑营销 分类:SEO 本文转自快乐就好博客园博客,原文链接:http://www.cnblogs.com/happyday56/p...
  • 2.广告行业 百度、门户网站、公司、技术、杂谈、重要资料。 3.IT技术 RD(研发)、Web前端、System(运维运营测试)、Archtect(架构)、Cloud(大数据云计算)、IT达人(IT方面文章)。 4.个人 银行支付、游戏...
  • 一、搜索引擎推广方法(SEO)  搜索引擎推广是指利用搜索引擎、分类目录等...因此搜索引擎推广形式也相应地有基于搜索引擎方法和基于分类目录方法,前者包括搜索引擎优化、关键词广告、固定排名、基于内容定...
  • 常用的24种网络营销推广方法 1.论坛推广 2.博客推广 3.软文推广 4.视频推广 5.下载站推广 6.邮件群发推广 7.聊天工具推广(即时通信工具) 8.群组推广 9.签名推广 10. 登录导航网站 11. 问答...
  • 计算广告look-alike技术相关算法

    千次阅读 2018-05-25 15:47:05
    广告look-alike基于广告主提供seed用户进行人群扩展,...用户和seed用户集近似度可以表示为基于分类器,比如逻辑回归,将seed用户作为正样本,从广告历史数据中抽取负样本,训练二分类器。[2]在用户Segm...
  • 10种网站推广的常用方法

    千次阅读 2009-06-23 14:34:00
    获得链接4、到其他论坛、博客在留言内容上带上链接5、做好签名到论坛回帖获得链接6、花钱购买单向链接(链接交易)7、自己或者朋友站点主动链接8、投放广告获得链接9、加入分类目录或者网址大全之类(当然有收费和...
  • 各分站可设置不同的广告内容。 全站搜索引擎优化 借助全伪静态技术,您的网站出现在搜索引擎中的几率大大增高;除此以外,系统还可以对不同分类栏目,不同分站设置不同的标题、关健词、描述进行了优化,专为搜索...
  • PR和VV的分类与区别

    2016-10-10 19:46:00
    Adobe Premiere是一款常用的视频编辑软件,由Adobe公司推出。现在常用的有CS4、CS5、CS6、CC、CC 2014及CC 2015版本。是一款编辑画面质量比较好的软件,有较好的兼容性,且可以与Adobe公司推出的其他软件相互协作。...
  • 广告灯箱又名“灯箱海报”或“夜明宣传画”,用于户外的广告灯箱,其应用场所分布于道路、街道...今天小编就给大家介绍一下常用的16类广告宣传灯箱(按材料、形状、用途等方式分类,故可能有重叠之处)!# 1. 动感灯箱...
  • 使用不同城市的广告训练一个分类器,目的就是使用该分类器进行分类,通过观察单词的条件概率值,来发现特定城市的相关内容。 1.收集数据 接下来需要使用python下载文件,Universal Feed Parser是python中最常用的...
  • SVM垃圾短信分类

    千次阅读 2018-01-02 10:59:29
    SVM垃圾短信分类一、概述短信作为一种重要的交流手段,在人们的日常生活中正发挥越来越重要的作用。...国内外在研究垃圾短信分类问题时,常用的分类算法主要包括三大类。一类是基于概率和信息理论的分类
  • 4.7 示例:使用朴素贝叶斯分类器从个人...Universal Feed Parser是Python中最常用的RSS程序库。 在Python提示符下输入: 构建类似于spamTest()函数来对测试过程自动化。 #RSS源分类器及高频词去除函数 d...
  • 广告灯箱又名“灯箱海报”或“夜明宣传画”,用于户外的广告灯箱,其应用场所分布于...今天小编就给大家介绍一下常用的16类广告宣传灯箱(按材料、形状、用途等方式分类,故可能有重叠之处)!# 1. 动感灯箱 #动感灯...
  • 手机必备的广告过滤利器---X浏览器

    千次阅读 2018-11-26 19:57:58
    软件优点: 体积小,不足1M。 个性化浏览器布局,显示或禁用菜单,设置菜单排列顺序等。 ...自定义广告过滤时常用。 嗅探媒体资源,播放网页视频后,点这个,可下载当前视频。 网站设置,...
  • 贝叶斯分类实现

    2013-06-08 13:30:00
    背景:搜索引擎会根据用户搜索的关键字提供对应的广告,一般是通过统计学习实现(不限方法)。 2 脚本要求:附件articles.tar.bz2中的文本文件已经分好类了,请从每个类别中随机挑选90%文件做为...
  • 语言:中文 (简体) 过滤今日头条PC网页中的广告。 --前言--本插件只为给今日头条用户带来更方便的浏览形式。同时感谢今日头条给我们带来更多、更新、更清晰的资讯。...同时加入了常用新闻分类的快速跳转功能。
  • jQuery商城网站分类导航和幻灯片轮播特效,电商网站常用的导航菜单和宽屏广告图片轮播切换效果。
  • ctr主要任务是预测用户点击某个广告的概率,一般是一个二分类问题,通常需要面对海量样本和特征,所以算法效率和性能都比较关键。评估指标是什么?以kaggle上一个比赛为例...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 533
精华内容 213
关键字:

常用的广告分类