精华内容
下载资源
问答
  • 37:远程非法提交,权限提升,SQL注入漏洞修正补修正,以及新闻上下篇功能及top透明广告支持 38:添加无大小类文章BUG修正,其他小问题。top.asp自动换行(可选) 39:留言簿恶意广告攻击漏洞修正(IP过滤,留言...
  • 新闻发布系统

    2019-04-06 17:32:28
    首页显示不同栏目的最新几条新闻,用户通过在系统导航栏上单击“新闻中心”超链接,可以进入查看所有新闻的页面,查看新闻,并且使用分页显示的效果,每页显示20条新闻,用户可通过单击下方的上下页及首尾页按钮来...
  • 本篇博客在爬取新闻网站信息1的基础上进行。...3.获取新浪国内最新新闻一个分页的20条新闻链接   将获取评论数封装成函数: 浏览器找到新浪的一条新闻,按F12, 再按F5刷新网页,打开network监听网页,打开j...

     

    本篇博客在爬取新闻网站信息1的基础上进行。

    主要内容如下:

    1. 将获取评论数封装成函数

    2.将获取页面关心的内容封装成函数,关心内容如下:

        新闻标题、新闻时间、新闻来源、新闻内容、责任编辑、评论数

    3.获取新浪国内最新新闻一个分页的20条新闻链接

     

    将获取评论数封装成函数:

    浏览器找到新浪的一条新闻,按F12, 再按F5刷新网页,打开network监听网页,打开js找到评论链接,

    观察两条不同评论的链接,

    不同的地方是newsid=comos-xxxx部分不一样。xxxx为新闻标识符(newsid),可以用{}来代替,之后用fomat(newsid)来补充内容。

    注意:要去掉评论链接后面的&callback=jsonp_xxxx的内容,才能获得到json格式的数据。

    #获取评论数的函数
    import requests
    import json
    import re
    
    def getCommentsCount(newsurl):
        #获取新闻id(newsid)新闻标识符
        match = re.search('doc-i(.+).shtml', newsurl)
        newsid = match.group(1)
        #评论URL
        commentURL='https://comment.sina.com.cn/page/info?version=1&format=json&channel=gn&newsid=comos-{}&group=undefined&compress=0&ie=utf-8&oe=utf-8&page=1&page_size=3&t_size=3&h_size=3&thread=1'
        #补充完整URL
        comments = requests.get(commentURL.format(newsid))
        #输出json字典格式形式
        jd = json.loads(comments.text)
        #取出评论数
        return jd['result']['count']['total']

    测试:

    #测试
    news = 'https://news.sina.com.cn/c/2018-11-15/doc-ihnvukff4194550.shtml'
    getCommentsCount(news)

    将获取页面关心的内容封装成函数

    #通过函数获取一张新闻页面的标题、来源、时间、文章内容、责任编辑、评论数
    import requests
    from bs4 import BeautifulSoup
    from datetime import datetime
    
    def getNewsDetail(newsurl):
        result = {}
        #下载页面数据
        res = requests.get(newsurl)
        res.encoding = 'utf-8'
        soup = BeautifulSoup(res.text, 'html.parser')
        #读取标题
        result['title']= soup.select('.main-title')[0].text
        #新闻来源
        result['newssource'] = soup.select('.date-source')[0].contents[3].text
        
        #新闻时间
        timesource = soup.select('.date-source')[0].contents[1].text
        result['dt'] = datetime.strptime(timesource, '%Y年%m月%d日 %H:%M')
        #文章内容
        result['article'] = ' '.join([p.text.strip() for p in soup.select('.article p')[:-1]])
        #责任编辑
        result['editor'] = soup.select('.show_author')[0].text.lstrip('责任编辑:')
        #评论数
        result['comments'] = getCommentsCount(newsurl)
        return result
    #测试
    url = 'https://news.sina.com.cn/c/2018-11-15/doc-ihnvukff4194550.shtml'
    getNewsDetail(url)

     

    获取新浪国内最新新闻一个分页的20条新闻链接

    找到https://news.sina.com.cn/china/最下方的分页,

    点击不同分页,发现呈现的页面只有中间新闻有变化,旁边内容没有变化,说明最新新闻的分页是动态加载的

    通过Netwark找到分页相关的URL

    复制出分页的URL:

    https://feed.sina.com.cn/api/roll/get?pageid=121&lid=1356&num=20&versionNumber=1.2.4&page=1&encode=utf-8&callback=feedCardJsonpCallback&_=1542726096199

    点击第二页

    往下拉滚动条,找到最新出现的get?pageid复制出分页的URL:

    https://feed.sina.com.cn/api/roll/get?pageid=121&lid=1356&num=20&versionNumber=1.2.4&page=2&encode=utf-8&callback=feedCardJsonpCallback&_=1542726246184 

    观察两个分页URL的不一样的地方:

    有两处不一样:1是page=1或page=2不一样(我们关心的); 2是&callback=xxx内容不一样(去掉这里能得到json格式数据)

    https://feed.sina.com.cn/api/roll/get?pageid=121&lid=1356&num=20&versionNumber=1.2.4&page=1&encode=utf-8&callback=feedCardJsonpCallback&_=1542726096199

    https://feed.sina.com.cn/api/roll/get?pageid=121&lid=1356&num=20&versionNumber=1.2.4&page=2&encode=utf-8&callback=feedCardJsonpCallback&_=1542726246184 

    #获取新浪新闻首页的新闻信息---json格式

    #获取新浪新闻首页的新闻信息---json格式
    requests
    import json
    res = requests.get('https://feed.sina.com.cn/api/roll/get?pageid=121&lid=1356&num=20&versionNumber=1.2.4&page=2&encode=utf-8')
    jd = json.loads(res.text)
    jd

    观察输出的数据中有对应的URL(https://news.sina.com.cn/o/2018-11-20/doc-ihmutuec2021339.shtml)和新闻标题 ,与页面中的标题一致,说明这里的URL对应于该新闻URL

    #获取新浪国内最新新闻一个分页的20条新闻链接
    for ent in jd['result']['data']:
        print(ent['url'])

    先到这,enjoy it! 

    展开全文
  • 很多免费的采集器都会采到不少多余的内容,比如被采网站的logo、... 这个采集器要实现的功能有: 1 每隔两小时自动从网上采集最新的、不重复的、非独家发布的、不带敏感关键字眼的各类新闻20条; 2 实现对新闻中图

      很多免费的采集器都会采到不少多余的内容,比如被采网站的logo、文字注释、广告等,新闻被采集下来还要人工编辑,很是麻烦。于是空闲至于尝试设计了一个无需人工干预和二次编辑的采集器,直接将采下来的新闻过滤掉多余内容,并发布到网站上。  

      这个采集器要实现的功能有:

      1 每隔两小时自动从网上采集最新的、不重复的、非独家发布的、不带敏感关键字眼的各类新闻各20条;

      2 实现对新闻中图片的下载,对各种新闻链接、广告(图片或视频)、相关阅读等无用信息的过滤;

      3 将采到的新闻直接发布到网站,免去一切人工操作!

      4 每隔一小时采集一次天气预报,并发布到网站,同时在早上7点半和下午2点半往本组成员手机发送天气预报(嘿嘿,相当于免费定了一个天气预报业务)。

      5 每隔一小时对主页进行一次静态化,加快访问速度。

      采集器选用的开发语言为JAVA,利用开源项目htmlparser实现网页的抓取,开发环境为my eclipse 6.0,后来改为eclipse 3.4,执行方式为打成jar包,在命令行下执行。工程的结构如下图所示(公司名已被遮盖):

    掠夺者工程结构图

     

      我来介绍一下各个类的功能

      TimeRobot 掠夺者(我给采集器起的名字)的入口,定义了main函数

      Article 一个JavaBean,定义了文章的标题、正文等

      Common 公共函数类,定义了被多个类调用的各种函数,如下载图片、格式化时间、过滤等

      SqlDao 封装了所需的数据库方法

      AritcleDao 没用的类(本来想用iBatis框架的)

      GetLocalNews 采集本地新闻

      GetNewGames 不理这个东西,呵呵,空类,截图时忘记干掉了

      GetWapNews 采集WAP新闻

      GetWeatherForecast 采集天气预报

      GetWebNews 采集WEB新闻

      NewsGeter 采集新闻,掠夺者仅认识NewsGeter,这个类封装了各种新闻的采集

      StaticIndex 静态化主页

      下面介绍一下各类之间的关系

      掠夺者的入口为TimeRobot(时间机器人),TimeRobot中调用了三个定时任务,分别是定时新闻NewsGeter、定时天气预报GetWeatherForecast和定时静态化主页StaticIndex,如下图所示:

    掠夺者各类之间的关系

    展开全文
  • 易想最新升级包V4.0

    2008-12-28 01:58:28
    20、整合最新动网论坛8.2版。 v3.1版升级说明 time:2008-03-15 1.修复自动生成页面功能; 2.修复金色大气风格会员模板后台无法生成问题; 3.修复供求信息添加无法选择三级分类问题; 4.修复企业VIP自助建站联系...
  • 2.网站首页信息列表每信息标题的文字个数,显示信息的数 自定义修改功能。 3.后台可以设置网站的地区,不限个数。 4.后台可设置信息的类型。 5.后台可设置分类信息栏目,包括增加 删除 修改 排序。 6.后台可设置...
  • 2010美国高校计算机系排行榜出炉2010-04-21 00:31 | 次阅读 | 【已有138评论】发表评论 关键词:新闻资讯 | 感谢liujiangCE的提供 | 收藏这篇资讯 哪些美国高校的计算机系实力最强?4月20日,公认为最具...

    2010美国高校计算机系排行榜出炉

    2010-04-21 00:31 |  次阅读 |  【已有138条评论】发表评论

    关键词:新闻资讯  | 感谢liujiangCE的提供 |  收藏这篇资讯

     

    哪些美国高校的计算机系实力最强?4月20日,公认为最具影响力的《U.S. News》美国大学排行榜出炉,为这个问题提供了最新的权威答案。在计算机科学学位项目排行榜中,卡内基-梅隆大学(CMU)、麻省理工学院(MIT)、斯坦福大学加州大学伯克利分校四大名校并列第一,得分不相上下。

    专业方向的排名(如下图所示)则显示了这四大名校各自的优势:麻省理工学院在人工智能计算理论两个方向折桂,编程语言则落到了第四;加州大学伯克利分校雄踞计算机系统方向冠军,但它的人工智能排在第四;以软件工程闻名于世的卡内基-梅隆大学意料之中地占据了编程语言头名,计算理论方面却排在了第5(排在第3和第4的是康奈尔和普林斯顿);斯坦福大学除编程语言外第2外各项都不突出,为什么也能在总榜上排在第一呢,难道是因为在硅谷,学生善于创业好找工作?

    其他位列第5到第10名的学校分别是:康奈尔大学、伊利诺依大学厄巴尼-尚佩恩分校(UIUC)、华盛顿大学、普林斯顿大学、得克萨斯大学奥斯汀分校和佐治亚理工学院。前20名的学校得分情况如下图所示。

    IT领域的另一大专业方向电子电气和通信排名中,麻省理工学院傲视群雄,显示出该校在硬件方面的强大实力,斯坦福大学加州大学伯克利分校并列第二。

    其他位列前十的学校是:

    4 伊利诺依大学厄巴尼-尚佩恩分校(UIUC)

    5 加州理工学院

    6 佐治亚理工学院

    7 卡内基-梅隆大学和密歇根大学安亚堡分校(并列)

    8 康奈尔大学和得克萨斯大学奥斯汀分校(并列)

    展开全文
  • 规定每次从服务器最多只能获取20条数据,第一次刷新获取了20条最新的数据,添加到列表中,过一段时间有了30条未刷新的记录,这下问题来了:第二次刷新时是获取最新20条还是接着第一次获取之后的20条数据放在列表...
  • 当用户在搜索某一条新闻的时候,被报道的条数不多,查找到的信息不多的时候怎么办?用户只会选择其他搜索引擎,所以为了避免这一情况出现,搜索引擎在处理新闻内容的时候,是优先收录的,虽然说这个方法收录效果...
  • 售卡网站系统

    2005-07-14 19:09:14
    12、每条新闻包括以下内容:新闻标题、作者、原出处、新闻内容、所属大类、所属小类; 13、新闻编辑采用最新开发的WORD在线编辑方式,具有即时编辑,即时显示的优点; 14、 可以对新闻的各项相关内容...
  • 一个SQL语句

    2009-08-05 13:37:43
    我 要的是 最新的3公司新闻,就是说3记录。而且是3个公司的新闻。最先是按updatetime排的。 比如我有记录 1 aaa 1 1 2 bbb 1 2 3 ccc 2 3 4 eee 2 5 5 fff 4 8 6 ggg 1 9 7 iii 2 10 8 kkk 1 12 ...
  • 江西人才网.rar

    2019-08-30 18:11:03
    3 可以增减多个地方子栏目,显示当地的最新招聘信息和人才新闻(会员代码). 4、首页显示最新招聘信息若干 5、首页显示最新求职信息若干 6、注册用户可在线发送求职/招聘意向邮件 7、企业可发布多招聘信息 ...
  • 1、个人在线添加求职简历 2、个在线上传个人相片 3、首页显示最新新闻信息10(可修改) 4、首页显示最新招聘信息10(可修改) 5、首页显示最新求职信息10(可修改) 6、注册用户可在线发送求职...
  • 基本功能 1、个人在线添加求职简历 2、个在线上传个人相片 3、首页显示最新新闻信息10(可修改) 4、首页显示最新招聘信息10(可修改) 5、首页显示最新求职信息10(可修改) 6、注册用户可在线发送求职/招聘...
  • 黑人在线人才系统

    2003-10-02 00:00:00
    3、首页显示最新新闻信息10(可修改) 4、首页显示最新招聘信息10(可修改) 5、首页显示最新求职信息10(可修改) 6、注册用户可在线发送求职/招聘意向邮件 7、企业可发布多招聘信息 8、企业自己删除...
  • 3 可以增减多个地方子栏目,显示当地的最新招聘信息和人才新闻(会员代码). 4、首页显示最新招聘信息若干 5、首页显示最新求职信息若干 6、注册用户可在线发送求职/招聘意向邮件 7、企业可发布多招聘信息 ...
  • 本文发表于 2009-08-20 15:37 |1718次阅读 | 共有评论(2) 发表评论关键词: | 感谢ydj9931的提供 | 收藏这篇新闻<!--show_ads_zone(13);--><!---->【CSDN 8月20日消息】HttpClient是Apache Jakarta Common下的...

     

    本文发表于 2009-08-20 15:37 | <script src="http://tougao.csdn.net/count.php?id=213281"></script> 1718次阅读 | 共有评论(2)条 发表评论

    关键词:  | 感谢ydj9931的提供 | 收藏这篇新闻

    【CSDN 8月20日消息】HttpClient是Apache Jakarta Common下的子项目,可以用来提供高效的、最新的、功能丰富的支持HTTP协议的客户端编程工具包,并且它支持HTTP协议最新的版本和建议。现在HttpClient已经更名为HttpComponents,HttpClient 4.0 几乎重新设计,并重写了 HttpClient 3.x的全部代码。在HttpClient 4.0中修正一些 HttpClient 1.0中遗留的问题,这些遗留问题在不改变现在核心AP代码是无法解决的,因此HttpClient开发团队本次彻底改动底层代码。

    HttpClient 4.0架构发生的变化:

    1.重新设计了HttpClient 4.0 API架构,彻底从内部解决了所有 HttpClient 3.x已知的架构缺陷代码。

    2.提供了更简洁、更灵活、更明确的API。

    3.引入了很多模块化的结构。

    4.性能方面得到了不小的提升,包括更少的内存使用,通过使用HttpCore模块更高效完成HTTP传输。

    5.通过使用协议拦截器(protocol interceptor),HttpClient 4.0实现了交叉HTTP(cross-cutting HTTP protocol)协议。

    6.增强了对连接的管理,更好的处理持久化连接,同时还支持连接状态。

    7.增加了插件式(可插拔的)的重定向(redirect)和验证(authentication)处理。

    8.支持通过代理发送请求,或者通过一组代理发送请求。

    9.更灵活的SSL context 自定义功能在HttpClient 4.0中得以实现。

    10.减少了在生成HTTP请求和解析HTTP响应过程中的垃圾信息。

    详细的发布公告:

    http://www.apache.org/dist/httpcomponents/httpclient/RELEASE_NOTES.txt

    HttpClient 4.0 API教程:

    http://hc.apache.org/httpcomponents-client/tutorial/html/

    一些有用的代码示例:
    http://hc.apache.org/httpcomponents-client/examples.html(编译/Wilson)

    展开全文
  • 人才网站0.0.0.0

    2011-06-29 14:00:52
    3 可以增减多个地方子栏目,显示当地的最新招聘信息和人才新闻(会员代码). 4、首页显示最新招聘信息若干 5、首页显示最新求职信息若干 6、注册用户可在线发送求职/招聘意向邮件 7、企业可发布多招聘信息 ...
  • 首页显示最新出售信息和最新求购信息各20条。 可在后台自定义是否对会员发布信息进行审核 4. 新闻和网站信息和广告图片上传功能 5. 大小类广告自定义链接 6. 会员分类:普通会员(只能浏览部分宝物资料...
  • 同时还存在一个问题,如果我调用的最新所有的新闻,那么这个更多链接到那个页面呢?)  12.当列表标签生成以table方式生成后,代码出现如下情况,无头但有结束。  13.完善了会员投稿错误功能。  14.修正AC、SQL...
  • 6、生成最新N记录,生成所有记录的问题 7、添加不规则新闻失败的问题,添加后不能返回列表的问题 8、栏目合并出错的问题 9、调用位置导航出错的问题(专业版) 10、栏目保存位置不能设置为根目录的问题 11、发布...
  • 2012-5-16 增加最新新闻资讯。  2012-5-16 修正后台管理全局设置不能保存BUG。  2012-4-9 增加IP购买页面。  2012-4-9 增加分享工具。  2012-4-9 增加下角话费充值  ...
  • 某小学网站源码

    2021-03-17 23:43:43
    36:远程非法提交,权限提升,SQL注入漏洞修正补修正,以及新闻上下篇功能及top透明广告支持 37:添加无大小类文章BUG修正,其他小问题。top.asp自动换行(可选) 38:留言簿恶意广告攻击漏洞修正(IP过滤,留言...
  • 11-03 20:43:12 IT商业新闻网 【大】【中】【小】 评论:[68]   【IT商业新闻网讯】(记者王小利)2010年11月3日晚,最新消息,腾讯与360大战终于从背后走向台前,装有QQ软件的桌面用户正式成为双方...
  • 学校程序完整版.rar

    2019-07-05 06:57:59
    36:远程非法提交,权限提升,SQL注入漏洞修正补修正,以及新闻上下篇功能及top透明广告支持 37:添加无大小类文章BUG修正,其他小问题。top.asp自动换行(可选) 38:留言簿恶意广告攻击漏洞修正(((((((((((...
  • 2012-5-16 增加最新新闻资讯。 2012-5-16 修正后台管理全局设置不能保存BUG。 2012-4-9 增加IP购买页面。 2012-4-9 增加分享工具。 2012-4-9 增加下角话费充值 2012-4-9 支持二级目录,为站长节省空间 ...
  • 36:远程非法提交,权限提升,SQL注入漏洞修正补修正,以及新闻上下篇功能及top透明广告支持 37:添加无大小类文章BUG修正,其他小问题。top.asp自动换行(可选) 38:留言簿恶意广告攻击漏洞修正(((((((((((((...
  • 36:远程非法提交,权限提升,SQL注入漏洞修正补修正,以及新闻上下篇功能及top透明广告支持 37:添加无大小类文章BUG修正,其他小问题。top.asp自动换行(可选) 38:留言簿恶意广告攻击漏洞修正(IP过滤,留言...

空空如也

空空如也

1 2 3 4 5
收藏数 87
精华内容 34
关键字:

最新20条新闻