精华内容
下载资源
问答
  • 豆瓣高分电影信息分析(数据分析)

    千次阅读 多人点赞 2021-01-06 18:01:18
    豆瓣高分电影信息分析(数据分析) 1、数据抓取 数据集的获取是我们进行数据分析的第一步。现在获取数据的主要途径一般为:现成数据;自己写爬虫去爬取数据;使用现有的爬虫工具爬取所需内容,保存到数据库,或以...

    豆瓣高分电影信息分析(数据分析)

    1、数据抓取

    数据集的获取是我们进行数据分析的第一步。现在获取数据的主要途径一般为:现成数据;自己写爬虫去爬取数据;使用现有的爬虫工具爬取所需内容,保存到数据库,或以文件的形式保存到本地。
    博主是用python软件爬取的豆瓣高分电影信息,用以获取其中的数据。

    1.1网页分析

    1.网页URL地址:https://www.douban.com/doulist/240962/
    2.根据URL在浏览器打开网页的首页:
    在这里插入图片描述

    3.检查网页:
    右击选中检查或按F12,在该窗口中找到存放电影信息的代码
    在这里插入图片描述从检查得到的源代码可以看到:
    class=‘title’的div标签文本中存放着电影名称
    class=‘rating’的div标签中存放着星级,评分和评价人数
    class=‘abstract’的div标签中存放着导演,主演,类型,制片国家/地区和年份的信息

    1.2获取信息

    通过网页分析可知,我们所需要的信息都在HTML页面里,所以我们只需要获取HTML页面相应class类div中的信息就可以了
    1.获得网页所有数据:

    r=requests.get(link,headers=headers,timeout=10)
    soup=BeautifulSoup(r.text,"lxml")
    

    2.获取电影名称:

    div_list=soup.find_all('div',class_='title')
        for each in div_list:
        # 在div中,a标签的text的内容就是中文电影名称
        movie_name=each.a.text.strip() 
        movie_names.append(movie_name)
    

    3.获取电影评分和评价人数:

    for each in soup.find_all('div',class_='rating'):
    		#在div中,第二个span的text内容为评分,第三个span的text的内容为评价人数
            a=each.text.split('\n') 
            #获取字符串中的数字
            x=''.join(re.findall(r'[0-9]',str(a[3])))
            movie_dis.append(x)
            movie_grade.append(float(a[2]))
    

    4.获取电影导演,主演,类型,制片国家/地区和年份的信息:

    for each in soup.find_all('div',class_='abstract'):
            a=each.text
            #.匹配任意字符,除了换行符
            tp = re.search(r'类型: (.*)',a)
            #对空值和字符进行处理
            if tp==None:
                movie_types.append(" ")
            else:
                movie_types.append(tp.group(1))
            actor = re.search(r'主演: (.*)',a)
            if actor==None:
                movie_actor.append(" ")
            else:
                movie_actor.append(actor.group(1))
            director = re.search(r'导演: (.*)',a)
            if director==None:
                movie_director.append(" ")
            else:
                movie_director.append(director.group(1))
            addr = re.search(r'制片国家/地区: (.*)',a)
            if addr==None:
                movie_addr.append(" ")
            else:
                movie_addr.append(addr.group(1))
            year=re.search(r'年份: (.*)',a)
            if year==None:
                movie_year.append(" ")
            else:
                year_str=year.group(1)
                sj=int(year_str[:2])+1
                nd=year_str[2]+'0'
                movie_year.append(str(sj)+'世纪'+nd+'年代')
    

    2.数据清洗

    数据得到手,我们就需要对我们爬取的数据进行清洗工作,为之后的数据分析做铺垫,如果清洗的不到位势必会对之后的数据分析造成影响。

    2.1空值处理

    对于数据中存在的空值,直接用空字符代替空值数据

            #对空值和字符进行处理
            if tp==None:
                movie_types.append(" ")
            else:
                movie_types.append(tp.group(1))
            actor = re.search(r'主演: (.*)',a)
            if actor==None:
                movie_actor.append(" ")
            else:
                movie_actor.append(actor.group(1))
            director = re.search(r'导演: (.*)',a)
            if director==None:
                movie_director.append(" ")
            else:
                movie_director.append(director.group(1))
            addr = re.search(r'制片国家/地区: (.*)',a)
            if addr==None:
                movie_addr.append(" ")
            else:
                movie_addr.append(addr.group(1))
            year=re.search(r'年份: (.*)',a)
            if year==None:
                movie_year.append(" ")
            else:
                year_str=year.group(1)
                sj=int(year_str[:2])+1
                nd=year_str[2]+'0'
                movie_year.append(str(sj)+'世纪'+nd+'年代')
    

    2.2格式统一

    由于每个电影年分不同,不便于后面分析,故需将年份替换为世纪、年代

    year=re.search(r'年份: (.*)',a)
            if year==None:
                movie_year.append(" ")
            else:
                year_str=year.group(1)
                sj=int(year_str[:2])+1
                nd=year_str[2]+'0'
                movie_year.append(str(sj)+'世纪'+nd+'年代')
    

    3.数据存取

    本博客将数据存储到CSV中

    3.1存储到CSV文件中

    将爬取的信息以列表的形式保存到all_movies_message中,并存储到豆瓣.csv文件中,用以后面的数据分析

    movies=get_movies("https://www.douban.com/doulist/240962/")
    movies_1=pd.DataFrame({'movie_names':movies[0],'movie_types':movies[1],'movie_director':movies[6],'movie_actor':movies[5],'movie_dis':movies[2],'movie_grade':movies[3],'movie_addr':movies[4],'movie_year':movies[7]})
    for i in range(1,4):
        #总共3页,一页25个
        link="https://www.douban.com/doulist/240962/?start="+str(i*25)
        movies=get_movies(link)
        movies_1=movies_1.append(pd.DataFrame({'movie_names':movies[0],'movie_types':movies[1],'movie_director':movies[6],'movie_actor':movies[5],'movie_dis':movies[2],'movie_grade':movies[3],'movie_addr':movies[4],'movie_year':movies[7]}),ignore_index=True)
    all_movies_message=movies_1
    #将数据写入豆瓣.csv文件中
    all_movies_message.to_csv('豆瓣.csv',index=False)
    print(all_movies_message)
    

    存储数据截图:
    在这里插入图片描述

    4.数据分析及可视化

    数据表格的参数信息
    在这里插入图片描述

    4.1对每个年代电影上榜数量进行分析

    对豆瓣高分电影每个年代上榜电影数量进行分析,可对年代划分为10个等级:
    分别为20世纪20年代,20世纪30年代,20世纪40年代,20世纪50年代,20世纪60年代,20世纪70年代,20世纪80年代,20世纪90年代,21世纪00年代,21世纪10年代

    y1=len(data[data['movie_year']=='20世纪20年代'])
    y2=len(data[data['movie_year']=='20世纪30年代'])
    y3=len(data[data['movie_year']=='20世纪40年代'])
    y4=len(data[data['movie_year']=='20世纪50年代'])
    y5=len(data[data['movie_year']=='20世纪60年代'])
    y6=len(data[data['movie_year']=='20世纪70年代'])
    y7=len(data[data['movie_year']=='20世纪80年代'])
    y8=len(data[data['movie_year']=='20世纪90年代'])
    y9=len(data[data['movie_year']=='21世纪00年代'])
    y10=len(data[data['movie_year']=='21世纪10年代'])
    

    再通过matplotlib数据库进行数据的可视化得到下图:

    # 坐标轴上能显示中文
    plt.rcParams['font.sans-serif'] = ['SimHei']
    plt.rcParams['axes.unicode_minus'] = False
    # 调节图形大小
    plt.rcParams['figure.figsize']=[13,8]
    #定义标签
    labels=['20世纪20年代','20世纪30年代','20世纪40年代','20世纪50年代','20世纪60年代','20世纪70年代','20世纪80年代','20世纪90年代','21世纪00年代','21世纪10年代']
    # 每一小块的值
    sizes=[y1,y2,y3,y4,y5,y6,y7,y8,y9,y10]
    explode=(0,0,0,0,0,0,0,0,0,0)
    plt.pie(
        sizes,
        explode=explode,
        labels=labels,
        autopct='%1.1f%%'#数据保留固定小数位
    )
    # x,y轴刻度设置一致
    plt.axis('equal')
    plt.title('电影年代上榜数量分布图')
    # 右上角显示
    plt.legend()
    plt.show()
    

    在这里插入图片描述通过图可以很清晰的看到,20世纪70年代高分电影最少,20世纪90年代和21世纪00年代高分电影最多

    4.2对每个年代电影评分分析

    对豆瓣高分电影的电影评分进行分析,我们可以求出每个年代的电影平均分,进而进行分析:

    import matplotlib.pyplot as plt
    # 调节图形大小
    plt.rcParams['figure.figsize']=[12,8]
    grouped=data.groupby(data['movie_year'])['movie_grade'].mean()
    grouped.plot()
    plt.xticks(rotation=60)#夹角旋转60度
    plt.xlabel('The movie year',fontsize=15)#x轴及字号
    plt.ylabel('The movie grade',fontsize=15)#y轴及字号
    

    对数据通过matplotlib数据库进行数据的可视化:
    在这里插入图片描述从折线图中,我们可以看出每个年代的平均评分都在9.0分以上

    4.3对电影评论数前十分析

    豆瓣高分电影中,评论越多说明该电影观众越活跃,以电影评论人数进行查找

    d1=data.nlargest(10,columns='movie_dis')
    d1
    

    在这里插入图片描述对数据通过matplotlib数据库进行数据的可视化:

    # 调节图形大小
    plt.rcParams['figure.figsize']=[12,8]
    grouped=d1.groupby(d1['movie_names']).mean()
    grouped.plot.bar()
    plt.xticks(rotation=60)#夹角旋转60度
    plt.xlabel('The movie of number',fontsize=15)#x轴及字号
    plt.ylabel('The movie of names',fontsize=15)#y轴及字号
    plt.title('The movies of top 10')
    plt.show()
    

    在这里插入图片描述从图中可以看出,肖申克的救赎评论的人最多,说明该电影观众最为活跃,电影感触最深

    4.4对电影类型的分析

    豆瓣高分电影类型有很多种,通过各个类型出现的次数,可以判断出那种类型最受欢迎
    查找各个类型出现的次数

    types='/'.join(data['movie_types'])#转化成以‘/’间隔的字符串
    types=types.replace(' ','')#将空格值进行替换
    typelist=types.split('/')#进行切割
    t=list(set(typelist))#去除重复
    count=[]
    for i in t:
        count.append(typelist.count(i))#统计出现 次数
    plt.bar(range(len(count)),count,width=0.5)
    
    

    对数据通过matplotlib数据库进行数据的可视化:

    # 坐标轴上能显示中文
    plt.rcParams['font.sans-serif'] = ['SimHei']
    plt.rcParams['axes.unicode_minus'] = False
    
    # 调节图形大小
    plt.rcParams['figure.figsize']=[12,8]
    plt.xticks(rotation=60)#夹角旋转60度
    plt.xlabel('电影类型',fontsize=15)#x轴及字号
    plt.ylabel('数量',fontsize=15)#y轴及字号
    plt.xticks(range(len(t)),t)
    plt.title('电影类型分布情况')
    plt.show()
    

    在这里插入图片描述

    由柱状图可知,剧情片最受欢迎,其次为喜剧、爱情、家庭片
    用词云进行可视化:

    # 解决中文乱码问题
    font=r'C:\windows\Fonts\simfang.ttf'
    string=' '.join(typelist)
    w=wordcloud.WordCloud(background_color='white',font_path=font)
    w.generate(string)
    w.to_file(r"db.png")
    

    在这里插入图片描述从词云图中可以看出,剧情、爱情、戏剧、犯罪、家庭、冒险的频率比较高

    展开全文
  • 上海链家网租房信息分析报告

    千次阅读 2017-08-24 19:32:16
    上海链家网租房信息分析报告前言临近房子到期,需要寻找新的栖身之所。正好赶上最近在学习数据分析,于是尝试对链家网上的租房信息进行分析,了解一下最近的租房行情。数据源获取因为链家的租房信息在不进行筛选的...

    上海链家网租房信息分析报告

    前言

    临近房子到期,需要寻找新的栖身之所。正好赶上最近在学习数据分析,于是尝试对链家网上的租房信息进行分析,了解一下最近的租房行情。

    数据源

    获取

    因为链家的租房信息在不进行筛选的情况下,最多显示100页的数据,因此决定以不同区域作为筛选条件,通过python爬虫分别爬取上海不同区域的数据,最终得到20782条租房信息,虽然不是全部数据,但是用于分析应该是足够了。

    处理

    直接获取到的信息如下:

    标题 户型 面积 价格 小区 链接 时间 坐标
    生活很便利,高区阳光房,看房有钥匙,新鲜上架 1室1厅 45平 4000 崮山小区三街坊 http://sh.lianjia.com/zufang/shz4001407.html 2017.08.10上架 ‘121.568311’, u’31.245956’

    其中由于链家的网页地图使用的是百度地图,因此获取到的坐标信息与真实的坐标信息有所偏差,需要使用百度地图的API进行转换。而且每平方米的平均租金在分析时也需要进行使用,因此对数据进行了处理,最终数据格式如下:

    标题 户型 面积 价格 均价 小区 链接 时间 经度 纬度
    生活很便利,高区阳光房,看房有钥匙,新鲜上架 1室1厅 45平 4000 88 崮山小区三街坊 http://sh.lianjia.com/zufang/shz4001407.html 2017.08.10上架 121.568311 31.245956

    热力图

    image
    通过坐标信息在地图上进行映射,可以看出大部分的房源集中在上海市中心区域,长宁区的徐汇区附近的房源最为丰富,另外在市区周边区域,房源主要集中在奉贤区、松江区、青浦区和嘉定等区域。

    标题分析

    在链家网上查看房源时,每条房源信息中显示的就是房源的标题,链家网的房源标题比较长,类似于一个简介,因此我尝试对爬取到的房源标题进行一个统计,看看链家网在标题中使用频率最高词有哪些。
    image
    可以看出链家的标题中,出现频率比较高的词语有楼层,人气,实地看房等,另外生活便利,地铁的出现频率也不低,可见链家网的推荐方式主要是通过简述房源信息,并说明看房便利以及交通便利来进行描述。

    户型占比

    户型也是我们在租房时需要考虑的一环,而什么户型的房子最多这便成了一个问题,通过对房源户型进行统计后,结果如下:

    户型 数目 占比
    2室2厅 4715 22.7%
    3室2厅 4270 20.5%
    2室1厅 3876 18.7%
    1室1厅 2832 13.6%
    3室1厅 1149 5.5%
    4室2厅 1049 5.0%
    其他 2890 13.9%

    户型的种类很多,因此截取频率前六的户型进行计算,结果发现大户型房子较多,而像适合个人单租的一室户反而占比很低,因此大部分人需要进行合租才能解决自己的住房问题。
    通过一个饼状图更容易了解其中的分布:
    image

    面积性价比

    通过计算每平米的的月平均租金,来计算租房面积的性价比,由此来找出性价比较高的房子,因为考虑到大部分人并不会去租面积十分大的房子,因此对截取了150平以下的房源数据进行统计计算:
    image
    由图可知平均租金随着面积的增大有明显的下降,在80平到130平左右基本持平,每平米的租金在70元左右,性价比最高,可以看出整租是一个性价较高的租赁方式,赶快拉着你的小伙伴去整租吧。

    小区性价比

    最后我们通过每平米的月平均租金来看看小区的性价比如果,通过对这2W多条数据进行分析,得出了如下结论:
    - 性价比最高TOP10
    image
    可以看出以上小区的房源性价比是十分高的,每平米每月才需要10元左右。
    - 性价比最低TOP10
    image
    性价比最低的小区,每平米的月平均租金居然高达850元左右,真是土豪的住所啊。

    总结

    这篇分析由于只抓取了链家网的部分数据且对数据的真实性未做核实,因此可能会导致分析结果不准确的问题。
    另外在分析方面,分析的东西比较简单,无法对租房的选择进行明确的指引。
    如果能抓取各大中介网站的数据并对其数据的真实有效性进行保证,同时结合租户的信息(如:公司地点,可接受的通勤时间等),也许租房的推荐问题便可以得到解决。

    PS

    本次分析的源码全部都已上传至github
    此分析的所有数据仅用于学习、研究和交流目的,请勿用于商业目的。

    展开全文
  • 前程无忧数据分析招聘信息分析

    千次阅读 2018-07-05 21:33:10
    近期想找数据分析方面的工作,又苦于没有工作经验,在老司机的指导下,我尝试将招聘网站前程无忧上广州数据分析岗位的部分数据用爬虫获取并进行了简单的数据分析。一、数据获取不得不说,前程无忧几乎没有反爬虫机制...

    一、数据获取

    不得不说,前程无忧几乎没有反爬虫机制,我写了一个很简陋的爬虫代码就爬了约900条数据下来。这次分析的目的是了解目前市场对数据分析人才的工作经验要求和学历要求分布是怎样的,以及不同工作经验和学历的薪资区别。爬取的数据主要有岗位名称,发布公司,工作经验要求,学历要求和薪资待遇。先通过爬虫将岗位信息储存到一个txt文件中,然后再导入到excel中,数据结构如图。



    二、数据清洗

    刚爬下来的数据错误不少,所以对数据进行筛选清洗,以进行下一步分析工作。

    首先是公司列和岗位列,这两列不用管,因为不是主要分析数据,主要用于标识每个岗位。

    然后是薪资列,可以看到数据格式有的是千/月,有的是万/月,还有万/年的,还有些是错误数据。现在要将薪资列统一为千/月


    先处理错误的薪资数据,如果无法整理就选择删除,然后通过使用分列工具根据符号"-"进行分列,再通过excel的文本函数left,len将原薪资列分成下限和上限两列。


    最后使用if函数将万/月和万/年的薪资转为千/月,并根据上限和下限的均值求出各岗位的平均薪资。


    接下来处理工作经验列,这列共分为六个类,如图所示,这里将1年和2年的数据合并起来,并将多余的经验两个字去掉,通过if函数实现。

    ——>

    下面处理的是学历要求列,在爬取学历要求信息时,我发现有部分岗位将学历要求写在任职要求处,而不是岗位简述处,导致部分岗位的学历要求难以采集,此处选择舍弃那些没有采集到学历要求的数据。学历分类如图所示,通过if函数将分类修改为四类:大专以下,大专,本科,硕士。

    ——>

    最后删除掉数据中的重复值即可。

    至此数据清理部分就完成了,经过清洗,数据还剩697条。


    三、数据分析

    1、经验与薪资间的关系


    经验在1-2年和无工作经验的平均薪资相近,有7K多一点,3-4年工作经验的平均薪资有11.5K,相比前两个提升幅度有50%以上,5-7年的平均薪资有17.3K,相比前者提升也有50%左右,8-9年经验平均薪资21.3K,相比发前者提升23%。由此可见,随着工作经验的增长,对薪资的提升幅度还是非常可观的。

    再来看一看经验的岗位人数分布


    可以看到,需求量最大的是工作经验在1-2年之间的人,占比达到了42.04%,其次是无工作经验的,占33.57%,再次是3-4年工作经验的人,占19.66%,5-7年和8-9年的占比很少,两者加起来占比不到5%,可见在数据分析这个新兴的行业里,经验丰富的人相对还是较少的。

    2、学历与薪资间的关系


    大专和大专以下学历的平均薪资相近,都是7K左右,本科达到了10.7K,相比前者提升幅度有50%,硕士的薪资13K,相比前者提升了20%多点,由此可见,更高的学历可以达到更高的薪资。

    下面是学历的岗位人数分布


    目前岗位要求最多的是大专和本科学历,占比分别为44.33%和42.47%,硕士最少,只占1.43%,说明这个行业的高端人才还是比较稀缺的。


    3、薪资分布情况


    爬取的岗位中,薪资在3-8K的最多,有413个,占总的59.25%,其次是8-13K,有189个,占27.12%,再次是13-18K,有63个,占9.04%。其他超高薪资的岗位数量很少,全部加起来占比还不到4%。


    四、结论

    根据上面的分析,可以得到以下结论。

    1、学历越高,工作经验越丰富,薪资越高。

    2、爬取的岗位中,要求1-2年经验和无经验的岗位最多,说明数据分析行业还是一个新型的行业,经验丰富的专家不多。

    3、学历要求方面,大专和本科的需求量最大,大概是目前行业的基础岗位比较多的原因。


    关于本次分析的不足之处。

    1、数据较少,只有697条,仅分析了广州地区,不能很好地展示国内目前数据分析行业的现状。

    2、数据处理手法比较粗糙,简单地用薪资范围的均值来表示该岗位的薪资,另外也没有考虑某些极端值对数据分析的影响,与实际结果有一定的差距。




    展开全文
  • Java堆栈信息分析

    千次阅读 2016-08-27 17:38:21
    以下数据使用Jconsole转储文件中得来,不同的工具,不同的虚拟机得到的具体信息可能有差别栈转储信息转储方式通过Jconsole工具(或者其他分析工具) "Signal Dispatcher" #4 daemon prio=9 os_prio=2 tid=0x142b...

    以下数据使用Jconsole转储文件中得来,不同的工具,不同的虚拟机得到的具体信息可能有差别

    栈转储信息

    转储方式

    通过Jconsole工具(或者其他分析工具)
    这里写图片描述

    "Signal Dispatcher" #4 daemon prio=9 os_prio=2 tid=0x142b7400 nid=0x280 runnable [0x00000000]
       java.lang.Thread.State: RUNNABLE
    
       Locked ownable synchronizers:
        - None
    
    "Finalizer" #3 daemon prio=8 os_prio=1 tid=0x14276800 nid=0x9e0 in Object.wait() [0x1458f000]
       java.lang.Thread.State: WAITING (on object monitor)
        at java.lang.Object.wait(Native Method)
        - waiting on <0x094678d8> (a java.lang.ref.ReferenceQueue$Lock)
        at java.lang.ref.ReferenceQueue.remove(Unknown Source)
        - locked <0x094678d8> (a java.lang.ref.ReferenceQueue$Lock)
        at java.lang.ref.ReferenceQueue.remove(Unknown Source)
        at java.lang.ref.Finalizer$FinalizerThread.run(Unknown Source)
    
       Locked ownable synchronizers:
        - None
    
    "Reference Handler" #2 daemon prio=10 os_prio=2 tid=0x14270c00 nid=0xcc8 in Object.wait() [0x03daf000]
       java.lang.Thread.State: WAITING (on object monitor)
        at java.lang.Object.wait(Native Method)
        - waiting on <0x09467a78> (a java.lang.ref.Reference$Lock)
        at java.lang.Object.wait(Unknown Source)
        at java.lang.ref.Reference$ReferenceHandler.run(Unknown Source)
        - locked <0x09467a78> (a java.lang.ref.Reference$Lock)
    
       Locked ownable synchronizers:
        - None
    
    "main" #1 prio=5 os_prio=0 tid=0x01b0c000 nid=0x9a8 waiting on condition [0x01b5f000]
       java.lang.Thread.State: TIMED_WAITING (sleeping)
        at java.lang.Thread.sleep(Native Method)
        at Test.main(Redefined)
    
       Locked ownable synchronizers:
        - None
    

    Java虚拟机在运行时,除了用户线程外,还有许多的守护线程、虚拟机自身线程。

    对于每个线程,都有如下信息:

    1. 线程名,如“main”
    2. 线程属性(如果是Daemon线程,会有Daemon标识,否则,什么都没有)
    3. 线程优先级,prio
    4. java线程对应的本地线程的优先级os_pri
    5. java线程标识tid
    6. java线程对应的本地线程标识nid
    7. 线程状态(运行中、等待等)
    8. 线程的栈信息
    9. 线程锁信息

    堆转储信息

    这里写图片描述
    直接使用sum jdk自带的工具jconsole,jvisual参看堆转储文件能看到的有用信息比较少,最多能看到那种类型的数据占用内存最多。

    一般是使用它们生成转储文件,然后导入到其他工具中进行进一步分析,如eclipse memory map Analyzer (mat)进行分析。

    关于Mat的安装,见:http://my.oschina.net/u/1182603/blog/161319

    安装mat后,使用mat打开生成的堆转储文件,查看相关信息。
    (1)个人觉得如果要分析内存问题,还是需要非常了解你所分析的程序,不然,这些数据并没有什么太多用处。

    (2)目前对mat还不是非常熟悉,感觉功能很强大,功能非常多,还没有摸索清楚大部分的功能用法,所以,下面就简单说一说大概弄懂了的东西

    个人觉得最有用的几个分析功能有:
    1.大体查看那些对象占用的内存最多
    这个可以通过overview直接可以看到

    2.查看某个对象一个简单的状态,如集合的最近刷新的值

    3.查看对象到GC root的路径(即如何被引用的,为什么没有被回收)
    4.性能优化方法
    内存中是否有大量的重复字符串
    集合的填充比例(看是否集合占用的许多未使用的空间)
    5.线程栈信息快照,如当前都有那些变量,占用了多少空间

    这个先说到这,等GC调优更加熟练了之后在写吧!

    展开全文
  • MIMIC数据库基本信息分析

    万次阅读 热门讨论 2019-04-15 22:20:07
    数据库中一共有26张表,记录患者入院的各种信息,每张表的介绍如下所示。 表格名 信息 admission 患者基本信息,比如性别、种族、语言、宗教、婚姻、入院和出院时间、死亡时间等 callout 提供病人...
  • 视觉情报信息分析 研究表明,一般人所获取的信息大约有80%来自视觉。视觉信息的主要载体是图像和视频,视觉情报指的是通过图像或者视频获取的情报。 从图像或视频中提取物体的大小、距离、速度等信息是视觉情报分析...
  • 爬取京东图书价格信息分析

    万次阅读 2017-09-23 08:29:38
    因为工作关系,经常需要整理一些书目信息,由于对于图书方面大家也不太了解,所以提交过来的书目经常信息不全。再者因为某些原因需要到京东选一些书,懒得从京东复制粘贴信息。...简单分析下,上面的jso
  • JVM导出堆栈信息 分析性能

    千次阅读 2018-08-06 11:01:48
    表示在内存溢出的时候dump出堆信息。 也可以信息 -XX:HeapDumpPath=${目录} 指定导出目录 修改运行环境堆内存 -Xms80M -Xmx80M 更容易模拟出内存溢出的现象。 因为我是在正常项目上面测试的,我就没有修改代码...
  • 信息科技和互联网的迅猛发展,尤其是互联网+时代的到来,使得人们的消费模式发生了变化,不论是打车租房、接收资讯、培训学习、寻找工作,还是项目外包、众筹资金等等,这些原本单向的消费体验已经演变成了消费者与...
  • 这里给出 MATLAB_R2017a 的生物信息学工具箱中 自带的样例 一览: 如果是默认安装,则相关目录在: C:\Program Files\MATLAB\R2017a\examples\bioinfo 按字母排序如下: AlignMultipleSequencesExample.m ...
  • jpeg-snoo-图片信息分析工具

    千次阅读 2018-02-28 10:00:57
    资源:https://www.impulseadventure.com/photo/jpeg-snoop.html平台:windows作用:...支持对多种类型图片的分析,例如JPG - JPEG静态照片THM - RAW照片/电影文件的缩略图AVI * - AVI电影DNG - 数码负片RAW照片PSD -...
  • GIS空间分析指的是在GIS(地理信息系统)里实现分析空间数据,即从空间数据中获取有关地理对象的空间位置、分布、形态、形成和演变等信息并进行分析。 将GIS空间分析利用到系统中,我们可以利用GIS空间分析处理车辆...
  • 《文献管理与信息分析》学习心得

    千次阅读 2019-12-30 16:22:22
    本学期是我研究生第二年的上学期,我有幸选了《文献管理与信息析》,通过一学期在mooc上的学习,我感觉收获颇丰。罗老师以助力科研,推动创新为目的,给我们学生分享了三个部分的内容。我从中了解到了方法,很多工具...
  • 《文献管理与信息分析》课程笔记

    千次阅读 2018-05-07 09:58:45
    第一周 科研工作者的信息修炼 1.1 信息社会的学习与科研 1.2 社会发展趋势 1.3 课程由来及内容设计 第二周 搜索引擎与网络学习 2.1~2.2 搜索引擎简介 2.3 搜索引擎的使用方法 2.4~2.6 利用搜索引擎解决问题的思路+...
  • 电子邮件的信头信息分析

    万次阅读 2014-12-23 16:36:20
    各种邮件服务器很多,但都大都遵循以1982年出版的RFC822--《ARPA网络文本信息格式标准(STANDARD FOR THE FORMAT OF ARPA INTERNET TEXT MESSAGES)》为基础的一系列邮件格式的规定。  RFC(The Requests for ...
  • linux /proc/pid/maps 信息分析

    万次阅读 2013-11-27 21:29:13
    接下来看看maps [root@localhost proc]# cat /proc/1/maps 00110000-00111000 r-xp 00110000 00:00 0 [vdso] 0032b000-00347000 r-xp 00000000 fd:00 852733 /lib/ld-2.8.so 00347000-00348000 r--p 000
  • valgrind 的使用及错误信息分析

    千次阅读 2009-05-18 12:20:00
    转载时请注明出处和作者联系方式:http://blog.csdn.net/mimepp作者联系方式:YU TAO 这里记录一下使用valgrind查找你的应用程序中的各种潜在的错误信息,并举例说明。经常使用valgrind查找一下你的代码的内存有关...
  • 对硬盘中的S.M.A.R.T.信息分析

    千次阅读 2014-01-12 11:10:11
    对硬盘中的S.M.A.R.T.进行分析,仅供学习参考
  • 更贴近自己的生活的学习才是真正的学习吧,简单来说就是实质上到感受到了自己是学信息管理与信息系,我觉得把这种专业性的知识分享给非这个专业的同学,大家会学到更多东西。哈哈,自己表达水平不好,还请大神多多...
  • 基于用户位置信息的行为分析

    千次阅读 2015-11-02 09:57:00
    2. 位置信息分析 2.1 用户基本信息。2.2 社交关系。2.3 用户行为分析。如社交活动。2.4 用户行为预测。 3. 算法 3.1 K-means算法3.2 Apriori算法 1、位置信息获取和存储 传送位置信息时序: 基本技术方案...
  • python爬取并分析淘宝商品信息

    万次阅读 多人点赞 2020-04-08 16:24:02
    python爬取并分析淘宝商品信息背景介绍一、模拟登陆二、爬取商品信息1. 定义相关参数2. 分析并定义正则3. 数据爬取三、简单数据分析1.导入库2.中文显示3.读取数据4.分析价格分布5.分析销售地分布6.词云分析写在最后 ...
  • 生物信息数据分析

    千次阅读 2020-04-13 21:33:23
    目录看我多样性指数alpha多样性指数Chao1丰富度估计量(Chao1 richness estimator)香农多样性指数(Shannon diversity index)辛普森多样性指数(Simpson diversity index)beta多样性指数PCoA分析PCA分析NMDS分析 ...
  • 主成分分析与因子分析及SPSS实现

    万次阅读 多人点赞 2018-05-25 11:27:12
    主成分分析与因子分析及SPSS实现一、主成分分析(1)问题提出在问题研究中,为了不遗漏和准确起见,往往会面面俱到,取得大量的指标来进行分析。...有没有一种办法能对信息进行浓缩,减少变量的个...
  • 信息系统分析与设计课程心得

    万次阅读 2017-02-28 13:41:39
    信息系统分析与设计课程心得此博客为信息系统分析与设计课程的学习心得记录。一、绪论1概念1.1信息要了解信息系统,首先要了解信息的概念。信息是我们理解世界的重要概念,我对它的定义是:信息是对客观事物及其相互...
  • 输入你想查找的序列,比如Syp基因 进入基因详细信息页面 点击Genbank 如图所示可以下载到fasta格式的序列,注意这里下载的是基因或者蛋白质的全序列 假如你希望得到promoter的基因,可以在如图所示的位置输入起始...
  • 用Python对爬取得到的京东vivo手机评论信息数据进行情感分析,通过LDA模型进一步分析,进而总结出vivo手机的优势与劣势。 二、分析步骤 1)重复值处理 2)过滤短句 3)情感分析 4)去除无用符号 5)分词 6)词频统计 ...
  • 2018岗位招聘信息、薪资待遇详细分析——数据分析

    万次阅读 多人点赞 2019-06-14 14:48:17
    开头简单介绍下:本文章主要内容为利用网络爬虫与数据分析对2018年的所有招聘岗位信息进行了统一清洗、合并、分析、可视化,而本篇文章重点介绍分析和可视化。获取数据的爬虫文章在前面有介绍。 大三快要完了,马上...
  • 信息系统可行性分析

    千次阅读 2020-03-24 16:26:39
    参考国家标准《计算机软件文档编制规范》(GB/T 8567-2006),在信息系统建设项目中,可行性研究通常从经济可行性、技术可行性、法律可行性和用户使用可行性四个方面来进行分析,其中经济可行性通常被认为是项目的...
  • 信息隐藏——LSB隐写分析

    千次阅读 2020-06-24 21:37:59
    LSB隐写分析 【实验目的】: 了解并实现常见的LSB隐写分析法。 【实验内容】: ■实现针对LSB隐写的卡方隐写分析算法...秘密信息在嵌入之前往往经过加密,可以看作是0、1 随机分布的比特流,而且值为0与1的可能性都是1
  • 获取的岗位数据来源于某招聘网站,采取爬虫的方式获取,岗位搜索的关键词为:“数据分析”,爬取的信息包括:岗位名称,城市,薪酬,学历要求,经验要求,岗位描述/职责,分五次爬取,爬取了北京、上海、广州、深圳、...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 205,570
精华内容 82,228
关键字:

信息分析