精华内容
下载资源
问答
  • (function () { var s=""; function traver(space,node) { if(node.tagName){ // 如果存在标签名,则不是空白节点 s += space + node.tagName+ '<br/>...// 记录标签名称,以空格区分 ...
  • 职场如江湖,江湖水太深。上海大亨说过一句话,至今广为流传:江湖...跟同事关系再好,也要把这5句“小话”烂在肚子里,平时自保,越混越好。【1】交浅言深,知无不言。交情不够,不要多说。交情够了,不要全说。怀...

    职场如江湖,江湖水太深。上海大亨说过一句话,至今广为流传:江湖,不是“打打杀杀”,而是人情世故。有人偏偏不太相信这些,他们认为社会没有这么复杂。其实,社会的复杂程度,远远超过人们想象。他们之所以这样认为,是因为他们还没有进入利益博弈的层次,没有看透职场的底层逻辑。跟同事关系再好,也要把这5句“小话”烂在肚子里,平时自保,越混越好。

    watermark,image_bG9nby9jc2RuXzEucG5nP3gtb3NzLXByb2Nlc3M9aW1hZ2UvcmVzaXplLGhfNTY=,g_se,x_0,y_0,t_100

    【1】交浅言深,知无不言。交情不够,不要多说。交情够了,不要全说。怀才不遇70%的原因是管不住嘴。沉默是金,普通人做不到,但,起码要做到交浅莫言深,没有过命的交情,不是亲爹亲娘,就不要掏心掏肺。要特别小心“自来熟”的人,他们不一定故意出卖你,但他们没有义务为你保守秘密。你要知道,替别人保守秘密,其实挺难的。

    【2】低调做人,高调做事。把公事办得轰轰烈烈,履职尽责要理直气壮,态度上要谦虚谨慎、恭恭敬敬。总结成绩时,要谦让,首先要给功劳推给上司。你放心,你做的功劳,上司明白,他会在其他地方补偿你。如果你高调做人,争抢荣誉,你在别的地方一定吃亏,而且大概率吃亏的幅度比得到的虚名大得多。

    watermark,image_bG9nby9jc2RuXzEucG5nP3gtb3NzLXByb2Nlc3M9aW1hZ2UvcmVzaXplLGhfNTY=,g_se,x_0,y_0,t_100

    【3】台下较劲,台面留情。任何时候,在台面上都不要撕破脸皮。如果必须撕破脸皮,那你要在心里悄悄装上防火墙,要防范小人一辈子。真正的高手,不会在台上掰手腕,都在桌子下面使绊子。即使遇到你的对手,也要嘻嘻哈哈,留有余地,台面下该怎么较量就怎么较量。

    【4】人性最弱,不要考验。不要考验人性,不要考验人性,不要考验人性。同事之间、朋友之间、恋人之间,凡是涉及金钱利益的矛盾都要谨慎,当数量级大到百万级别的时候,必须坚持防人之心不可无。资本论早就说了,当利润超过百分之三百的时候,任何人都可能铤而走险,何况是你身边的人,捅刀子最方便。

    watermark,image_bG9nby9jc2RuXzEucG5nP3gtb3NzLXByb2Nlc3M9aW1hZ2UvcmVzaXplLGhfNjI=,g_se,x_0,y_0,t_100

    【5】不会拒绝,活该受累。努力改变“讨好型”人格,谁都不想得罪,“得罪”的就是你自己。99件事都帮了,1件事不帮,一切归零。99件帮忙积累的好感,反而会断崖式跌成负数。要懂得对别人期望值的管理,来者不拒,就会堆高对方的期望值,当你拒绝时,高高的期望值会坍塌,反目成仇的概率更大。所以,该拒绝的时候,一定要坚定的拒绝,不要含含糊糊、拖拖拉拉,帮不了就是帮不了。当即拒绝的当期损失,要比拖延不办的边际损失要小。

    (行走职场,接触什么人,学习什么人,对个人很有帮助。知乎是一个高智商人群的聚集地,还有一个优秀职场人聚集地,邀请您可以加入,结识优秀的职场人,学习优秀的职场人,共同成长进步。移步下方)

    PS:你在底层岗位时,具体办事能力的权重很高,随着职位层次越来越高,情商的权重也会越来越高。选一个主管,80%看工作能力(具体办事能力),选一名中层,80%看综合素质了。就是这么一个底层逻辑。所以,学学这几本书,看懂以上为人处世的忠告,有助你行稳致远。

    展开全文
  • 贸易关系研究

    2020-02-19 04:21:04
    贸易关系研究 ,阮芳鸾,,中两国关系密切,有着极的贸易条件。天然的地理条件及悠久的历史人文条件,使两国成为山水相连的邻居,情谊绵长的亲戚,
  • 数据库索引,真的越建越好吗?

    千次阅读 多人点赞 2021-06-01 00:07:25
    索引是提高关系型数据库查询性能的利器,但其并非银弹,必须精通其原理,才能发挥奇效。 InnoDB底层是如何存储数据的? MySQL把数据存储和查询操作抽象成了存储引擎。MySQL支持多种存储引擎,并且可以以表为粒度设置...

    索引是提高关系型数据库查询性能的利器,但其并非银弹,必须精通其原理,才能发挥奇效。

    InnoDB底层是如何存储数据的?

    MySQL把数据存储和查询操作抽象成了存储引擎。MySQL支持多种存储引擎,并且可以以表为粒度设置存储引擎。因为需要事务,所以InnoDB最常用。
    为减少磁盘随机读取次数,InnoDB采用页而非行的粒度保存数据,即数据被分成若干页,以页为单位保存在磁盘。InnoDB的页大小默认16K。

    • 各数据页形成双向链表

    • 每个数据页中的记录按主键顺序形成单链表

    • 每一个数据页中有一个页目录,方便按主键查询记录

    • 数据页结构

    页目录通过一个个槽把记录分成不同组。记录中最前面的小矩形数字,代表当前组的记录条数。
    最小和最大的槽指向2个特殊的伪记录。

    0 =》 最小记录
    1 =4
    2 =8
    3 =12
    4 =16
    5 =20
    6 =》 最大记录
    

    有了槽,按主键搜索页内记录时,就能用二分查找,而无需从最小记录遍历整个页的记录链表。

    比如要搜索主键(PK)=15的记录:

    • 先二分计算得槽中间位(0+6)/2=3,指向记录12<15,所以从槽3后继续搜索
    • 再二分:(3+6)/2=4.5取整4,槽4对应记录16>15,所以记录在槽3
    • 再从槽3指向的12号记录开始向下搜索3次,定位到15号记录

    聚簇索引和二级索引

    页目录就是最简单的索引,通过对记录进行一级分组来降低搜索的时间复杂度。
    这样能够降低的时间复杂度数量级有限。当有无数个数据页来存储表数据时,我们就需要考虑如何建立合适索引,才能方便定位记录所在的页。

    为了解决这个问题,InnoDB引入B+树

    • 最低层的叶子节点,存放数据
    • 其他上层节点-非叶子节点,存放目录项,作为索引
    • 非叶子节点分为不同层次,通过分层降低每层的搜索量
    • 每层节点按索引键大小排序,构成双向链表,加速范围查找

    因此,InnoDB使用B+树,既可以保存实际数据,也可加速数据搜索,这就是聚簇索引。

    如果把上图叶子节点下面方块中的省略号看作实际数据,那么它就是聚簇索引的示意图。由于数据在物理上只会保存一份,所以包含实际数据的聚簇索引只能有一个。

    InnoDB会自动使用主键(唯一定义一条记录的单或多个字段)作为聚簇索引的索引键(若无主键,则选择第一个不包含NULL值的唯一列)。方框数字代表索引键的值,对聚簇索引,一般就是主键。

    B+树如何快速查找主键

    比如搜索PK=4数据,通过根节点中的索引可知数据在第一个记录指向的2号页,通过2号页的索引又可知道数据在5号页,5号页就是实际数据页,再通过二分查找页目录马上可以找到记录的指针。

    为了实现非主键字段的快速搜索,就引出了二级索引,也叫作非聚簇索引、辅助索引。非聚簇索引也是B+树,如下:

    非聚簇索引的叶子节点保存的不是实际数据,而是主键。
    获得主键值后去聚簇索引获得数据行,就是回表。

    假设该索引是针对用户名字段创建的,索引记录上面方块中的字母是用户名,按顺序形成链表。若要搜索用户名为b的数据,经过两次定位可以得出在数据页5中,查出所有主键为7和6,再拿这俩主键继续使用聚簇索引进行两次回表得到完整数据。

    额外创建二级索引的代价

    维护代价

    创建N个二级索引,就需要再创建N棵B+树,新增数据时不仅要修改聚簇索引,还需要修改这N个二级索引。

    假设有如下表:

    通过如下存储过程创建10万条测试数据,约140s。

    再创建两个索引:

    则创建10万条记录的耗时提高到154s。

    页中的记录都是按照索引值从小到大的顺序存放的:

    • 新增记录就需要往页中插入数据,现有的页满了就需要新创建一个页,把现有页的部分数据移过去,这就是页分裂
    • 若删除了许多数据使得页很空闲,就需要页合并

    页分裂和合并,都会有I/O代价,且过程中可能产生死锁。

    空间代价

    虽然二级索引不保存原始数据,但要保存索引列的数据,所以会占用更多的空间。
    比如,person表创建了两个索引后,使用下面的SQL查看数据和索引占用的磁盘:

    SELECT DATA_LENGTH, INDEX_LENGTH FROM information_schema.TABLES 
    	WHERE TABLE_NAME='person'
    

    结果显示,数据本身只占用了4.7M,而索引占用了8.4M。

    回表

    二级索引不保存原始数据,通过索引找到主键后需要再查询聚簇索引,才能拿到想要的数据。
    示例如下:

    key=person_name_score_index,表明走的是person_name_score_index索引。
    type=ref,表明是二级索引的等值匹配,符合预期

    再看如下SQL的执行计划:

    Extra列多了一行Using index,说明直接查的二级索引,没有回表。
    联合索引保存了多个索引列的值,对于页中的记录先按照字段1排序,若相同再按照字段2排序,如下:

    图中叶子节点每一条记录的第1、2个方块是索引列的数据,第三个方块是记录的主键。若查询的是索引列索引或联合索引能覆盖的数据,则查询索引本身已经“覆盖”了需要的数据,无需再回表。这种情况也叫索引覆盖

    索引开销的最佳实践

    • 无需一开始就建立索引,可等到场景明确或数据量超过1w、查询变慢,再针对需要查询、排序或分组的字段创建索引。创建索引后可使用EXPLAIN确认查询是否可以使用索引。
    • 尽量索引轻量级的字段,比如能索引int字段就不要索引varchar字段。索引字段也可以是部分前缀,在创建的时候指定字段索引长度。针对长文本的搜索,可以考虑使用Elasticsearch等专门用于文本搜索的索引数据库
    • 禁止SELECT *,而是SELECT必须字段,甚至可以考虑使用联合索引包含我们要搜索的字段,既能实现索引加速,又可避免回表。

    不是所有针对索引列的查询都能用上索引

    • 是不是建了索引一定可以用上?
    • 到底是创建联合索引还是多个独立索引?

    索引失效场景

    索引只能匹配列前缀

    LIKE语句查询name后缀为name123的用户,type=ALL全表扫描

    把百分号放到后面走前缀匹配:

    • type=range索引扫描
    • key=person_name_score_index走person_name_score_index索引

    索引中行数据按索引值排序,只能根据前缀进行比较。

    若非要按后缀查询也能走索引,并且永远只是按后缀查询,可以把数据反过来存,用时再倒过来。

    条件涉及函数操作无法走索引

    比如查询条件用到了LENGTH函数,肯定无法走索引,type=ALL全表扫描

    同理,索引保存的是索引列的原始值,而非经过函数计算后的值。若需要针对函数调用还能走索引,只能保存一份函数变换后的值,然后重新针对这个计算列做索引。

    联合索引只能匹配左边的列

    虽然对name和score建了联合索引,但仅按score列查询无法走索引

    因为在联合索引情况下,数据按照索引第一列排序,第一列数据相同时才会按第二列排序。若想使用联合索引中尽可能多的列,查询条件中的各个列必须是联合索引中从最左边开始连续的列。若仅按第二列搜索,肯定无法走索引。

    • 尝试把查询条件加入name列,可见走了person_name_score_index索引

    因为有查询优化器,所以name作为WHERE子句的第几个条件并不重要。

    现在回答一开始的问题:

    • 是不是建了索引一定可以用上?
      并不,只有当查询能符合索引存储的实际结构时,才能用上。刚才几个示例都用不上索引。
    • 联合索引 or 多个独立索引?
      若你的查询条件经常会使用多个字段,则考虑针对这几个字段建联合索引;同时,针对多字段建立联合索引,使用索引覆盖的可能更大。若只会查询单个字段,考虑建单独的索引,毕竟联合索引保存了不必要字段也有成本。

    数据库基于成本决定是否走索引

    查询数据可直接在聚簇索引上进行全表扫描,也可走二级索引扫描后到聚簇索引回表。

    MySQL如何确定走哪个方案?
    MySQL在查询数据之前,会先对可能的方案做执行计划,然后依据成本决定走哪个执行计划。
    包括IO成本和CPU成本:

    • I/O成本
      从磁盘把数据加载到内存的成本。默认情况下,读取数据页的I/O成本常数是1(即读取1个页成本是1)。
    • CPU成本
      检测数据是否满足条件和排序等CPU操作的成本。默认情况下,检测记录的成本是0.2。

    全表扫描成本

    全表扫描,就是把聚簇索引中的记录依次和给定的查询条件对比,把符合搜索条件的记录加入结果集的过程。
    所以要计算全表扫描的代价需要两个信息:

    • 聚簇索引占用的页面数,用来计算读取数据的IO成本
    • 表中的记录数,用来计算搜索的CPU成本

    MySQL是实时统计的这些信息吗?
    不是的,MySQL维护了表的统计信息,可使用命令:

    可见总行数100147行。里表不是只有10w行记录吗,为啥这里还多了147行?
    因为MySQL的统计信息只是个估算。现在我们估算下CPU成本:

    100147*0.2=20030
    

    数据长度是5783552B。对于InnoDB,这就是聚簇索引占用空间,等于聚簇索引的页面数量 * 每个页面的大小。InnoDB每个页16K,大概计算出页面数量是353,所以I/O成本是353。

    综上,全表扫描总成本约20383。

    MySQL如何基于成本制定执行计划

    现在,我要用下面的SQL

    执行计划是全表扫描。但只要把create_time条件中的5点改为6点就变为走索引了,并且走的是create_time索引而不是name_score联合索引:

    该实验可以得到如下结论:

    • MySQL选择索引,并非按照WHERE条件中列的顺序
    • 即便列有索引,甚至有多个可能的索引方案,MySQL也可能根本不走索引

    因为MySQL是根据成本判断的。虽然表的统计信息不完全准确,但足够用于策略的判断。

    不过,有时会因为统计信息的不准确或成本估算问题,实际开销会和MySQL统计出来的差距较大,导致MySQL选择错误的索引或是直接全表扫描,这就需要人工干预,使用强制索引。
    强制走name_score索引:

    EXPLAIN 
    SELECT * 
    FROM person 
    FORCE INDEX(name_score) 
    WHERE NAME >'name84059' 
    AND create_time>'2020-01-24 05:00:00' 
    

    MySQL会根据成本选择执行计划,通过EXPLAIN可以知道优化器最终会选择怎样的执行计划,但MySQL如何制定执行计划始终是一个黑盒。
    有没有什么办法可以了解各种执行计划的成本,以及MySQL做出选择的依据?

    MySQL 5.6及之后,可以使用optimizer trace查看优化器生成执行计划的整个过程。有了这个功能,我们不仅可以了解优化器的选择过程,更可以了解每一个执行环节的成本,然后依靠这些信息进一步优化查询。

    • 打开optimizer_trace后
    • 再执行SQL
    • 就可以查询information_schema.OPTIMIZER_TRACE表查看执行计划了
    • 最后可以关闭optimizer_trace
    SET optimizer_trace="enabled=on";
    SELECT * FROM person WHERE NAME >'name84059' AND create_time>'2020-01-24 05:00:00';
    SELECT * FROM information_schema.OPTIMIZER_TRACE;
    SET optimizer_trace="enabled=off";
    

    对于按照create_time>'2020-01-24 05:00:00’条件走全表扫描的SQL,来分析OPTIMIZER_TRACE的执行结果。

    • 使用person_name_score_indexname84059<name条件进行索引扫描需扫描33918行,成本11872,所以未选择该方案
    33918 = 查询二级索引的I/O成本和CPU成本 + 回表查询聚簇索引的I/O成本和CPU成本
    

    • 使用person_create_time_index进行索引扫描需要扫描35606行,成本是12462,也是因为成本未选择该方案
    • 最终选择全表扫描作为执行计划。全表扫描100147条记录的成本是10103,小于其他方案。

    把SQL中的create_time条件从05:00改为06:00,再次分析OPTIMIZER_TRACE。这次执行计划选择的是走person_create_time_index索引。因为是查询更晚时间的数据,走person_create_time_index索引需要扫描的行数从35606减少到了27218。这次走这个索引的成本9526.6小于全表扫描的10103,更小于走name_score索引的30435:

    考虑到索引的维护代价、空间占用和查询时回表的代价,不能认为索引越多越好。索引一定是按需创建的,并且要尽可能确保足够轻量。
    一旦创建了多字段的联合索引,我们要考虑尽可能利用索引本身完成数据查询,减少回表。

    不能认为建了索引就一定有效,对于后缀的匹配查询、查询中不包含联合索引的第一列、查询条件涉及函数计算等无法使用索引。
    即使SQL本身符合索引使用条件,MySQL也会通过评估各种查询方式的代价,来决定是否走索引,走哪个索引。

    尝试通过索引进行SQL性能优化时,请一定通过执行计划或实际的效果来确认索引是否能有效改善性能问题,否则增加了索引不但没解决性能问题,还增加了数据库增删改的负担。
    对EXPLAIN结果困惑的,还可以利用optimizer_trace查看详细的执行计划,各个索引的成本是多少,看看到底怎么挑选出来的最终方案。

    参考

    • https://dev.mysql.com/doc/internals/en/optimizer-tracing.html
    展开全文
  • batch size 大,学习率也要大 如何理解深度学习分布式训练中的large batch size与learning rate的关系? 关键理解: 在分布式训练中,batch size 随着数据并行的worker增加而增大,假设baseline的batch size为B...

    batch size 越大,学习率也要越大
    如何理解深度学习分布式训练中的large batch size与learning rate的关系?

    关键理解:

    在分布式训练中,batch size 随着数据并行的worker增加而增大,假设baseline的batch size为B,learning rate为lr,训练epoch数为N。
    如果保持baseline(小batchsize)的learning rate,一般不会有较好的收敛速度和精度。

    原因如下:

    • 对于收敛速度,假设k个worker,每次过的sample数量为kB,因此一个epoch下的更新次数为baseline的1/k,而每次更新的lr不变,所以要达到baseline相同的更新次数,则需要增加epoch数量,最大需要增加k*N个epoch,因此收敛加速倍数会远远低于k。
    • 对于收敛精度,由于增大了batch size使梯度估计相较于badeline的梯度更加准确,噪音减少,更容易收敛到附近的local minima,类似于GD的效果。

    batch size增大K倍,相当于将梯度的方差减少K倍,因此梯度更加准确
    如果要保持方差和原来SGD一样,相当于给定了这么大的方差带宽容量,那么就可以增大lr,充分利用这个方差容量。
    因此可将lr增加sqrt(K)倍,以提高训练速度,这也是在linear scaling rule之前很多人常用的增大lr的方式。但在实际中,发现直接将lr增大K倍的效果较好

    展开全文
  • 谁能为我讲清楚编译,装载,连接,初始化这之间的关系和顺序?越清楚越好。特别是涉及到static类型的成员。
  • Facebook本质上只是一个公告板,基于社交关系链接的个人公告板。每个人都拥有在自己的公告板上发布信息的权力,同时可以与他人建立好友关系并获取对方发布的信息。Facebook创立之初的设计,就是用户自我发布自我管理...

    Facebook并未泄露未被授权发布的个人隐私
    Facebook本质上只是一个公告板,基于社交关系链接的个人公告板。每个人都拥有在自己的公告板上发布信息的权力,同时可以与他人建立好友关系并获取对方发布的信息。Facebook创立之初的设计,就是用户自我发布自我管理。
    Facebook提供了多种粒度的个人信息开放控制手段供用户选择发布信息的范围。不管是所有人可见,还是好友可见,用户都很清楚自己在Facebook上发布的信息是面向公众或部分公众的。
    其中如果包含了个人隐私的话,也是用户自己主动向特定对象或不特定对象公开的。被授权访问这些个人信息的对象完全可以将此信息传播到更大的范围,而这往往是平台难以约束的。就如同用户在微博里绑定了第三方应用并授权它以自己的名义发布微博,结果应用以用户的名义发布了应用推广一样,这和微博平台本身是没有关系的。
    从社交网络平台出现以来,大众对于个人信息的发布经常是处于无知并且无畏的态度。举例来说,个人性取向是一个非常敏感的个人信息,但绝大部分用户在使用社交网络时对公开个人性取向却并不避讳。一些年轻人甚至选择Facebook作为他们正式出柜的宣言。他们将Facebook上的性取向改为对“男性”或对“女性”有兴趣并设置公开显示,这在线下场合往往是很少见到的。用户对发布如此个性化的敏感信息都如此轻率,对其它个人信息的态度可想而知。
    Facebook上有没有应该受系统严格保护的用户隐私数据呢?当然有。用户使用Facebook的时间、地点、设备信息,用户在Facebook上的浏览行为与私信,都是用户使用Facebook产生的且未对外发布的信息。
    从目前的报道来看,“剑桥分析”没有获得任何超范围授权的用户发布的信息,真正没有被授权发布的个人隐私信息也并没有流出Facebook。
    政府一起背锅
    社交媒体平台为了提供更多的差异化服务,会提供程序访问公开信息的接口,以鼓励第三方在获取用户授权的前提下抓取用户信息,并基于用户信息提供有针对性的服务。我们在微博微信上使用的各种非官方小工具,都是这样性质的服务。
    “剑桥分析”的数据提供方“全球科学研究”公司正是依靠Facebook提供的合法途径,通过制作个人性格测试应用吸引了超过三十万用户向其开放授权,从而获取了这三十万用户和其社交关系上所有好友公开发布的信息,共计牵涉到近五千万Facebook的注册用户。
    用户授权真实有效,数据获取通过官方渠道,Facebook对于第三方应用的管理原则也是目前互联网行业通用的方式。
    换句话说,此次事件被定义为个人隐私数据泄露是很牵强的,因为数据完全是遵循当时的管理框架下被“全球科学研究”获取的。如果Facebook最终被政府认定造成了个人隐私数据泄露,那么这个泄露也完全和技术无关,而是管理原则和监管方式不当造成的。
    管理原则和监管方式不当完全是Facebook的责任吗?其实政府也需要一起背锅。
    2017年8月,美国联邦法院裁定全球最大的职业社交平台领英(LinkedIn)不得屏蔽第三方初创公司通过网络爬虫抓取用户的公开信息。领英作为全球最大的职业社交平台,拥有超过5亿个注册用户。其中的大部分用户出于职业需要会发布自己的教育背景、职业经历及职业人脉网络,而且信息真实度极高。这些有巨大影响力社交平台出于信息保护和防止滥用的目的屏蔽第三方公司的网络爬虫,却被美国联邦法院最终判定为非法。
    结合Facebook的案例来看,恰恰说明了美国政府自身对社交网络上用户信息的保护与监管原则都是混乱和自相矛盾的。
    对于社交网络和其上的海量数据,无论是社交平台本身、用户、第三方使用者和政府,都没有充分意识到其中蕴含的巨大能量。公众一旦意识到了这一点,那就一定需要寻找恐惧情绪发泄的“替罪羊”,这也是Facebook被公众和媒体强烈批评的核心原因。
    Facebook能做什么?
    2014年开始,Facebook要求第三方应用在抓取已授权用户社交关系上的好友公开信息时,同时必须得到被抓取好友的授权。但“剑桥分析”所使用的应用在2013年发布,也就是新规则生效前就完成了用户授权和数据抓取的工作。2014年及以后出现的严格授权只是让”剑桥分析”无法进一步获取更新的数据。Facebook认识到了第三方应用抓取用户数据的潜在风险,并力图加以约束,但数据流出已经既成事实。
    面对用户发布个人隐私数据和授权第三方应用访问时的轻率,Facebook能够做的只是充分告知和严格审核。一旦第三方应用满足了授权要求,用户数据转移到了第三方应用那里,Facebook就已经失去了管理和控制的能力。
    Facebook并没有做什么极端跨越行业准则和道德底线的事情。它只是收集了客户发布的信息,存储客户的社交关系,并提供给经过授权的公众和第三方使用。它在数据安全管理方面并不比其它社交平台更差。
    只是在个人信息泛滥的今天,Facebook成为了最易于遭受攻击的目标。不论是社交平台、用户还是政府,对于如何管理个人信息以避免潜在的滥用风险,到今天都没有找到公认的简单有效的管理手段。在未来相当长的一段时间内,这个问题一直都将是整个社会走向数字化信息化的挑战。
    我认为Facebook唯一可以被指责的,就是发现“剑桥分析”获得海量用户数据后有可能用于其它用途时,应该及时告知政府潜在的影响,并尽早通过政府的力量来控制数据的扩散和应用范围。
    很可惜Facebook没有及时选择引入政府处理这一复杂的事件,从而导致数据应用范围失控,自身形象也在媒体曝光后遭受重大损失。
    跌落神坛
    基于海量数据收集分析和相关的策略应用对于社会的全面影响早已存在,这次被曝光的“剑桥分析”的数据分析应用方式只是震惊了公众,但对于数据分析行业内部人士看来完全不足为奇。
    “剑桥分析”只是使用了近二十年以来商业上普遍使用的客户分群技术,然后按照分群结果打上标签,并对每个群设计最优的影响策略,传播要点和最有效的传播途径。事实上,大部分商业公司就是通过类似的技术在影响着每个人的日常选择。
    只是“剑桥分析”针对特定的政治用途和获取的数据设计了全新的客户特征模型,并依赖于互联网与线下数据的结合找到了有效的个性化信息传播途径,最终改变的是每个人的另一种选择—大选投票给谁。
    通过数据分析和社交网络影响政治领域也并不是俄罗斯或者是“剑桥分析”最早的创造。早在2006年奥巴马开始为自己第一次美国总统选举做准备时,就已经把目光投向了刚刚成长起来的Facebook,并开始通过互联网树立自己别具一格的政治形象。奥巴马甚至聘请了Facebook的联合创始人克里斯·休斯担任2008年总统竞选团队的在线组织主管,进行互联网和社交网络数据的深入分析。《纽约时报》的评论文章甚至把社交网络描述为美国总统大选的第二战场。
    雷同的数据来源、相似的分析手段,一模一样的应用领域,其实数据分析和社交网络介入政治十年前就已经出现了。
    几乎同样的事件为什么以前被认为是互联网高效率的体现,而这次却被认为是个人信息滥用和丑闻?
    只因为这次利用数据分析影响政治的使用对象有可能是特朗普或者是俄罗斯,再加上公众对被社交媒体操控的深刻恐惧,导致公众有如此大的反响。再加上媒体的推波助澜以及部分事实被有意无意的歪曲和放大,最终导致Facebook沦落到千夫所指的地步。
    谁该审视自身?
    最应该审视自身的当然是“全球科学研究”和“剑桥分析”那些交易并滥用个人信息的企业和机构。但在此事中那三十万向个人性格测试应用授权的用户也应该审视自己轻易授权数据访问的愚蠢行为。
    我们在手机上安装应用的时候,有时会发现应用申请访问手机的通讯录,这是需要谨慎对待的操作。对于智能手机来说,通讯录早就不是只存放电话号码那么简单了,里面可能会有好友的电子邮件、微信号、生日备注甚至家庭住址。对于支持和邮件系统同步的智能手机来说,更是可以一键把全部好友信息导入到手机通讯录中。如果某人在手机上授权不明应用访问自己的通讯录,那就是把所有好友的个人信息置于危险境地。在这种情况下发生的数据泄露,除了恶意应用外,主要的责任就是在用户本身,而与手机平台本身无关。
    当然,不是每个人的知识水平都能够认识到这一点。但是很不幸,这些知识已经成为个体生活在数字化社会的常识,不了解这些常识就会受到惩罚。
    “剑桥分析”之所以能够获取高达近五千万用户的信息,就是依靠那三十万授权用户的无知无畏的行为——他们向应用开放的除了自己的个人信息,还包括自己社交网上所有好友的个人信息和Facebook上的活动,如点赞、评论等。而这三十万授权用户都是社交网络的活跃分子,在Facebook上的人均好友数超过160。于是他们轻率愚蠢的行为让自己160个以上的好友信息暴露在数据抓取工具的面前,最终受害者从三十万跃升到了五千万。
    在互联网时代,我们应该像看守着自己的钱包一样看守自己的数字资产。要知道,你的数字资产在很大程度上会出卖你的一切。就像警察不可能制止所有偷盗钱包的行为,不论是平台还是政府监管机构,都不可能完全封杀窃取个人信息的威胁。如果公众自己都不能在这次Facebook事件中很好的反思应该承担的责任并吸取教训,而是把所有罪责都推向Facebook,那么未来类似的“个人信息泄露”还会不断地发生。
    随着大数据、物联网和人工智能时代的来临,更多的个人数据将会被海量的智能设备生产出来。从智能摄像头到声音采集设备,再加上各种智能交通与监控设备,每个人将无时无刻不被智能设备识别、跟踪、采集信息。当这些信息在公众区域采集并被加上个人识别特征后,数据的所有权和应用范围就成为新的应用和监管难题。
    以Amazon Go商店为例,客户在商店内的数字化行为信息到底是Amazon所有还是客户所有?Amazon是否可以通过信息交易获取收益?这些都是数字化世界的新问题。
    在整个世界全面数字化的未来,要想防止数据分析在各个领域包括政治领域的全面渗透与应用是不可能的。我们要考虑的是如何通过监管手段降低数据分析和未来的人工智能的负面因素的影响,使其在可控的范围内,并摸索出一条行之有效的监管之路。全面数字化时代的个人信息应该如何被管理以发挥效能并降低滥用的风险,不只是像Facebook这样的社交平台面临的挑战,更是各国政府必须解决的监管难题

    展开全文
  • 耦合度越低越好吗?

    千次阅读 2019-05-21 08:49:18
    先说说3层架构,一般数据层,...通常的情况下,XXBusiness和XXDao是组合关系,即XXBusiness有一个XXDao的对象。 一般情形如下 XXBusiness{ private XXDao mXXDao ; public XXBusiness(){ XXDao = new XXDao (...
  • 第一就是网站要有竞争优势,能在同类网站中处于领先地位。技术没有优势,我能做,别人也能做。规模,没有优势,没有强大的资金支持,短时间内很难做得很大。... 优化网站结构这类分类越细越好  这搭分两内部优化
  • 除了父母,没有任何人希望你过得比他们,包括一母同胞的兄弟姊妹,所以,不要在任何人面前...颜值高当然是好事,如果没有一副皮囊也没关系,但是不能没有一个心态,“相由心生”,健康的心态有助于结交更多有用的
  • 关于管理,这5大误区你越早知道越好 原创: 陈春花 管理的常识 5天前 绝大部分人都感觉自己已经非常努力地工作,但结果却不尽如人意,到底问题出在哪里? 就让北京大学国家发展研究院管理学教授、北大国发院BiMBA...
  • 最近在研究分词器,一直很迷惑,solr、Lucene、IKAnalyzer这三者关系是怎样的,越详细越好,谢谢!
  • 几 年前的一天,布兰登·格林(Brandon Green)坐在沙发上,琢磨着他在工作中犯的一个小错和可能酿成的后果。这时格林的室友走进来,开始跟他讲那天他遇到...他说:“没关系,你不笑只是因为你不是一个快乐的人。” 2
  • 行走职场,口风严密,这是有职场素养、城府深的表现。...跟领导关系,也别向同事说他这3件事,口风不严的人,一定会差。【一】领导对别人的忍让。忍让是一种智慧,而不是炫耀的资本。行走职场,要...
  • 一、从精度到效果 随着房地一体项目的结束,在现代测绘手段和国家重大需求的双重驱动下,“实景三维中国”建设成为市场主旋律。 **应用端对倾斜模型的...经验性地,我们认为焦距越长肯定模型效果越好,结果却发现:反
  • 偶尔看到顺便转载  一个现代的企业都希望自己能够笼络到更多...来自哥伦比亚大学的研究人员跟其他机构一起进行了多次的实验,那就是检验明星队友跟团队效率之间的关系。他们将研究目标放在了 NBA、英超联赛和美...
  • 其实,刚也不需要懂什么领导艺术,明白这5个潜规则,躲开这5个暗坑,轻装上阵当领导,摆平关系很简单,越走越顺,越混越好。【一】认清“二八定律”潜规则,躲开追求完美的暗坑。新官上任三把火,很...
  • 两个水平相当的人去同一家公司面试,往往会发现最终的薪资并不相同,这与他们面试中的表现有很大的关系。那么,对于Java开发人员来说,如何准备Java面试才能获得更高的薪资呢?下面,我就给大家分享一些技巧。 一、...
  • 很多进入体制内的职场新人都会问,没关系没背景,不会跑也不会送,更不懂人情世故,怎么才能越混越好呢?领导重用的人,也不完全都是什么“关系户”,首先他要认为你“靠谱”。那么,靠谱是怎么得来的?关键还是体现...
  • 吃得越多越好是否营养真的就跟上了呢?不一定。 产后第一关就是婴儿哺乳期,哺乳期的营养摄入不仅关系到宝妈的产后恢复,对小宝宝的发育成长更是至关重要,那哺乳期究竟应当怎么吃呢? 调查表明宝妈们的膳食结构大都...
  • 在总结国内外污泥氧消化研究的基础上,对污泥氧消化活性参数的选择、污泥氧消化的动力学关系式以及温度、消化时间、污泥龄、pH值等相关问题进行了探讨与分析。并得出如下结论:TTC-DHA是描述污泥氧消化降解...
  • 这两天因为其他的人际关系的事要处理,所以耽误了两天的学习。正好,也有两天的时间冷静一下让我今天好好思考这个难倒我几天的问题。 先把示例代码贴出来(《JavaScript DOM编程艺术》p131): function ...
  • 小林名校毕业,立志要到广阔天地造福一方水土。他在县级单位工作,名校生少,自带光环,自我高估,自认为前途远大。...排除“关系”因素,名校生与普校生的发展,取决于这三个“潜规则”,如果看懂了,名校生...
  • 朋友

    2017-05-13 17:06:50
    同学之间的关系好坏可以用一个亲密值表示,亲密值越大,两个同学关系越好。小A作为W校信息组的组长,自然想要让同学们在比赛前能好好休息,放松心情,让同学们在赛场上能够超常发挥。他现在知道自己预订的房间都是...
  • 什么是数据库?        数据库(Database)是按照数据结构...所谓的关系型数据库,是建立在关系模型基础上的数据库,借助于集合代数等数学概念和方法来处理数据库中的数据。  
  • 你和领导关系好,说话机会多,反而要把握尺度,嘴上把住门,随意说出这4种“小话”(私话),轻者让领导厌烦,有意疏远你,重者直接翻脸,后果很严重。【1】评价领导之间关系的小话。领导也是凡人,有情绪有...
  • 平时跟领导关系,混得人际关系,在酒场上也不能放肆,如果嘴巴不把门,说了这3句话,嘴快无命,领导跟你翻脸,把你打入冷宫,不予重用,差。【一】第一大忌讳:喧宾夺主的话。职场上的饭局,是职场...
  • 【温州中学】朋友

    2019-10-07 18:34:33
    同学之间的关系好坏可以用一个亲密值表示,亲密值越大,两个同学关系越好。小A作为W校信息组的组长,自然想要让同学们在比赛前能好好休息,放松心情,让同学们在赛场上能够超常发挥。他现在知道自己预订的房间都是...
  • 你懂得C++多,它就伤害你

    千次阅读 2012-04-19 11:09:44
    前些天有个朋友问我,要不要去读读《Effective C++》,我忽然给出一个建议:不要读,最多看一下目录就了。作为一本非常受欢迎的C++教材,我为什么要建议朋友不要读呢?事后我反思了一下我的想法:《Effective C++...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 2,440
精华内容 976
关键字:

关系越好