精华内容
下载资源
问答
  • 为什么不让路透
    千次阅读
    2019-04-25 23:36:53

    如果一段数据中出现EOT,那我要怎么告诉计算机,这个不是
    结束。不然的话后面的数据部分会被接收端当做无效帧而丢
    弃。

    通过字节填充法可以解决上面这个问题(透明传输的问题)
     发送端的数据链路层,在含有开始,结束和这字符本身的二
    进制编码插入“ESC”字符,才发送给接收端的数据链路层,
    然后接收端的数据链路层再把对方加的字符删掉,才发给自
    己的网络层
       也就是说,“ESC”字符的加加减减只在数据链路层中实
    现,出到其它层之后就好似乜都无发生过,像没加过一样,
    所以叫透明传输,我们也把这个“ESC”字符的加加减减叫做
    字节填充/字符填充。

    更多相关内容
  • 北京技术峰会,汤森路透金融数据分析平台
  • 路透社以国别基础,利用其遍布全球的记者站收集各国有关传统媒体和数字发展现状
  • 路透社金融词汇中英.doc
  • 路透社金融词汇中英.docx
  • 路透社数据集

    千次阅读 2021-03-11 18:28:37
    文章目录路透社数据集简介keras中使用路透社数据集加载数据集准备数据数据样本向量化标签向量化创建验证集构建网络编译模型训练模型绘制训练损失和验证损失绘制训练精度和验证精度评估模型预测 路透社数据集简介 ...

    路透社数据集简介

    路透社数据集包含许多短新闻及其对应的主题,由路透社在 1986 年发布。它是一个简单的、广泛使用的文本分类数据集。它包括 46 个不同的主题:某些主题的样本更多,但训练集中每个主题都有至少 10 个样本。
    有 8982 个训练样本和 2246 个测试样本

    keras中使用路透社数据集

    与 IMDB 和 MNIST 类似,路透社数据集也内置为 Keras 的一部分

    加载数据集

    参数 num_words=10000 将数据限定为前 10 000 个最常出现的单词
    有 8982 个训练样本和 2246 个测试样本
    每个样本都是一个整数列表(表示单词索引)
    样本对应的标签是一个 0~45 范围内的整数,即话题索引编号

    from keras.datasets import reuters
    (train_data, train_labels), (test_data, test_labels) = reuters.load_data(num_words=10000)
    # 查看数据
    print(len(train_data))
    print(len(test_data))
    # 输出第十个数据
    print(train_data[10])
    # 输出第十个数据的标签
    print(train_labels[10])
    

    准备数据

    数据样本向量化

    import numpy as np
    # 数据向量化
    def vectorize_sequences(sequences, dimension=10000):
     results = np.zeros((len(sequences), dimension))
     for i, sequence in enumerate(sequences):
      results[i, sequence] = 1.
     return results
    x_train = vectorize_sequences(train_data) 
    x_test = vectorize_sequences(test_data)
    

    标签向量化

    将标签向量化有两种方法:

    1. 将标签列表转换为整数张量
    2. 使用 one-hot 编码,one-hot 编码是分类数据广泛使用的一种格式,也叫分类编码(categorical encoding)

    在这个例子中,标签的 one-hot 编码就是将每个标签表示为全零向量,只有标签索引对应的元素为 1。

    # 标签向量化
    def to_one_hot(labels, dimension=46):
     results = np.zeros((len(labels), dimension))
     for i, label in enumerate(labels):
      results[i, label] = 1.
     return results
    one_hot_train_labels = to_one_hot(train_labels) 
    one_hot_test_labels = to_one_hot(test_labels) 
    

    标签向量化可以使用Keras 内置方法

    from keras.utils.np_utils import to_categorical
    one_hot_train_labels = to_categorical(train_labels)
    one_hot_test_labels = to_categorical(test_labels)
    

    另一种编码标签的方法,就是将其转换为整数张量

    y_train = np.array(train_labels)
    y_test = np.array(test_labels)
    

    创建验证集

    x_val = x_train[:1000]
    partial_x_train = x_train[1000:]
    y_val = one_hot_train_labels[:1000]
    partial_y_train = one_hot_train_labels[1000:]
    

    构建网络

    网络的最后一层是大小为 46 的 Dense 层。这意味着,对于每个输入样本,网络都会输
    出一个 46 维向量。这个向量的每个元素(即每个维度)代表不同的输出类别。
    最后一层使用了 softmax 激活。网络将输出在 46个不同输出类别上的概率分布——对于每一个输入样本,网络都会输出一个 46 维向量,其中 output[i] 是样本属于第 i 个类别的概率。46 个概率的总和为 1。
    对于这个例子,最好的损失函数是 categorical_crossentropy(分类交叉熵)。它用于衡量两个概率分布之间的距离,这里两个概率分布分别是网络输出的概率分布和标签的真实分布。通过将这两个分布的距离最小化,训练网络可使输出结果尽可能接近真实标签。

    from keras import models
    from keras import layers
    model = models.Sequential()
    model.add(layers.Dense(64, activation='relu', input_shape=(10000,)))
    model.add(layers.Dense(64, activation='relu'))
    model.add(layers.Dense(46, activation='softmax'))
    

    编译模型

    使用one-hot编码对标签进行向量化时使用的损失函数为categorical_crossentropy

    model.compile(optimizer='rmsprop',
     loss='categorical_crossentropy',
     metrics=['accuracy'])
    

    对于将标签列表转换为整数张量这种编码方法,唯一需要改变的是损失函数的选择。对于整数标签,应该使用sparse_categorical_crossentropy。

    model.compile(optimizer='rmsprop',
     loss='sparse_categorical_crossentropy',
     metrics=['acc'])
    

    训练模型

    history = model.fit(partial_x_train,
     partial_y_train,
     epochs=50,
     batch_size=128,
     validation_data=(x_val, y_val))
    

    绘制训练损失和验证损失

    import matplotlib.pyplot as plt
    loss = history.history['loss']
    val_loss = history.history['val_loss']
    epochs = range(1, len(loss) + 1)
    plt.plot(epochs, loss, 'bo', label='Training loss')
    plt.plot(epochs, val_loss, 'b', label='Validation loss')
    plt.title('Training and validation loss')
    plt.xlabel('Epochs')
    plt.ylabel('Loss')
    plt.legend()
    plt.show()
    

    在这里插入图片描述

    绘制训练精度和验证精度

    在这里插入图片描述

    plt.clf()  # 清空图像
    acc = history.history['acc']
    val_acc = history.history['val_acc']
    plt.plot(epochs, acc, 'bo', label='Training acc')
    plt.plot(epochs, val_acc, 'b', label='Validation acc')
    plt.title('Training and validation accuracy')
    plt.xlabel('Epochs')
    plt.ylabel('Accuracy')
    plt.legend()
    plt.show()
    

    评估模型

    results = model.evaluate(x_test, one_hot_test_labels)
    print(results)
    

    预测

    predictions = model.predict(x_test)
    print(predictions)
    
    展开全文
  • 路透ORA面试题

    2016-01-03 09:11:57
    路透ORA面试题,主要侧重是 ORACLE DBA方面。希望对大家有帮助。
  • 外企(汤森路透面试题)

    热门讨论 2011-10-19 14:53:15
    曾经的面试题,对于谋求该公司职位帮助很大
  • 程序用于对路透消息的爬取,实时爬取最新发布的消息。
  • 路透社数据集——新闻主题多分类

    千次阅读 2020-04-27 19:32:12
    与IMDB 和MNIST 类似,路透社数据集也内置Keras 的一部分。 我们需要将路透社新闻划分46 个互斥的主题。因为有多个类别,所以这是多分类(multiclass classification)问题的一个例子。因为每个数据点只能划分到...

    1.数据集及问题简介

    路透社数据集(Reuter),它包含许多短新闻及其对应的主题,由路透社在1986 年发布。它是一个简单的、广泛使用的文本分类数据集。它包括46 个不同的主题:某些主题的样本更多,但训练集中每个主题都有至少10 个样本。与IMDB 和MNIST 类似,路透社数据集也内置为Keras 的一部分。

    我们需要将路透社新闻划分为46 个互斥的主题。因为有多个类别,所以这是多分类(multiclass classification)问题的一个例子。因为每个数据点只能划分到一个类别,所以更具体地说,这是单标签、多分类(single-label, multiclass classification)问题的一个例子。如果每个数据点可以划分到多个类别(主题),那它就是一个多标签、多分类(multilabel,multiclass classification)问题。

    2.加载数据集并探索数据

    from keras.datasets import reuters
    
    (train_data, train_labels), (test_data, test_labels) = reuters.load_data(num_words=10000)
    
    print(len(train_data)) #8982
    print(len(test_data)) #2246
    print(train_data[10])
    print(train_labels[10]) # 3
    

    与IMDB 数据集一样,参数num_words=10000 将数据限定为前10 000 个最常出现的单词。我们有8982 个训练样本和2246 个测试样本。与IMDB 评论一样,每个样本都是一个整数列表(表示单词索引)。样本对应的标签是一个0~45 范围内的整数,即话题索引编号。

    我们可以用下列代码将索引解码为单词。

    word_index = reuters.get_word_index()
    reverse_word_index = dict([(value, key) for (key, value) in word_index.items()])
    # Note that our indices were offset by 3
    # because 0, 1 and 2 are reserved indices for "padding", "start of sequence", and "unknown".
    decoded_newswire = ' '.join([reverse_word_index.get(i - 3, '?') for i in train_data[0]])
    

    3.准备输入的数据

    import numpy as np
    
    def to_one_hot(labels, dimension=46):
        results = np.zeros((len(labels), dimension))
        for i, label in enumerate(labels):
            results[i, label] = 1.
        return results
    
    # Our vectorized training labels
    one_hot_train_labels = to_one_hot(train_labels)
    # Our vectorized test labels
    one_hot_test_labels = to_one_hot(test_labels)
    

    Keras 内置方法也可以实现这个操作。

    from keras.utils.np_utils import to_categorical
    
    one_hot_train_labels = to_categorical(train_labels)
    one_hot_test_labels = to_categorical(test_labels)
    

    4.构建网络

    这个主题分类问题与前面的电影评论分类问题类似,两个例子都是试图对简短的文本片段进行分类。但这个问题有一个新的约束条件:输出类别的数量从2 个变为46 个。输出空间的维度要大得多。对于前面用过的Dense 层的堆叠,每层只能访问上一层输出的信息。如果某一层丢失了与分类问题相关的一些信息,那么这些信息无法被后面的层找回,也就是说,每一层都可能成为信息瓶颈。上一个例子使用了16 维的中间层,但对这个例子来说16 维空间可能太小了,无法学会区分46 个不同的类别。这种维度较小的层可能成为信息瓶颈,永久地丢失相关信息。出于这个原因,下面将使用维度更大的层,包含64 个单元。

    from keras import models
    from keras import layers
    
    model = models.Sequential()
    model.add(layers.Dense(64, activation='relu', input_shape=(10000,)))
    model.add(layers.Dense(64, activation='relu'))
    model.add(layers.Dense(46, activation='softmax'))
    

    关于这个架构还应该注意:

    • 网络的最后一层是大小为 46 的 Dense 层。这意味着,对于每个输入样本,网络都会输出一个46 维向量。这个向量的每个元素(即每个维度)代表不同的输出类别。
    • 最后一层使用了 softmax 激活,网络将输出在 46个不同输出类别上的概率分布——对于每一个输入样本,网络都会输出一个46 维向量,其中output[i] 是样本属于第i 个类别的概率。46 个概率的总和为1。对于这个例子,最好的损失函数是categorical_crossentropy(分类交叉熵)。它用于衡量两个概率分布之间的距离,这里两个概率分布分别是网络输出的概率分布和标签的真实分布。通过将这两个分布的距离最小化,训练网络可使输出结果尽可能接近真实标签。

    5.编译网络

    model.compile(optimizer='rmsprop',
                  loss='categorical_crossentropy',
                  metrics=['accuracy'])
    

    6.从训练集中留出验证集

    x_val = x_train[:1000]
    partial_x_train = x_train[1000:]
    
    y_val = one_hot_train_labels[:1000]
    partial_y_train = one_hot_train_labels[1000:]
    

    7.训练模型

    history = model.fit(partial_x_train,
                        partial_y_train,
                        epochs=20,
                        batch_size=512,
                        validation_data=(x_val, y_val))
    

    8.画出训练数据

    import matplotlib.pyplot as plt
    %matplotlib inline
    
    loss = history.history['loss']
    val_loss = history.history['val_loss']
    
    epochs = range(1, len(loss) + 1)
    
    plt.plot(epochs, loss, 'bo', label='Training loss')
    plt.plot(epochs, val_loss, 'b', label='Validation loss')
    plt.title('Training and validation loss')
    plt.xlabel('Epochs')
    plt.ylabel('Loss')
    plt.legend()
    
    plt.show()
    

    在这里插入图片描述

    plt.clf()   # clear figure
    
    acc = history.history['accuracy']
    val_acc = history.history['val_accuracy']
    
    plt.plot(epochs, acc, 'bo', label='Training acc')
    plt.plot(epochs, val_acc, 'b', label='Validation acc')
    plt.title('Training and validation accuracy')
    plt.xlabel('Epochs')
    plt.ylabel('Loss')
    plt.legend()
    
    plt.show()
    

    在这里插入图片描述

    9.根据训练数据,重新训练模型并测试

    网络在训练9 轮后开始过拟合。我们从头开始训练一个新网络,共9 个轮次,然后在测试集上评估模型。

    model = models.Sequential()
    model.add(layers.Dense(64, activation='relu', input_shape=(10000,)))
    model.add(layers.Dense(64, activation='relu'))
    model.add(layers.Dense(46, activation='softmax'))
    model.compile(optimizer='rmsprop',
    loss='categorical_crossentropy',
    metrics=['accuracy'])
    model.fit(partial_x_train,
    partial_y_train,
    epochs=9,
    batch_size=512,
    validation_data=(x_val, y_val))
    results = model.evaluate(x_test, one_hot_test_labels)
    
    results 
    

    [1.006295904344676, 0.7849510312080383]

    这种方法可以得到约80% 的精度。对于平衡的二分类问题,完全随机的分类器能够得到50% 的精度。但在这个例子中,完全随机的精度约为19%,所以上述结果相当不错,至少和随机的基准比起来还不错。

    import copy
    #【完全随机】
    test_labels_copy = copy.copy(test_labels)
    np.random.shuffle(test_labels_copy)
    float(np.sum(np.array(test_labels) == np.array(test_labels_copy))) / len(test_labels)
    

    0.18432769367764915

    10.使用训练好的网络在新数据上生成预测结果

    predictions = model.predict(x_test)
    print(predictions[0].shape) #(46,)
    print(np.sum(predictions[0])) #0.99999994
    print(np.argmax(predictions[0])) #3
    

    总结

    • 如果要对 N个类别的数据点进行分类,网络的最后一层应该是大小为N的Dense层。
    • 对于单标签、多分类问题,网络的最后一层应该使用softmax 激活,这样可以输出在N个输出类别上的概率分布。
    • 这种问题的损失函数几乎总是应该使用分类交叉熵。它将网络输出的概率分布与目标的真实分布之间的距离最小化。
    • 处理多分类问题的标签有两种方法。
    • 通过分类编码(也叫 one-hot 编码)对标签进行编码,然后使用 categorical_crossentropy作为损失函数。
    • 将标签编码为整数,然后使用 sparse_categorical_crossentropy损失函数。
    • 如果你需要将数据划分到许多类别中,应该避免使用太小的中间层,以免在网络中造成信息瓶颈。
    展开全文
  • 使用甲骨文CEP实现Thomson Reuters(路透社的TradeWeb平台监控
  • 作为一个学术渣,突然心血来潮,想搞明白困扰很久的中科院分区和汤森路透分区到底是咋回事,曾经听人忽悠某某杂志几区,IF多少,说的云里雾里,感觉自己白活了这么多年。你是不是也有这种感觉,要是有那就对了,不用...

    作为一个学术渣,突然心血来潮,想搞明白困扰很久的中科院分区和汤森路透分区到底是咋回事,曾经听人忽悠某某杂志几区,IF多少,说的云里雾里,感觉自己白活了这么多年。你是不是也有这种感觉,要是有那就对了,不用担心,看完这篇文章,保证让你彻底摆脱搞不清期刊分区的困扰,以后在小伙伴儿面前装逼那叫一个666啊。不要崇拜我,让我在此装一波。。。为了搞明白文章的汤森路透JCR分区中科院JCR分区,查了不少资料,发现小木虫上有位老铁(cctt0661)总结了一部分,但是不全面,在此借鉴一部分你的内容,为你祝福,祝你半年1篇IF>10的文章。加上我自己的努力,现奉上快速查询到文章JCR分区的方法。


    文献管理软件EndNote X9中文视频教程,全网最全,附赠科研论文作图教程及SCI写作指导。EndNote方便您管理文献,快速添加及修改引用文献,一键更换全文所有文献的引用格式!附赠最新破解版软件。点击链接查看:
    https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.594c1debU3qd0e&id=579600769149


    一、中科院分区与汤森路透分区的简介

    关于JCR(Journal Citation Reports,期刊引证报告)期刊分区影响较为广泛的有两种:一种是Thomson Reuters公司自身制定的分区,另一种是中国科学院国家科学图书馆制定的分区(简称中科院分区)。它们均基于SCI收录期刊影响因子基础之上。

    二者区别:

    Thomson Reuters(汤森路透)公司本身做了分区,按Thomson Reuters的学科分类,分四区,四等分。经咨询Thomson Reuters工作人员,Thomson Reuters的分区是按照学科进行的,就是把某一个学科的所有期刊都按照上一年的影响因子降序排列,然后平均4等分(各25%),分别是Q1,Q2,Q3,Q4。

    中科院分区:被更多的机构采纳以作为科研评价的指标。由于不同学科之间的SCI期刊很难进行比较和评价,中国科学院国家科学图书馆世界科学前沿分析中心(原中国科学院文献情报中心),对目前SCI核心库加上扩展库期刊的影响力等因素,以年度和学科为单位,对SCI期刊进行4个等级的划分。一般而言,发表在1区和2区的SCI论文,通常被认为是该学科领域的比较重要的成果。

    中科院JCR分区表对所有期刊的学科划分作出如下规定:

    • 大类学科:医学、生物、农林科学、环境科学与生态学、化学、工程技术、数学、物理、地学、地学天文、社会科学、管理科学及综合性期刊,共13个大类。

    • 小类学科:即JCR学科分类体系Journal Ranking确定的176个学科领域。

    需要注意的是,一本期刊只可属于一个大类学科,但是一本期刊却可以属于多个不同的小类学科。

    图1 中科院分区工程技术分区示例

    例如期刊Advanced Materials,只属于'工程技术'的大类学科,但具体可进一步细分为5个小类学科。

     

    图2 中科院分区和汤森路透分区示意图


    二、中科院分区查询方法

    1.点击链接

    http://www.letpub.com.cn/index.php?page=journalapp

    进入最新SCI影响因子查询及期刊投稿分析系统。

    2.在红圈'期刊名'处输入要查询的期刊,如RSC Advances,进行搜索。

    3.搜索后就可得到RSC Advances信息,简单,快捷。

     


    三、汤森路透分区查询方法

    1.打开'Web of Science' 在'基本检索栏'中输入杂志名称,后面检索类型选择'出版物名称',比如输入'RSC Advances'点击'检索',如下图操作。

     

    2.点击搜索后右侧出现该杂志收录的文章,随便点进去浏览一篇即可

     

    3.进去后会看到文章的详细信息,点击'查看期刊影响力'

     

    4.期刊影响因子及分区信息一目了然

     


    其实,这些都是很常识性的东西,只是大家平时都不太关注这个,了解完后对大家发文章,选期刊,达到博导硕导毕业要求有很大帮助,比起盲目投一些期刊,虽然短时间内口碑不错,但是期刊分区末流,有些老板明确要求要1区文章,可是你的文章头的影响因子不错,但就属于3区,这就很尴尬了,所以搞学术搞得不仅仅是做实验,写paper的能力,还有你选择与外界共享成果的是否合理有关。希望之前像我一样的学术渣渣,如果你还搞不清杂志是如何分369等的,希望你有机会看到这篇水文,衷心希望你看到后有收获,对你有帮助。

    展开全文
  • TDA-Training1.ppt

    2019-05-17 14:13:23
    汤森路透,文本分析工具TDA介绍。
  • 路透英文词典,适合与国际会计接轨的学习。内容详细具体。
  • 路透社:华为要求Verizon支付逾10亿美元专利使用费

    千次阅读 多人点赞 2019-06-13 09:19:59
    【TechWeb】6月13日消息,据路透社报道,当地时间周三,据知情人士透露,华为已告诉美国最大移动运营商Verizon,它应该使用华为的230多项专利而支付专利许可费,专利使用费总金额将超过10亿美元。 上述知情人士...
  • 传就是只提供通道,不对你要传递的业务做任何处理,也关心你要传什么业务。 就是所谓的透明传输,不管传的是什么,所采用的设备只是起一个通道作用,把要传输的内容完好的传到对方! 简单点说,传的设备是...
  • 深度学习多分类问题--路透社数据集

    千次阅读 2019-02-24 20:14:02
    本次构建一个网络,将路透社新闻划分46个类别。因为有多个类别,所以这是多分类问题。每个数据点只能划分到一个类别,所以,这是一个单标签,多分类问题。如果每个数据点可以划分到多个类别,那么就是多标签,多...
  • 这么大的发展机遇,为什么BAT们去研究,却一个劲儿的整这些生活中本来已经很方便的服务,比如团购啊,外卖啊,零售啊这些很一般的东西,却投个几百上千亿去搞。 放着制造业水平落后人家几十年,很多设备还需要买...
  • 随便2019年的“黑天鹅”事件以来,越来越多的城市陷入随时停摆的风险中,特种车主机厂的员工出差成本和风险也越来越高,布边全国各地的销售网点无法正常开展工作,在新冠已经成为日常的情况下,我们不得开始思考...
  • 1)LDA 属于无监督学习,所有的主题并需要事先指定,是在聚类过程中逐渐形成的 。 2)MLlib 的 LDA 使用了 GraphX 来提高计算效率,尽管它的输入和输出都不是图。 3)LDA 是基于隐含变量的,在这里隐含变量指...
  • 文章目录1 使用点对点信道的数据链层1.1 数据链路和帧1.2 三个基本问题1. 封装成帧2 点对点协议 PPP3 使用广播信道的数据链层4 扩展的以太网5 高速以太网 数据链层使用的信道主要有以下两种类型: 点对点信道...
  • 知道的同学,请百度吧~ 之前也介绍了分区,但是完整,今天补充一下。希望能有所帮助吧。 在中国高校读研,这个是基础知识吧。遗憾的是之前没有了解,最近才知道,orz。 筒子们,分区有2种啊,2种啊,2种啊!...
  • 企业文化之华为和汤森路透

    千次阅读 2018-05-04 23:28:39
    刚刚完成汤森路透的两天的企业文化研讨会,作为一个在华为和路透都工作过多年的人,我自觉的想对这两家各具鲜明特色的公司文化做一番对比。什麽是企业文化?百度百科里面给出的定义:“企业文化,或称组织文化...
  • 本数据库包含来自路透社的11,228条新闻,分为了46个主题。与IMDB库一样,每条新闻被编码一个词下标的序列。上代码:from keras.datasets import reuters from keras.utils.np_utils import to_categorical from ...
  • https://blog.csdn.net/Sunflower02/article/details/81187569
  • mahout处理路透社语料步骤,转换成需要的格式
  • 什么是透明传输

    千次阅读 2017-02-11 13:03:52
    透明传输是指不管所传数据是什么样的比特组合,都应当能够在链路上传送。当所传数据中的比特组合恰巧与某一个控制信息完全一样时,就必须采取适当的措施,使收方不会将这样的数据误认为是某种控制信息。这样才能保证...
  • #输出路透社语料库中的主题种类 reutersGenres = reuters.categories() print(reutersGenres)
  • 路透社新闻 --- jsoup解析html

    千次阅读 2014-11-15 16:10:45
    路透中文网:http://cn.reuters.com/ 本应用主要使用 jsoup 实现html解析和数据展示  所以只取其中三个部分(热点文章,中国财经,国际财经) 其他组件:  PagerSlidingTabStrip ,ViewPager,Fragment结合使用...
  • 为什么不推荐使用存储过程?

    万次阅读 多人点赞 2019-06-17 18:00:33
    微信公众号:架构师修行之(ID:jiagoushixiuxing) 上一篇: SpringBoot一个依赖搞定Session共享,没有比这更简单的方案了! 一、存储过程是什么? 存储过程(Stored Procedure)是在大型数据库系统中,一组...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 97,987
精华内容 39,194
热门标签
关键字:

为什么不让路透