精华内容
下载资源
问答
  • 助记什么有什么用

    千次阅读 2019-02-04 19:36:34
     玩加密货币的朋友相信对助记陌生,我们在使用钱包之前,会让你备份12个单词,在备份期间允许截图操作,并且不断强调这12个单词非常重要,最好物理方式备份,备份时身边不要任何人。  对于普通用户来...

    助记词是什么,有什么用?

     

            玩加密货币的朋友相信对助记词都不陌生,我们在使用钱包之前,会让你备份12个单词,在备份期间不允许截图操作,并且不断强调这12个单词非常重要,最好用物理方式备份,备份时身边不要有任何人。

      对于普通用户来说,如果只是一味的向他们强调助记词重要性的结论,而不告诉背后的原因的话,是很难调动起人的底层动力的,很可能过几天就忘了助记词的重要性(小编已经看过不少在群里呼唤自己因为助记词丢失而导致破产的杯具)。

      助记词的英文是Mnemonic,在大部分人的印象中,助记词=私钥,是导入钱包的工具,其实准确的说,助记词≥私钥,那么,助记词到底是从何而来,助记词到底有什么用呢?

    多账户需求

      我们先拿现实生活的例子打一个比方,通常来说,我们存在银行的钱都会有很多账户,有的账户用来买煎饼果子的零钱账户,有的是用来对公业务的账户,有的是存大额资产的账户。这些账户只需要一个身份证就能够办理,我们用一个身份证可以在网银上登录很多账户,万一银行卡不慎丢失了,也可以通过身份证进行补办。在现实生活中,身份证是无比重要的。

      而到了数字货币的世界,道理也是一样的,为了业务的方便,我们通常想要有多个账户,满足不同场景的需求。如果说每次创建账户都在公链上生成一个私钥,那就像每次办理银行卡都要记忆一长串的银行卡号一样的反人性。

    降低出错概率

      众所周知,在区块链世界里,只要保留了私钥,就能解锁账户,但是通常来说私钥是由64位的很长的字符串组成,如果我们想要创建100个账户,那我们就要记100个私钥,记录和保存成本是非常大的,况且,在记录海量的私钥的过程中,可能还会出现地址和私钥匹配不上的问题,或者记录时粗心大意写错字母的问题,等等,总而言之,出错的概率是很高的,由于数字货币这种“只认私钥不认人”的特点,这些小的错误很可能导致资产无法找回。

    保护隐私

      由于区块链公有链的公开的特性,链上的所有转账记录任何人都可以查到,如果同一个账户关联的收入支出太多了,最终是可以摸出一些线索,把你和一些交易给匹配起来的,所以为了隐私考虑,我们的很多隐私业务通常会创建出新的账户来进行交易。

      聪明的开发人员为了解决上述问题,提出了Bip39协议。Bip39协议的全称是Bitcoin protocol,最初是由比特币社区的开发者提出,后来被其他的主流区块链项目所认可,继而成为了整个行业共识和规范。

    BIP39协议的核心是,由12个单词来确定自己的账户,12个单词会生成很大的种子,从2的256次方选出一个数,由于随机生成的数是很大的,所以完全不用担心生成的12个单词会重复。

    12个单词生成的账户是固定的,拿到的12个单词就可以创建无数多的私钥、公钥和地址。

      用公式表示他们之间的关系,可写成如下形式:

      私钥=算法1(助记词)

      公钥=算法2 (私钥)

      公钥哈希=算法3 (公钥)

      地址=算法4 (公钥哈希)

      所以,地址=算法4(算法3(算法2(算法1(助记词))))

      当然,算法1、2、3、4都是公开的算法。

      通过密码学的保证,生成的单词顺序和内容是不可能会重复的,通过助记词,我们可以生成任意公链的地址,需要多少的地址就能够生成有多少个地址。

      大家可以通过https://iancoleman.io/bip39/生成助记词或者查看助记词对应的私钥、公钥和地址。

      并且,BIP39协议几乎是支持所有公链的。

           小豹拿小豹私人的Matemask的助记词做了个实验:

     

      可以看到,通过我的Matemask的助记词创建的账户地址,和网站生成的地址是一模一样的,就连顺序也是高度一致的。

    技术角度理解助记词

      从技术上的角度来说,BIP39 是通过12个助记词的单词序列,通过 PBKDF2 与 HMAC-SHA512 函数创建出随机种子作为 BIP32 的种子(通常是16进制的)。

      相比于BIP32协议,我们可以看出那一种备份起来更友好:

    //BIP32 随机数种子090ABCB3A6e1400e9345bC60c78a8BE7

    //BIP39 助记词种子

    candy maple cake sugar pudding cream honey rich smooth crumble sweet treat

    使用助记词作为种子其实包含2个部分:助记词生成及助记词推导出随机种子。

    生成助记词

      助记词生成的过程是这样的:先生成一个128位随机数,再加上对随机数做的校验4位,得到132位的一个数,然后按每11位做切分,这样就有了12个二进制数,然后用每个数去查BIP39定义的单词表,这样就得到12个助记词,这个过程图示如下:

    助记词推导出种子

      这个过程使用密钥拉伸(Key stretching)函数,被用来增强弱密钥的安全性,PBKDF2是常用的密钥拉伸算法中的一种。

    PBKDF2基本原理是通过一个为随机函数(例如 HMAC 函数),把助记词明文和盐值作为输入参数,然后重复进行运算最终产生生成一个更长的(512 位)密钥种子。这个种子再构建一个确定性钱包并派生出它的密钥。

      密钥拉伸函数需要两个参数:助记词和盐。盐可以提高暴力破解的难度。 盐由常量字符串 “mnemonic” 及一个可选的密码组成,注意使用不同密码,则拉伸函数在使用同一个助记词的情况下会产生一个不同的种子,这个过程图示图下:

    助记词推动了区块链的普及

      有了助记词之后,任何一笔交易,我们都可以创建一个新的账户,账户里面的钱也可以进行自由转移。

      在区块链世界,只需要记住12个简单的助记词,就间接记住了所有区块链上的资产,就如同现实生活中的身份证一样便捷、高效。

      有了助记词之后,大大减轻了普通用户的使用成本,从体验上来说对用户是非常友好的,这拉进了区块链与普罗大众的距离,同时也满足了高端用户的隐私问题。可以这么说,BIP39协议大大的推动了区块链的普及。

      可能有人会说,“我最讨厌英语啊,让我记12个英语单词,简直就是要了我的命啊!”

      对于这部分用户我先不做评价,但是聪明的开发者早就想到了这一点,BIP39协议目前是支持了几大主流语言的,英语、日语、西班牙语、韩语、法语,当然也少不了中文,所以大家完全可以用12个汉字作为助记词。

      如果连12个汉字都懒得记的话,那我只能说,施主,区块链世界实在与你无缘,找个好人就嫁了吧。

      当然,任何事物都有两面性,助记词虽然带来了许多便利,但是,也诞生了另外的安全隐患,那就是一旦12个单词泄露,或者被黑客获取,助记词是未经加密的私钥,任何人得到了你的助记词,可以不费吹灰之力的夺走你的资产控制权。

    助记词是利用固定算法,将我们64位的私钥转换成十多个常见的英文单词,单词由私钥和固定的算法在固定的词库里选出。助记词和私钥是互通的,可以相互转换,它只是私钥的一种容易记录的表现形式。所以在此强调:助记词即私钥!助记词即私钥!助记词即私钥!一般助记词只会在钱包开通时出现一次,后面就再也不会出现了,所以开通钱包时就要做好备份。

      最后再说一下 Keystore。Keystore 在以太坊钱包App中比较常见,它是把私钥通过钱包密码再加密得来的,一般可保存为文本或json格式。换句话说,Keystore 需要用钱包密码解密后才等同于私钥。因此,Keystore需要配合钱包密码来使用,才能导入钱包。

      如果我们忘记了钱包密码,备份的Keystore就没有用了,只能用私钥或者助记词来重新导入钱包设定钱包密码。那我们要Keystore干嘛呢,直接用私钥或助记词不更好吗?实际上,没忘记密码的情况下,私钥和助记词要尽量少用,能少见光就少见光,用Keystore加密码的方式导入钱包会更安全些。逻辑有些类似于把鸡蛋放到两个篮子里。

     

    展开全文
  • jieba 分词 用户自定义词典(即想被分开的

    千次阅读 热门讨论 2019-03-21 22:54:59
    jieba 分词简介: jieba 对于一长段文字,其分词原理大体可分为三部: 1.首先正则表达式将中文段落粗略的分成一个个...全模式:把句子中所有的可以成的词语都扫描出来, 速度非常快,但是能解决歧义; 搜索引擎...

    jieba 分词简介:

    jieba 对于一长段文字,其分词原理大体可分为三部:
    1.首先用正则表达式将中文段落粗略的分成一个个句子。
    2.将每个句子构造成有向无环图,之后寻找最佳切分方案。
    3.最后对于连续的单字,采用HMM模型将其再次划分。

    三种分词模式:

    精确模式:试图将句子最精确地切开,适合文本分析;
    全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
    搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词;

    使用python 分词:

    首先导入所需要的库 jieba

    import jieba
    

    读取所需要分词的文件

    file_needCut = 'file.csv' # 此处是所需要被分词的文件
    

    读取文件

    with open(file,'r',encoding='UTF-8') as f:
        for line in f.readlines():
          print(line)
    

    对读取出来的句子分词

    seg_list = jieba.cut(line,cut_all=False,HMM=True) #此处使用精确模式分词
    

    如果需要使用用户自定义词典,按照如下格式加在分词之前:

    file_userdict = 'userdict.txt' #此处文件名为用户自定义的文件名,内容为不想被分开的词
    jieba.load_userdict(file_userdict)
    

    全部代码为:

    import jieba
    
    file = 'file.csv'
    file_userdict = 'userdict.txt'
    jieba.load_userdict(file_userdict)
    
    with open(file,'r',encoding='UTF-8') as f:
        for line in f.readlines():
            print(line)
            seg_list = jieba.cut(line,cut_all=False,HMM=True)
            print("/".join(seg_list))
    
    展开全文
  • 分而治之/hash映射:顺序读文件中,对于每个x,取hash(x)%5000,然后按照该值存到5000个小文件(记x0,x1,…x4999)中。这样每个文件大概是200k左右。如果其中的的文件超过了1M大小,还可以按照类似的方法继续...

    分而治之 + hash统计 + 堆/快速排序

    • 分而治之/hash映射:顺序读文件中,对于每个词x,取hash(x)%5000,然后按照该值存到5000个小文件(记为x0,x1,…x4999)中。这样每个文件大概是200k左右。如果其中的有的文件超过了1M大小,还可以按照类似的方法继续往下分,直到分解得到的小文件的大小都不超过1M。
    • hash_map统计:对每个小文件,采用trie树/hash_map等统计每个文件中出现的词以及相应的频率。
    • 堆/归并排序:取出出现频率最大的100个词(可以用含100个结点的最小堆)后,再把100个词及相应的频率存入文件,这样又得到了5000个文件。最后就是把这5000个文件进行归并(类似于归并排序)的过程了。

    【补充】 

    给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url? 

    https://blog.csdn.net/qq_41946557/article/details/102708186 

    展开全文
  • 规则的形容比较级

    千次阅读 2019-08-27 23:15:23
    规则的形容比较级 请记住规则的形容是单音节的,词尾加上-er 变成比较级。 fast > faster than 快 > 更快 My new computer is much faster than my old one. 我的新电脑比旧电脑快得多。 cheap...

    不规则的形容词比较级

    请记住规则的形容词是单音节的,词尾加上-er 变成比较级。

    fast > faster than								快 > 更快
    
    My new computer is much faster than my old one.	我的新电脑比旧电脑快得多。
    
    cheap > cheaper than							便宜 > 更便宜
    
    The cellphone is cheaper than the smartphone. 	手机比智能手机便宜。
    

    对于短的形容词以e结尾的加-r。

    safe > safer than           					安全 > 更安全       
    

    对于短的形容词以一个元音字母然后一个辅音字母结尾的,双写辅音字母。

    big > bigger than                               大 > 更大
    

    对于短的和长的形容词以y结尾的,把y 改为i 再加-er。

    easy > easier than                              容易 > 更容易
    
    pretty > prettier than							漂亮 > 更漂亮
    

    This e-reader is easier to use than that one. 这个电子阅读器比那个容易使用。
    然而,不规则形容词比较级不用词根。

    good > better than                              好 > 更好
    
    bad > worse than								坏 > 更坏
    
    far > farther than								远 > 更远
    
    little > less than								少 > 更少
    
    much > more than								多 > 更多
    
    The tablet is better than the desktop.			平板电脑比台式电脑好。
    
    My new smartphone cost more than a computer. 	我的新智能手机比电脑贵。
    

    也有一些两个音节的形容词可以遵循短的形容词和长的形容词的规则。

    quiet > quieter than                            安静 > 更安静            
    
    quiet > more quiet than							安静 > 安静得多
    
    Your street is quieter than my street.          你的街道比我的安静。        
    
    Your street is more quiet than my street.		你的街道比我的安静得多。
     	 	 
    friendly > friendlier than						友好 > 更友好
    
    friendly > more friendly than					友好 > 友好得多
    
    The woman is friendlier than the man.   		女人比男人友好。           
    
    The woman is more friendly than the man.		女人比男人友好得多。
    
    展开全文
  • 在编辑/首选项/一般/应用程序启动中,将“启动时启用保护模式”前面的勾去掉再重启adobe reader X
  • →是唯一符合直觉的一个连结,但它必须这么定义,并且只能这么定义. 在人们刚能够使用语言的时候,在还没有真值表之前,人们就一直在¬,∧,∨,→,只是可能没有意识到自己在 →真值表定义必须考虑人们对→的使用...
  • 主要讲一下,为什么每一次训练迭代,向量就会更新一次:embedding_lookup不是简单的查表,id对应的向量是可以训练的,训练参数个数应该是 category num*embedding size,也就是说lookup是一种全连接层。...
  • 解决Python云库wordcloud显示中文的问题

    万次阅读 多人点赞 2017-05-29 00:36:25
    解决Python云库wordcloud显示中文的问题
  • 什么向量?(NPL入门)

    万次阅读 多人点赞 2018-06-14 21:09:47
    什么向量? 我们组实训选择的主题是与自然语言识别相关的,那么就不得学习和了解一下自然语言识别中非常重要和基础的。于是我对于自己对向量的学习进行了以下的总结。 简而言之,向量技术是将转化...
  • 创建了同义,直接查询都是正常的,但存储过程中一调用就报“”表和视图存在“”, 因为"在存储过程中访问公共同义,必须直接对用户授权,而能通过角色授权"。 见 ...
  • 而要处理的文本数据是问题的,因为我们的计算机,脚本和机器学习模型无法以任何人类的角度阅读和理解文本。 比如当我读到"猫"这个时,就会想象到许多内容——它是一种可爱的小毛茸茸的动物,喜
  • 未登陆/停用建立和使用

    千次阅读 2018-01-22 14:01:03
    refer:... ... 一. 未登陆:  未登录即没有被收录在分词词表中但必须切分出来的,包括各类专有名词(人名、地名、企业名等)、缩写、新增词汇等等(参
  • 问题描述:输入法只在IDEA中出现选出现(QQ拼音)、输入迟钝、选择了文字后选消失(搜狗拼音) 解决方法:本地安装jdk8+,配置好jdk的环境,将IDEA目录下的jre64文件夹改个名字(也可以删除)
  • Glove向量

    千次阅读 2019-05-15 10:04:16
    假设元素Xij为词j出现在词i的环境(context)的次数。这里的”环境”多种的定义。比如,在一段文本序列中,如果词j出现在词i左边或者右边超过10个词的距离,我们认为词j出现在词i的环境一次。那么词j出现在词i的...
  • 为什么有的句子中with前直接接在所修饰后,有的with前却加了逗号??? 例程:He gave his card,with a few words in pencil. He gave his card,with a few words in pencil. 翻译:他把它的名便给我,上面有几个...
  • 一个1G大小的一个文件,里面每一行是一个的大小超过16字节,内存限制大小是1M。返回频数最高的100个. 首先,我们看到这个题目应该做一下计算,大概的计算,因为大家都清楚的知道1G的文件可能1M的...
  • 什么是文本的嵌入?

    万次阅读 多人点赞 2018-11-21 11:30:52
    前言  嵌入是单词的一种数值化表示方式,一般情况下会将一个单词映射... 对于向量,我们可以使用余弦相似度在计算机中来判断单词之间的距离:  ‘机器学习’与‘深度学习‘的距离: ‘机器学习’与‘英雄...
  • 简单的说,向量所体现的是语义(semantic)和语法(syntactic)这些 low-level的信息。而LDA的主题表现的是更 high-level的文章主题(topic)这一层的信息。 所以Word2vec的一些比较精细的应用,LDA是做了...
  • 本人在进行jpython的jieba分词时,发现在对高兴,开心等词汇进行分词时,将其分开下图 Prefix dict has been built succesfully. [精确模式]: 我 喜欢 也 高兴 [Finished in 1.7s] 期望形式: 但是...
  • 极简使用︱Glove-python向量训练与使用

    万次阅读 热门讨论 2018-10-12 16:27:34
    glove/word2vec/fasttext目前向量比较通用的三种方式,其中word2vec来看,在gensim已经可以极快使用(可见:python︱gensim训练word2vec及相关函数与功能理解) 官方glove教程比较啰嗦,可能还得设置一些参数表,...
  • Mac 有道词典 无法取、划

    千次阅读 2020-02-29 13:24:23
    有道词典右下角取消失了 因为软件更新,所以在AppStore里下载的有道词典没有这个功能 解决办法:删除,在官方网页上下载,进行安装 官方网址:http://cidian.youdao.com/index-mac.html ...
  • 嵌入

    千次阅读 2019-06-27 11:01:14
    所谓嵌入,通俗来讲,是指将一个词语(word)转换一个向量 (vector)表示, 所以嵌入有时又被叫作“word2vec"。在CharRNN中,输入序列数据的每一步是一个字母 。 具体来说,先对这些字母使用了独热编码再输入到 ...
  • python替换同义 jieba替换同义

    万次阅读 2019-03-26 09:55:33
    在构建基于知识图谱的问答系统过程中,我们发现 知识图谱对于实体的识别是非常敏感的, 如果用户输入的关键词 不对(哪怕只差一个) 知识图谱就找到对应的三元组。 所以我们打算现将用户的输入做一个预处理 , ...
  • 《同义词词林》是梅家驹等人于1983年编纂而成,年代较为久远,对于目前的使用不太适合,哈工大实验室基于该林进行扩展,完成了林扩展版。 下载地址:https://www.ltp-cloud.com/download/ 二、使用说明 扩展...
  • 好烦啊,IDEA输入中文时输入法候选跟随光标

    万次阅读 热门讨论 2017-04-12 21:53:21
    PS:虽然写这篇文章会让人感觉很无聊,但是既然费心思去做了,写下来也不为过O(∩_∩)O~起因:前几日在下从Eclipse搬迁到了IDEA,但是输入中文代码注释时,发现输入法的候选框一直在右下角(此前一直的手心...
  • 向量化是使用一套统一的标准打分,比如填写表格:年龄、性别、性格、学历、经验、资产列表,并逐项打分,分数范围[-1,1],一套分值代表一个人,就叫作向量化,虽然能代表全部,但至少是个量度。因此,可以说,...
  • Python自然语言处理—停用词典

    千次阅读 2018-11-06 16:00:01
    去除停用词典和错检错都可以词典的形式完成,以停用词为例,我使用的应该是知网提供的中文停用词典。测试的数据集是小学生数学题。 print(text) # 打印未去除停用前版本 with open(r"C:\Users\BF\...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 635,527
精华内容 254,210
关键字:

为什么优词用不了