-
数学之美 - 很不错的科普
2014-01-15 12:20:25http://www.tektalk.org/wp-content/uploads/2010/12/数学之美与浪潮之巅.pdf 数学之美系列完整版(最新全集列表) 浏览次数:2121次 2007年12月04日 Google黑板报 字号: 大 中 小 分享到: QQ空间 新浪微博 ...PDF version:
http://www.tektalk.org/wp-content/uploads/2010/12/数学之美与浪潮之巅.pdf数学之美系列完整版(最新全集列表)
数学之美 一 统计语言模型
数学之美 二 谈谈中文分词
数学之美 三 隐含马尔可夫模型在语言处理中的应用
数学之美 四 怎样度量信息?
数学之美 五 简单之美:布尔代数和搜索引擎的索引数学之美 六 图论和网络爬虫 (Web Crawlers)
数学之美 七 信息论在信息处理中的应用
数学之美 八 贾里尼克的故事和现代语言处理
数学之美 九 如何确定网页和查询的相关性
数学之美 十 有限状态机和地址识别数学之美 十一 Google 阿卡 47 的制造者阿米特.辛格博士
数学之美 十二 余弦定理和新闻的分类
数学之美 十三 信息指纹及其应用
数学之美 十四 谈谈数学模型的重要性
数学之美 十五 繁与简 自然语言处理的几位精英数学之美 十六 不要把所有的鸡蛋放在一个篮子里 最大熵模型
数学之美 十七 闪光的不一定是金子 谈谈搜索引擎作弊问题(Search Engine Anti-SPAM)
数学之美 十八 矩阵运算和文本处理中的分类问题
数学之美 十九 马尔可夫链的扩展 贝叶斯网络 (Bayesian Networks)数学之美 二十 自然语言处理的教父 马库斯
数学之美 二十一 布隆过滤器(Bloom Filter)
数学之美 二十二 由电视剧《暗算》所想到的 — 谈谈密码学的数学原理
数学之美 二十三 输入一个汉字需要敲多少个键 — 谈谈香农第一定律
数学之美 二十四 从全球导航到输入法——谈谈动态规划来源:Google 黑板报
作者:吴军 -
《数学之美》——第三章 个人笔记
2018-04-17 23:14:12数学之美最近在读《数学之美》这本书,做一下个人笔记。看的是PDF,看完后会买一本的哦!版权意识还是有的。ps:图片文字都是这本书中的内容,侵权立删。会有点自己的理解。第三章 统计语言模型1 用数学的方法描述...数学之美
最近在读《数学之美》这本书,做一下个人笔记。看的是PDF,看完后会买一本的哦!版权意识还是有的。
ps:图片文字都是这本书中的内容,侵权立删。会有点自己的理解。
第三章 统计语言模型
1 用数学的方法描述语言规律
普遍描述:假定S表示某一个有意义的句子,由一连串特定顺序排列的词w1,w2,...,wn组成,(这里应该是特征列表)这里n是句子的长度。现在,我们想知道S在文本中出现的可能性,也就是数学熵上所说的S的概率P(S)。
马尔可夫假设后,
2 延伸阅读:统计语言模型的工程诀窍
2.1 高阶语言模型
当前词wi的概率值取决于前面N-1个词,上面的假设被称为N-1阶马尔可夫假设,对应的语言模型称为N元模型。N=2就是前面的二元模型。N=1的一元模型实际上是一个上下文无关的模型,N=3在实际中应用最多。
N为什么一般取值都很小?
①首先,N元模型的大小(空间复杂度)几乎是N的指数函数,即0(丨V丨**N),这里丨V丨是一种语言词典的词汇量,一般在几万到几十万个。
②而使用N元模型的速度(时间复杂度)也几乎是一个指数函数,0(丨V丨**N-1)。因此,N不能很大。当N从1到2,再从2到3,效果显著;从3到4,提升就不是很显著了,资源的耗费缺相反。,Google的罗塞塔是4元。
2.2 模型的训练、零概率问题和平滑问题
在数理统计中,我们之所以敢用对采样数据进行观察的结果来预测概率,是因为有大数定理,要求有足够的观测值(增加数据量真的是一个真理)。
针对零概率:
假定r比较小时,统计就不可靠,因此在计算那些出现r次的词的概率时,要实用一个更小一点的次数,是dr,
dr = (r+1)* Nr+1/Nr 显然 ∑dr*Nr = N.
文中有个Zipf定律(Zipf's Law):出现一次的词的数量比出现两次的多,出现两次的比出现三次的多。
出现r次的词的数量Nr和r的关系:
这里就解决了未出现的词,给其赋了一个很小的非零值。
文章中还有二元组和三元组的模型概率公式。卡茨退避法(Katz backoff)
还有一个叫删除差值的方法:用低阶语言模型和高阶模型进行线性插值来达到平滑的目的。
公式如下:三个λ均为正数且加和为1。
2.3 语料的选取问题
训练数据通常越多越好,数据的预处理很重要。
训练语料和模型应用的领域要切合,这样模型的效果才能体现。
-
《数学之美》——第二章 个人笔记
2018-04-17 14:25:34数学之美最近在读《数学之美》这本书,做一下个人笔记。看的是PDF,看完后会买一本的哦!版权意识还是有的。ps:图片文字都是这本书中的内容,侵权立删。会有点自己的理解。第二章 自然语言处理——从规则到统计这...数学之美
最近在读《数学之美》这本书,做一下个人笔记。看的是PDF,看完后会买一本的哦!版权意识还是有的。
ps:图片文字都是这本书中的内容,侵权立删。会有点自己的理解。
第二章 自然语言处理——从规则到统计
这一章开头这句话:字母,文字,数字是信息编码的不同单位。任何一种语言都是一种编码的方式,而语言的语法规则是编解码的算法。我们表达一个意思要通过语言表达出来,就是用这种语言的编码方式表示出来,结果就输出一串文字。别人懂这门语言的编码方式,就会理解。这里说的输出一串文字,可以是字母,数字(计算机理解),和开头说的信息编码的不同单位是符合的,就很好理解了。这就是语言的数学本质。
⭐①计算机能处理自然语言
⭐②它处理自然语言的方法和人类一样
1 机器智能
有意思的词:‘鸟飞派’:看看鸟是怎么飞的,就能模仿鸟造出飞机,而不需要了解空气动力学。
下图是前人对自然语言处理的想法(走的弯路)
单纯基于文法规则的分析器是处理不了复杂的语句的,里面有两个不可逾越的坎儿:
①文法规则的数量太庞大,无法构建;写到后面还会出现矛盾
②描述自然语言的文法和计算机高级程序语言的文法是不同的,计算机难以解析。作者在这里提到了自然语言在演变过程中产生了词义和上下文相关的特性;对于上下文无关文法,算法的复杂度是语句长度的二次方,而对于有关文法,则是六次方。
2 从规则到统计
有趣的例子:The pan is in the box ,The box is in the pen 。这个栗子说明了语义的难处理。再有统计语言学的出现,不久后NLP从规则到统计。
PS:文中有一段讲斯伯格特对未来研究方向的判断,总让我觉得大牛都是开挂的。还有传统捍卫者的武器就是基于统计的方法只能处理浅层的NLP问题。
3 小结
基于统计的NLP方法,在数学模型上和通信是相通的,甚至就是相同的。因此,在数学意义上NLP又和语言的初衷——通信联系在一起了。(这里基于统计的方法是让计算机能够处理NL)
-
数学之美 - 很不错的科普_拔剑-浆糊的传说_新浪博客
2012-04-10 21:34:16http://www.tektalk.org/wp-content/uploads/2010/12/数学之美与浪潮之巅.pdf 数学之美系列完整版(最新全集列表) 浏览次数:2121次 2007年12月04日 Google黑板报 字号: 大 中 小 分享到: QQ空间 新浪微博 ...PDF version:
http://www.tektalk.org/wp-content/uploads/2010/12/数学之美与浪潮之巅.pdf数学之美系列完整版(最新全集列表)
数学之美 一 统计语言模型
数学之美 二 谈谈中文分词
数学之美 三 隐含马尔可夫模型在语言处理中的应用
数学之美 四 怎样度量信息?
数学之美 五 简单之美:布尔代数和搜索引擎的索引数学之美 六 图论和网络爬虫 (Web Crawlers)
数学之美 七 信息论在信息处理中的应用
数学之美 八 贾里尼克的故事和现代语言处理
数学之美 九 如何确定网页和查询的相关性
数学之美 十 有限状态机和地址识别数学之美 十一 Google 阿卡 47 的制造者阿米特.辛格博士
数学之美 十二 余弦定理和新闻的分类
数学之美 十三 信息指纹及其应用
数学之美 十四 谈谈数学模型的重要性
数学之美 十五 繁与简 自然语言处理的几位精英数学之美 十六 不要把所有的鸡蛋放在一个篮子里 最大熵模型
数学之美 十七 闪光的不一定是金子 谈谈搜索引擎作弊问题(Search Engine Anti-SPAM)
数学之美 十八 矩阵运算和文本处理中的分类问题
数学之美 十九 马尔可夫链的扩展 贝叶斯网络 (Bayesian Networks)数学之美 二十 自然语言处理的教父 马库斯
数学之美 二十一 布隆过滤器(Bloom Filter)
数学之美 二十二 由电视剧《暗算》所想到的 — 谈谈密码学的数学原理
数学之美 二十三 输入一个汉字需要敲多少个键 — 谈谈香农第一定律
数学之美 二十四 从全球导航到输入法——谈谈动态规划来源:Google 黑板报
作者:吴军 -
算法心得:高效算法的奥秘(原书第2版).[美]Henry S.Warren,Jr(带详细书签).pdf
2019-01-24 22:10:22由在IBM工作50余年的资深计算机专家撰写,Amazon全五星评价,算法领域最有影响力的著作之一。 Google公司首席架构师、Jolt大奖得主Joshua Bloch和Emacs合作创始人、C语言畅销书作者Guy Steele倾情推荐。 算法的艺术... -
微软技术丛书: Windows核心编程 第5版 [美] Jeffrey Richter 等 著 - 周靖 等 译(2008.9出版, PDF格式, 附...
2019-07-22 11:40:465.3 终止作业中的所有线程查询作业统计信息 5.4 作业通知 5.6 Job Lab示例程序 第6章 线程基础 6.1 何时创建线程 6.2 何时不应该创建线程 6.3 编写第一个线程函数 6.4 CreateThread函数 6.4.1 psa参数 6.4.2 ... -
SPSS19.0经典教程(pdf)
2013-06-22 11:59:06SPSS是目前世界上流行的三大统计分析软件之一。SPSS以其强大的统计分析功能、方便的用户操作界面、灵活的表格式报告及其精美的图形展现,受到了社会各界统计分析人员的喜爱。 -
能通过自定义配置文件来改变组件行为,能自定义用户词库、自动检测词库变化、支持大规模分布式环境,能灵活指定多种分词算法,能使用refine功能灵活控制分词结果,还能使用词频统计、词性标注、同义标注、反义标注、...
-
octavo:从单个Markdown来源创建一系列文档(PDF,.docx,html,口语)-源码
2021-02-04 15:09:47如果要从Markdown等文本源生成PDF或HTML之类的成品文档,则需要做两件事:(a)制作Markdown文件以利用某些功能(例如高亮框和包括外部文本片段)的方法,以及(b)利用这些功能的精美模板。 Octavo提供(a)和(b... -
Excel公式与函数大辞典.宋翔(带书签高清文字版).pdf
2019-03-02 08:33:512.1.16 SUMX2PY2——计算数组对应值的平方和之和 63 2.1.17 SERIESSUM——计算基于公式的幂级数之和 64 2.2 舍入计算 65 2.2.1 INT——返回永远小于等于原数字的最接近的整数 65 2.2.2 TRUNC——返回数字的整数... -
我的第一本C++书 游历C++世界的地图 PDF 电子书
2012-06-03 19:14:204.4.2 豪华工资统计程序 第5章 用函数封装程序功能 5.1 函数就是一个大“箱子” 5.1.1 函数的声明和定义 5.1.2 函数调用机制 5.1.3 函数的声明与函数调用 5.1.4 函数参数的传递 5.1.5 函数的返回值 ... -
(原创)记录书籍和教程
2018-05-18 00:23:00数学之美 统计学习方法 python基础教程 人工智能 神经网络与深度学习 深度学习 problem solving with algorithms and data sturctures using python 还没有看完的书籍 tensorflow机器学习实战指南 数据结构(python... -
Apache Hive: 是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析 笔记 Hive篇 ...
-
TCPIP协议详解卷2:实现
2015-07-26 16:56:44pdf版,有目录,完美阅读体验。 中文书名:TCP/IP详解 卷2:实现 英文书名:TCP/IP Illustrated, Volume 2: The Implementation 作者:(美) Gary R. Wright ,W. Richard Stevens 译者:陆雪莹、蒋慧 等译;谢希仁 ... -
c语言编写单片机技巧
2009-04-19 12:15:17答:以现在MCU产品主力还是在8位领域,主要应用于汽车应用、消费性电子、电脑及PC周边、电信与通讯、办公室自动化、工业控制等六大市场,其中车用市场多在欧、美地区,而亚太地区则以消费性电子为主, 并以量大... -
PDF文档的内容均为手打,有任何的不懂都可以直接来问我(公众号有我的私人的联系方式)。扫下方二维码或者微信搜索Java3y,在公众号下回复「888」即可获取!! 从Java基础、JavaWeb基础到常用的框架再到面试题都...
-
第五媒体数字杂志系统1.02build070201版
2012-02-29 11:31:01网站技术具有强大的后台处理与系统架构能力,能轻松满足聚合、分发、阅读、统计、交流等各种需求,但前台就很难达到Flash那样的表现力了。因此,基于网站技术的数字杂志技术最后必然会与基于Flash技术的数字杂志技术... -
代码面试题集,包括《剑指 Offer》、《编程之美》等。 6 md 一款高度简洁的微信 Markdown 编辑器。 7 technical-books 值得一看的技术书籍列表。 贡献者 感谢以下所有朋友对 Doocs 技术社区 所...
-
EXCEL2007VBA与宏完全剖析 1/4
2012-03-31 14:42:03完整清晰版 PDF ,有目录。共 110MB,分为四个分卷 EXCEL 2007 VBA与宏完全剖析 OFFICE2007 OFFICE EXCEL2007VBA与宏完全剖析 1/4 作者:(美)杰莱(Jelen,B.),(美)斯太德(Syrstad,T.) 著,郭兵英 译 出版社... -
中国独立开发者项目列表 聚合所有中国独立开发者的项目 程序员版点这里: 程序员版的项目需要用命令行或写一点代码。主版面(这里)是给普通用户用的,打开即用,无需命令行或编程基础 1. 为什么有这个表 ...
-
Reids—神奇的HyperLoglog解决统计问题 Redis分布式锁 妈妈再也不担心我面试被Redis问得脸都绿了 Redis数据结构底层系列-SDS 秒杀系统2.0 消息队列 消息队列基础知识 消息重复消费、分布式事务、顺序消费 Kafka...
-
MySQL 5权威指南(第3版)--详细书签版
2013-02-05 15:44:00作者: (美)Michael Kofler 译者: 杨晓云 王建桥 杨涛 等 丛书名: 图灵程序设计丛书 出版社:人民邮电出版社 ISBN:711515337X 上架时间:2006-11-27 出版日期:2006 年12月 开本:16开 页码:662 版次:3-1 ... -
《数据结构与算法之美》 这个专栏是文字+语音,作者是王争,前 Google 工程师。他采用最适合工程师的学习方式,不拘泥于某一特定编程语言,从实际开发场景出发,由浅入深教你学习数据结构与算法的方法,帮你搞懂...
-
vc++ 应用源码包_1
2012-09-15 14:22:12vc++动态链接库编程之DLL典型实例源代码下载 VC++仿Dreamweaver取色器源代码 VC++挂机锁屏系统源程序 VC++建立桌面或开始菜单快捷方式 VC++界面库编程 SkinMagic 2.21 动态库版本的使用和 Skin++动态库及静态库版本... -
vc++ 应用源码包_2
2012-09-15 14:27:40vc++动态链接库编程之DLL典型实例源代码下载 VC++仿Dreamweaver取色器源代码 VC++挂机锁屏系统源程序 VC++建立桌面或开始菜单快捷方式 VC++界面库编程 SkinMagic 2.21 动态库版本的使用和 Skin++动态库及静态库版本... -
vc++ 应用源码包_6
2012-09-15 14:59:46vc++动态链接库编程之DLL典型实例源代码下载 VC++仿Dreamweaver取色器源代码 VC++挂机锁屏系统源程序 VC++建立桌面或开始菜单快捷方式 VC++界面库编程 SkinMagic 2.21 动态库版本的使用和 Skin++动态库及静态库版本... -
vc++ 应用源码包_5
2012-09-15 14:45:16vc++动态链接库编程之DLL典型实例源代码下载 VC++仿Dreamweaver取色器源代码 VC++挂机锁屏系统源程序 VC++建立桌面或开始菜单快捷方式 VC++界面库编程 SkinMagic 2.21 动态库版本的使用和 Skin++动态库及静态库版本... -
vc++ 应用源码包_4
2012-09-15 14:38:35vc++动态链接库编程之DLL典型实例源代码下载 VC++仿Dreamweaver取色器源代码 VC++挂机锁屏系统源程序 VC++建立桌面或开始菜单快捷方式 VC++界面库编程 SkinMagic 2.21 动态库版本的使用和 Skin++动态库及静态库版本... -
vc++ 应用源码包_3
2012-09-15 14:33:15vc++动态链接库编程之DLL典型实例源代码下载 VC++仿Dreamweaver取色器源代码 VC++挂机锁屏系统源程序 VC++建立桌面或开始菜单快捷方式 VC++界面库编程 SkinMagic 2.21 动态库版本的使用和 Skin++动态库及静态库版本... -
ptpython:高级交互式 Python 解析器, 构建于 python-prompt-toolkit 之上。 Jupyter Notebook (IPython):一个能够让你最大限度地以交互式方式使用 Python 的丰富工具包。 awesome-jupyter 文件 文件管理和 ...
-
vivo Y31S手机密码忘记怎么办解锁教程方法开锁定数字图案Y31S 5G怎么解锁刷机教程刷机包固件资料下载V2054系统ROM使用.zi.zip
-
【力扣】:链表的中间结点
-
MySQL 高可用工具 heartbeat 实战部署详解
-
纯C++的GUID和STR互相转换
-
按首字母排序全国城市json文件
-
MySQL 查询与高级查询(多表、嵌套和正则表达式)
-
2014年重庆理工大学《计算机网络基础A》期末考试试卷.pdf
-
gitee【码云】为仓库添加LICENSE 开源许可证的方式
-
人事管理系统-Java类代码资源
-
Navicat 1045 错误有可能是多个MySQL冲突
-
IEXPath.zip
-
【十二、wordpress优化之七:搜索推送,以搜索推送管理插件为例】2021最详细wordpress博客建站教程(2021.03.03更新)
-
MySQL 主从复制 Replication 详解(Linux 和 W
-
基于java实现的c++动态链接库调用案例
-
生益电子首次公开发行股票并在科创板上市招股说明书.pdf
-
MySQL 触发器
-
华为1+X——网络系统建设与运维(中级)
-
i7 1065G7和 i7 1185G7的差别大吗
-
2014年重庆理工大学《算法分析与设计》三套期末考试试卷.pdf
-
《文件和目录操作命令》
<2.>