1《数学之美》第3章 统计语言模型

时间:2019-06-04 10:00:57   收藏:0   阅读:106

第3章 统计语言模型

1、用数学的方法描述语言规律

\[\begin{equation} P(S)=P(w_1,w_2,w3,\cdots,w_n) \end{equation}\]
根据条件概率公式:
\[\begin{equation} =P(w_1|<s>)P(w_2|w_1)P(w_3|w_1,w_2),\cdots,P(w_i|w_1,w_2,w_3,\cdots,w_{i-1}),P(w_n|w_1,w_2,w_3,\cdots,w_{n-1})) \end{equation}\]

根据马尔可夫假设:
当N=2,二元模型
\[ \approx P(w_1|<s>)P(w_2|w_1)P(w_3|w_2)P(w_i|w_{i-1})P(w_n|w_{n-1}) \]
当N=3,三元模型
\[ \begin{equation} =P(w_1|<s>)P(w_2|w_1)P(w_3|w_1,w_2)P(w_4|w_1,w_2,w_3)P(w_5|w_2,w_3,w_4),\cdots,P(w_i|w_{i-3},w_{i-2},w_{i-1}),P(w_n|w_{n-3},w_{n-2},w_{n-1})) \end{equation} \]

N元模型
\[ =P(w_1|<s>)P(w_2|w_1)P(w_3|w_1,w_2),\cdots,P(w_i|w_{i-1-N},\cdots,w_{i-1}),P(w_n|,w_{n-1-N},\cdots,w_{n-1})) \]

马尔可夫假设推导形成的常见语言模型
| N=1 | Unigram | 一元语言模型 |
| --- | --- | --- |
| N=2 | Bigram | 二元语言模型 |
| N=3 | Trigram | 三元语言模型 |
| N=? | N-gram | N元gram模型 |

对于任意给定单词\(w_i\),\(P(w_i)\)当取二元模型时:
\[ \begin{equation} P(w_i) = \frac{ P(w_{i-1},w_i) }{ P(w_{i-1}) } \label{eq:qmath} \end{equation} \]
$ P(w_{i-1},w_i)\(是联合概率,\)P(w_{i-1})$是边缘概率。我们要计算这两个的概率,需要用到大数定理。当有大量重复事件时,事件发生的频率接近于概率。
\[ \begin{equation} f(w_{i-1},w_i)=\frac{\#(W_{i-1},w_i)}{\#} \end{equation} \]
\[ \begin{equation} f(w_{i-1})=\frac{\#(W_{i-1})}{\#} \end{equation} \]
当统计量足够,相对频度和概率就几乎相等。(同时这个地方的假设我个人认为也是对我们的语料库提出了要求。)
\[ \begin{equation} f(w_{i-1},w_i)=\frac{\#(W_{i-1},w_i)}{\#}\approx P(w_{i-1},w_i) \end{equation} \]
\[ \begin{equation} f(w_{i-1})=\frac{\#(W_{i-1})}{\#}\approx P(w_{i-1}) \end{equation} \]
\[ \begin{equation} P(w_i|w_{i-1})=\frac{P(w_{i-1},w_i)}{P(w_{i-1})}\approx \frac{f(w_{i-1},w_i)}{f(w_{i-1})} =\frac{\frac{\#(w_{i-1},w_i)}{\#}}{\frac{\#(w_{i-1})}{\#}} =\frac{\#(w_{i-1},w_i)}{\#(w_{i-1})} \end{equation} \]

本节提到的概念

联合概率
边缘概率
条件概率
马尔可夫假设
大数据定理
语料库
相对频度

本节人物

费里尼克
马尔可夫
李开复
罗赛塔

2、延伸阅读:统计语言模型的工程诀窍

2.1、高阶语言模型

N合适的取值是2-3

马尔可夫假设局限性和文本长程依赖性

2.2 模型的训练、零概率问题和平滑方法

2.2.1 模型的训练

使用语言模型的条件是得知道所有词的出现条件概率值,然后将他们按照预测的句子概率相乘得到句子概率。所以我们需要先计算每一个的条件概率,这些概率值我们称为模型的参数。通过对语料的统计,得到这些参数的过程称作模型的训练。

2.2.2 零概率问题

2.2.2.1 问题出现的原因

假如我们使用二元统计语言模型,根据前面的推理公式有:
\[ P(S)\approx P(w_1|<s>)P(w_2|w_1)P(w_3|w_2)P(w_i|w_{i-1})P(w_n|w_{n-1}) \]
\[ \begin{equation} P(w_i|w_{i-1})=\frac{P(w_{i-1},w_i)}{P(w_{i-1})}\approx \frac{f(w_{i-1},w_i)}{f(w_{i-1})} =\frac{\frac{\#(w_{i-1},w_i)}{\#}}{\frac{\#(w_{i-1})}{\#}} =\frac{\#(w_{i-1},w_i)}{\#(w_{i-1})} \end{equation} \]
我们考虑以下两种情况

本节数学符号

参考链接

原文:https://www.cnblogs.com/luomgf/p/10971773.html

评论(0
© 2014 bubuko.com 版权所有 - 联系我们:wmxa8@hotmail.com
打开技术之扣,分享程序人生!