马尔科夫链的基础理论已经发展80年,然而在语音处理方面的应用遭遇困难,由于缺乏一种优化参数的方法以匹配观测到的信号模式。HMM的基本理论在60年代末期70年代早期由Baum和他的同事发表在一系列经典论文中,并在70年代由CMU的Baker、IBM的Jelinek和他的同事用于语音处理。
**问题:**现实世界的过程产生了一个可观测符号的序列。需要建立一个信号模型来解释和描述观测符号(离散/连续)的出现。该模型随后会被用来鉴定和识别其他观测到的序列。
模型的形式?
线性/非线性、时变/时不变(定常)、确定/统计
确定模型
:利用关于信号的某些已知特性,信号模型可以直接确定。比如信号是正弦波,只需要估计信号模型的参数值,如正弦波的幅度、频率和相位。
统计模型
:只对信号的统计特性进行建模。基本假设是信号可以用参数化的随机过程很好地表征,并且随机过程的参数可以进行求解。这类模型包括高斯过程、泊松过程、马尔科夫过程以及隐马尔科夫过程。
定常模型
:系统的零状态响应与输入激励的关系不随输入激励作用于系统的时间起点而改变。图像上形状不变,且时移相同。
时变模型
:其中一或一个以上的参数值随时间而变化,从而整个特性也随时间而变化。
用线性模型
模拟时变系统
短时段信号,用合适的激活函数建立线性时不变系统(将长时段切割成一个个串联的瞬时单元从而用线性模型去拟合)
HMM
假设过程存在一些平稳持续的片段,在某些情况下转换(逐步/快速)成另一种属性。
① 鉴定平稳片段
② 描述片段“连续”演变的性质
③ 为片段选择典型或共同的瞬时时间模型
HMM在概率或统计的框架下处理这些问题。
你在帘子一边,不能看见帘子背后一个人在投硬币的过程,另一个人会告诉你每次掷硬币的结果。可观测的是掷硬币结果,隐藏的是一系列掷硬币实验。
HMM建模
1-Fair coin model
状态:公平投掷一个硬币
state 1 - Head;state 2 - Tail
观测序列唯一地定义了状态,模型并不是隐藏的
2-Fair coin model
状态:公平投掷两个硬币(无倾向)
state 1 - coin 1;state 2 - coin 2
状态转移:一个独立的coin 3决定哪个硬币要投掷(状态转移概率均为0.5)
模型是隐藏的(即不知道在每次观测中具体是那个公平硬币(状态)导致了观测到的正面或反面),可观测输出序列的统计值独立于状态转移
2-Biased coin model
状态:投掷两个有倾向的硬币
state 1 - coin 1 (倾向H);state 2 - coin 2(倾向T)
状态转移:coin 3决定投掷哪个硬币(转移概率均为0.5)
3-Biased coin model
状态:三个有倾向的硬币
观测序列极度依赖于状态转移概率
缸球模型代表了离散符号的HMM
根据以下步骤生成一个观测序列$O=O_1,O_2,…O_T$:
用缩写$\lambda=(A,B,\pi)$表示一个HMM
包含参数:
$N$ = 状态数量(缸)
$M$ = 观测符号数量(球的颜色)
三个概率分布A、B、$\pi$的参数
$Q1$. 给定观测序列和HMM模型,估计观测序列概率$Pr(O|\lambda)$
评价问题:对模型打分 *应用于语音识别:用已经训练好的模型对未知单词进行识别
$Q2$. 给定观测序列,选择最优状态序列$I$
建模问题:揭示模型的隐藏部分,从而了解模型的结构 *理解模型状态的物理意义,将每个单词训练的序列分割成状态,研究每个状态中发生的观测结果
$Q3$. 调整模型参数以最大化$Pr(O|\lambda)$
训练序列:使模型参数最好地适应训练观测数据——为实际现象建立最佳模型 *得到每个单词模型的最优参数
Problem 1. 给定观测序列和HMM模型,估计观测序列概率