科学空间笔记
关于VAE
关于Flow
缺点
由于必须保证逆变换简单和雅可比行列式容易计算,那么每一层的非线性变换能力都很弱。所以为了保证充分的拟合能力,模型就必须堆得非常深,计算量非常大。
余弦相似度的假设
$$
cos(x,y)=\frac{\sum^d_{i=1}{x_iy_i}}{\sqrt{\sum^d_{i=1}{x^2_i}}\sqrt{\sum^d_{i=1}{y^2_i}}}
$$
上式等号只在标准正交基下成立。向量的“夹角余弦”本身是具有鲜明的几何意义的,但上式右端只是坐标的运算,坐标依赖于所选取的坐标基,基底不同,内积对应的坐标公式就不一样,从而余弦值的坐标公式也不一样。
如果用公式算余弦值来比较句子相似度时表现不好,那么原因可能就是此时的句向量所属的坐标系并非标准正交基。
原则上我们无法确定此时向量所属坐标系,但是我们在给向量集合选择基底时,可以依据猜测:会尽量地用好每一个基向量,从统计学的角度看,这就体现为每个分量的使用都是独立的、均匀的,如果这组基是标准正交基,那么对应的向量集应该表现出“各项同性”来。
【如果一个向量的集合满足各向同性,那么我们可以认为它源于标准正交基】
标准化协方差矩阵
标准正态分布的均值为0、协方差矩阵为单位阵。假设向量集合${x_i}^N_{i=1}$执行变换$\hat{x}i=(x_i-\mu)W$使得${\hat{x}i}^N{i=1}$的均值为0,协方差矩阵为单位阵,这个操作对应于数据挖掘中的白化操作(Whitening),具体如下:
$$
均值为0则:\mu= \frac{1}{N}\sum{i=1}^Nx_i\
原始协方差:\Sigma=\frac{1}{N}\sum_{i=1}^N(x_i-\mu)^T(x_i-\mu)=\left(\frac{1}{N}\sum_{i=1}^N{x^T_ix_i}\right)-\mu^T\mu \
变换后协方差:\hat\Sigma=W^T\Sigma W=I\rightarrow\Sigma=(W^T)^{-1}W^{-1}=(W^{-1})^TW^{-1}\
协方差矩阵是半正定对称矩阵,可以被SVD分解:\Sigma=U\Lambda U^T\rightarrow W^{-1}=\sqrt{\Lambda}U^T\rightarrow W=U\sqrt{\Lambda^{-1}}
$$
关于Attention
RNN因其本质是马尔科夫决策过程,无法很好的学习全局信息。
CNN方便并行,而且容易捕捉到一些全局的结构信息。
RNN要逐步递归才能获得全局信息,因此一般要双向RNN才比较好:$y_t=f(y_{t-1},x_t)$
CNN事实上只能获取局部信息,是通过层叠来增大感受野:$y_t=f(x_{t-1},x_t,x_{t+1})$ [3x的kernel]
Attention的思路最为粗暴,它一步到位获取了全局信息!它的解决方案是:$y_t=f(x_t,A,B)$ A和B是额外引入的序列,如果$A=B=X$就是self-attention。Attention的意思是直接将$x_t$与原来的每个词进行比较,最后算出$y_t$。
$$
Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d_k}})V
$$
$Q\in R^{n\times d_k}$,$K\in R^{m\times d_k}$,$V\in R^{m\times d_v}$。如果忽略激活函数softmax的话,那么事实上它就是三个矩阵相乘,最后的结果就是一个$n\times d_v$的矩阵。于是我们可以认为:这是一个Attention层,将序列Q编码成了一个新的的序列。事实上$Q,K,V$分别是$query,key,value$的简写,那么上式的意思就是通过$query$与各个$key$内积的并softmax的方式,来得到$query$与各个$value$的相似度,然后加权求和,得到一个向量。其中因子$d_k$起到调节作用,使得内积不至于太大(太大的话softmax后就非0即1了,不够“soft”了)。
50维的词向量,将每一维打乱重新排个序(当然整体要按同样的顺序来重新排序),它还是等价于原来的词向量。既然相加的对象(词向量)都没有局部结构,我们也没必要强调被加的对象(Position_Embedding)的局部结构(也就是交叉连接)了。
一些观点
数据扩增是将我们的先验知识融入到模型中的一种方案。
mixup相当于一个正则项,它希望模型尽可能往线性函数靠近,也就是说,既保证模型预测尽可能准确,又让模型尽可能简单。
本作品采用 知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议 (CC BY-NC-ND 4.0) 进行许可。