blog mail me! feed

秩序与混乱.

昨天又把闲置了两周的基因预测程序拿出来, 把最后一个参数 — 氨基酸实现了,
跑了一个 6-fold Cross Validation发现准确率竟然能到99%以上, 很是惊讶,
当然这里不排除Shuffle函数在随机打乱序列产生负样本时, 引入的少量终止密码子干扰项.

事实上, 氨基酸参数就是一个单纯的频率, 即20种氨基酸在目标蛋白质中的所占的比例,
突然想到以前导师提到过的, 的相关概念, 发现这个参数模型可以和熵结合得很紧密.

把每种氨基酸出现的概率看做P(xi),由公式,
Entropy
最后可以得到当前样本的熵, 也就是信息量的度量, 即不确定性.

我先对正负样本各自计算其熵(信息量), 发现相差无几,
后来就稍微改了下形式, 做了一个所谓的”相对熵”.
我计算出所有的正样本中, 各个氨基酸出现的平均概率值p’(xi),
最后计算时采用 -∑ p(xi)log[p'(xi)], p(xi)代表当前样本的真实值.

如果自然界中的蛋白质组成是有序的, 那么负样本打乱或者随机的序列对应的随机的氨基酸分布,
必然会使得整个模型趋于混乱的方向发展, 从而不确定性增大, 熵增加.
实际程序跑出来发现, 正样本的H(x)大概在2.9, 而负样本在3.4左右,
比较好的体现了不确定性的度量.

当然, 另外的一篇给予启发的很好的文章来自相当经典的”数学之美”系列,
具体的讲信息的度量这篇文章在: 数学之美系列 4 — 怎样度量信息?

Leave a Comment