blog mail me! feed

新年的第二个程序.

第一个程序是一个实验性的词频的数据可视化的Flash.
改天弄完了发上来.

现在要说的是正在忙活的项目, 酵母的蛋白质编码基因预测.
今天下午断断续续的忙活得差不多了, 基本搞定了整个程序,
尽管数次觉得程序还有很多可以改进的地方, 让其更简洁, 更可读.

速度还没优化, 不过其实我是想看看Cross-Validation的结果如何,
有点失望, 最后尝试了各种参数组合(氨基酸的参数还没做, 因为构建一个CODON –> AA的表都得费些功夫),
准确率只能跑到大概97%左右, 离想象的99%有着巨大的鸿沟.
不甘心又用Z-Curve跑了一次, 33参数的Z-Curve就能跑到99.1%左右的准确率了,
看来的确是参数的问题.

双密码子是在是太慢了, 且不说这4000多个参数多么庞大,
估计用libsvm来跑一次 6 Fold Cross-Validation就足够等以小时算的时间单位了,
未来如果要用到Markov Model可能还得把libsvm的代码直接放到程序里来,
外部调用读数据文件的时间和效率都够呛.

其实也没做多少工作, 无非都是体力活, 科研的实质皮毛都没摸到, 倒感觉有点像打杂性质.
所以还好了, 不算太失落. 也不应该失落的.
只是实在是门外汉, 一点门路都摸不到, 
晚些时候再稍微想想看看, 先优化效率,
再试试有没有其他方法.

上次看到的一篇讲短序列预测的文章很好,
里面提到了傅立叶变换用作一个参数, 也准备试试.
看来还得找找FFT的相关资料来看看了,
现在一说起FFT, 脑袋里除了那张似有似无的蝶形图,
什么都没了.

sub040 said,

January 27, 2009 @ 10:50 pm

看来过年大家都在做自己喜欢的事情

Sin said,

January 28, 2009 @ 3:34 pm

-w- K大最近出来K歌吗。

RSS feed for comments on this post · TrackBack URI

Leave a Comment