昨天把酵母的DNA序列从MIPS的FTP上拖下来了.
(嗯, 首先所有的序列自然都是符合FASTA格式的.)
不过发现MIPS很体贴啊,和NCBI提供的文件不同, MIPS不提供.ptt文件作为蛋白质标注,
而直接提供后缀为_orf的文件列举了每个ORF的DNA序列和标注.
因此不用直接读取DNA序列, 再通过ptt的标注回到DNA正反链上去找了.
很方便.
另外提供的_chr 是所有染色体的全部DNA序列,
_prot估计是蛋白质的氨基酸序列(分子生物学和生物信息学盲飘过).
一点疑问是 .fa文件是描述的什么呢?
不是很明白.
*UPDATE* 貌似分别是5’-UTR, 3′-UTR(untranslated region)的FASTA序列.