cds的join问题

chentianyu1 · 发表于 2012-9-23 11:35:43

数据中很多cds是由小片段join来的，比如CP002688.1.txt里面的

>lcl|CP002688.1_cdsid_AED90282.1 [gene=AT5G01010] [protein=uncharacterized protein] [protein_id=AED90282.1] [location=complement(join(1388..1459,1572..1646,1745..1780,1914..1961,2435..2509,2748..2799,2872..2934,3303..3383,3543..3659,3762..3802,3927..4005,4102..4258,4335..4467,4552..4679,4765..4924))]

复制代码

那么，我们是只要找出这些小片段，还是要把小片段连成一个CDS？

chentianyu1 · 发表于 2012-9-23 11:47:00

此外，有些数据有冲突的地方。
比如，还是在上面那个文件中，第85到94行的内容是

>lcl|CP002688.1_cdsid_AED90286.1 [gene=AT5G01015] [protein=uncharacterized protein] [protein_id=AED90286.1] [location=complement(join(5335..5576,5697..5769))]
ATGGAGTCTAGCTTGCATAGTGTGATTTTCTTAGGTTTGCTTGCGACGATTCTGGTTACGACCAATGGCC
AAGGAGACGGGACGGGGCTAAATGCAGAAGAAATGTGGCCAGTGGAGGTGGGGATGGAGTATAGAGTATG
GAGGAGAAAGCTGATGACGCCATTGGAGCTGTGCTTGGAGTGCAAATGCTGCTCCTCCACCACTTGTGCC
ACCATGCCTTGCTGTTTCGGCATCAATTGCCAGCTTCCCAACAAGCCATTTGGCGTTTGTGCCTTTGTTC
CCAAGTCATGCCATTGTAATTCTTGCTCCATTTGA
>lcl|CP002688.1_cdsid_AED90287.1 [gene=AT5G01015] [protein=uncharacterized protein] [protein_id=AED90287.1] [location=complement(join(5516..5576,5687..5769))]
ATGGAGTCTAGCTTGCATAGTGTGATTTTCTTAGGTTTGCTTGCGACGATTCTGGTTACGACCAATGGCC
AAGGTGAATATGTGAGACGGGACGGGGCTAAATGCAGAAGAAATGTGGCCAGTGGAGGTGGGGATGGAGT
ATAG

复制代码

编号为CP002688.1_cdsid_AED90286.1的CDS区域位置是location=complement(join(5335..5576,5697..5769))
编号为CP002688.1_cdsid_AED90287.1的CDS区域位置是location=complement(join(5516..5576,5687..5769))

可以看出，有一些片段（如5687..5696）被前者看成是非编码的，被后者看成是编码的。
那么，我们的程序应该输出什么样的才算是正确？

chentianyu1 · 发表于 2012-9-23 13:56:22

顶一下~~~~

		自动登录	找回密码
密码			注-册-帐-号