数模论坛

 找回密码
 注-册-帐-号
搜索
热搜: 活动 交友 discuz
查看: 2025|回复: 2

cds的join问题

[复制链接]
发表于 2012-9-23 11:35:43 | 显示全部楼层 |阅读模式
数据中很多cds是由小片段join来的,比如CP002688.1.txt里面的

  1. >lcl|CP002688.1_cdsid_AED90282.1 [gene=AT5G01010] [protein=uncharacterized protein] [protein_id=AED90282.1] [location=complement(join(1388..1459,1572..1646,1745..1780,1914..1961,2435..2509,2748..2799,2872..2934,3303..3383,3543..3659,3762..3802,3927..4005,4102..4258,4335..4467,4552..4679,4765..4924))]
复制代码
那么,我们是只要找出这些小片段,还是要把小片段连成一个CDS?
 楼主| 发表于 2012-9-23 11:47:00 | 显示全部楼层
此外,有些数据有冲突的地方。
比如,还是在上面那个文件中,第85到94行的内容是

  1. >lcl|CP002688.1_cdsid_AED90286.1 [gene=AT5G01015] [protein=uncharacterized protein] [protein_id=AED90286.1] [location=complement(join(5335..5576,5697..5769))]
  2. ATGGAGTCTAGCTTGCATAGTGTGATTTTCTTAGGTTTGCTTGCGACGATTCTGGTTACGACCAATGGCC
  3. AAGGAGACGGGACGGGGCTAAATGCAGAAGAAATGTGGCCAGTGGAGGTGGGGATGGAGTATAGAGTATG
  4. GAGGAGAAAGCTGATGACGCCATTGGAGCTGTGCTTGGAGTGCAAATGCTGCTCCTCCACCACTTGTGCC
  5. ACCATGCCTTGCTGTTTCGGCATCAATTGCCAGCTTCCCAACAAGCCATTTGGCGTTTGTGCCTTTGTTC
  6. CCAAGTCATGCCATTGTAATTCTTGCTCCATTTGA
  7. >lcl|CP002688.1_cdsid_AED90287.1 [gene=AT5G01015] [protein=uncharacterized protein] [protein_id=AED90287.1] [location=complement(join(5516..5576,5687..5769))]
  8. ATGGAGTCTAGCTTGCATAGTGTGATTTTCTTAGGTTTGCTTGCGACGATTCTGGTTACGACCAATGGCC
  9. AAGGTGAATATGTGAGACGGGACGGGGCTAAATGCAGAAGAAATGTGGCCAGTGGAGGTGGGGATGGAGT
  10. ATAG
复制代码
编号为CP002688.1_cdsid_AED90286.1的CDS区域位置是location=complement(join(5335..5576,5697..5769))
编号为CP002688.1_cdsid_AED90287.1的CDS区域位置是location=complement(join(5516..5576,5687..5769))

可以看出,有一些片段(如5687..5696)被前者看成是非编码的,被后者看成是编码的。
那么,我们的程序应该输出什么样的才算是正确?
 楼主| 发表于 2012-9-23 13:56:22 | 显示全部楼层
顶一下~~~~
您需要登录后才可以回帖 登录 | 注-册-帐-号

本版积分规则

小黑屋|手机版|Archiver|数学建模网 ( 湘ICP备11011602号 )

GMT+8, 2025-5-18 16:09 , Processed in 0.048162 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表