数模论坛

 找回密码
 注-册-帐-号
搜索
热搜: 活动 交友 discuz
查看: 3226|回复: 0

CUMUM 2000-A题

  [复制链接]
发表于 2003-10-7 21:05:56 | 显示全部楼层 |阅读模式
A题  DNA序列分类
2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列
图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。这本
大自然写成的“天书”是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中
没有“断句”也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的“内
容”知之甚少,难以读懂。破译这部世界上最巨量信息的“天书”是二十一世纪最重要
的任务之一。在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随
机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformati
cs)最重要的课题之一。
虽然人类对这部“天书”知之甚少,但也发现了DNA序列中的一些规律性和结构。例如,
在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字
符串,其中大多数用于编码构成蛋白质的20种氨基酸。又例如,在不用于编码蛋白质的
序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的
结构也取得了一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性
,等等。这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列
的结构对理解DNA全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的
某些细节,突出特征,然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的
方法往往有助于研究规律性和结构。
作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题:
    1)下面有20个已知类别的人工制造的序列(见反面),其中序列标号1—10 为A类
,11-20为B类。请从中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的
方法是否足够好。然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号
21—40)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的
不写入):
    A类                         ;    B类                            。
    请详细描述你的方法,给出计算程序。如果你部分地使用了现成的分类方法,也要
将方法名称准确注明。
这40个序列也放在如下地址的网页上,用数据文件Art-model-data 标识,供下载:
网易网址:www.163.com  教育频道  在线试题;
教育网:  www.cbi.pku.edu.cn  News  mcm2000
教育网:  www.csiam.edu.cn/mcm
2)在同样网址的数据文件Nat-model-data 中给出了182个自然DNA序列,它们都较长。
用你的分类方法对它们进行分类,像1)一样地给出分类结果。
提示:衡量分类方法优劣的标准是分类的正确率,构造分类方法有许多途径,例如提取
序列的某些特征,给出它们的数学表示:几何空间或向量空间的元素等,然后再选择或
构造适合这种数学表示的分类方法;又例如构造概率统计模型,然后用统计方法分类等


Art-model-data
1.aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttg
tctacggccggaagtgaagggggatatgaccgcttgg
2.cggaggacaaacgggatggcggtattggaggtggcggactgttcggggaattattcggtttaaacgggacaagg
aaggcggctggaacaaccggacggtggcagcaaagga
3.gggacggatacggattctggccacggacggaaaggaggacacggcggacatacacggcggcaacggacggaacg
gaggaaggagggcggcaatcggtacggaggcggcgga
4.atggataacggaaacaaaccagacaaacttcggtagaaatacagaagcttagatgcatatgttttttaaataaa
atttgtattattatggtatcataaaaaaaggttgcga
5.cggctggcggacaacggactggcggattccaaaaacggaggaggcggacggaggctacaccaccgtttcggcgg
aaaggcggagggctggcaggaggctcattacggggag
6.atggaaaattttcggaaaggcggcaggcaggaggcaaaggcggaaaggaaggaaacggcggatatttcggaagt
ggatattaggagggcggaataaaggaacggcggcaca
7.atgggattattgaatggcggaggaagatccggaataaaatatggcggaaagaacttgttttcggaaatggaaaa
aggactaggaatcggcggcaggaaggatatggaggcg
8.atggccgatcggcttaggctggaaggaacaaataggcggaattaaggaaggcgttctcgcttttcgacaaggag
gcggaccataggaggcggattaggaacggttatgagg
9.atggcggaaaaaggaaatgtttggcatcggcgggctccggcaactggaggttcggccatggaggcgaaaatcgt
gggcggcggcagcgctggccggagtttgaggagcgcg
10.tggccgcggaggggcccgtcgggcgcggatttctacaagggcttcctgttaaggaggtggcatccaggcgtcg
cacgctcggcgcggcaggaggcacgcgggaaaaaacg
11.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatc
caacgtttttattactttttaaaattaaatatttatt
12.gtttaattactttatcatttaatttaggttttaattttaaatttaatttaggtaagatgaatttggttttttt
taaggtagttatttaattatcgttaaggaaagttaaa
13.gtattacaggcagaccttatttaggttattattattatttggattttttttttttttttttttaagttaaccg
aattattttctttaaagacgttacttaatgtcaatgc
14.gttagtcttttttagattaaattattagattatgcagtttttttacataagaaaatttttttttcggagttca
tattctaatctgtctttattaaatcttagagatatta
15.gtattatatttttttatttttattattttagaatataatttgaggtatgtgtttaaaaaaaattttttttttt
ttttttttttttttttttttaaaatttataaatttaa
16.gttatttttaaatttaattttaattttaaaatacaaaatttttactttctaaaattggtctctggatcgataa
tgtaaacttattgaatctatagaattacattattgat
17.gtatgtctatttcacggaagaatgcaccactatatgatttgaaattatctatggctaaaaaccctcagtaaaa
tcaatccctaaacccttaaaaaacggcggcctatccc
18.gttaattatttattccttacgggcaattaattatttattacggttttatttacaattttttttttttgtccta
tagagaaattacttacaaaacgttattttacatactt
19.gttacattatttattattatccgttatcgataattttttacctcttttttcgctgagtttttattcttacttt
ttttcttctttatataggatctcatttaatatcttaa
20.gtatttaactctctttactttttttttcactctctacattttcatcttctaaaactgtttgatttaaactttt
gtttctttaaggattttttttacttatcctctgttat
21.tttagctcagtccagctagctagtttacaatttcgacaccagtttcgcaccatcttaaatttcgatccgtacc
gtaatttagcttagatttggatttaaaggatttagattga
22.tttagtacagtagctcagtccaagaacgatgtttaccgtaacgtqacgtaccgtacgctaccgttaccggatt
ccggaaagccgattaaggaccgatcgaaaggg
23.cgggcggatttaggccgacggggacccgggattcgggacccgaggaaattcccggattaaggtttagcttccc
gggatttagggcccggatggctgggaccc24.tttagctagctactttagctatttttagtagctagccagccttt
aaggctagctttagctagcattgttctttattgggacccaagttcgacttttacgatttagttttgaccgt
25.gaccaaaggtgggctttagggacccgatgctttagtcgcagctggaccagttccccagggtattaggcaaaag
ctgacgggcaattgcaatttaggcttaggcca
26.gatttactttagcatttttagctgacgttagcaagcattagctttagccaatttcgcatttgccagtttcgca
gctcagttttaacgcgggatctttagcttcaagctttttac
27.ggattcggatttacccggggattggcggaacgggacctttaggtcgggacccattaggagtaaatgccaaagg
acgctggtttagccagtccgttaaggcttag
28.tccttagatttcagttactatatttgacttacagtctttgagatttcccttacgattttgacttaaaatttag
acgttagggcttatcagttatggattaatttagcttattttcga
29.ggccaattccggtaggaaggtgatggcccgggggttcccgggaggatttaggctgacgggccggccatttcgg
tttagggagggccgggacgcgttagggc30.cgctaagcagctcaagctcagtcagtcacgtttgccaagtcagta
atttgccaaagttaaccgttagctgacgctgaacgctaaacagtattagctgatgactcgta
31.ttaaggacttaggctttagcagttactttagtttagttccaagctacgtttacgggaccagatgctagctagc
aatttattatccgtattaggcttaccgtaggtttagcgt32.gctaccgggcagtctttaacgtagctaccgttta
gtttgggcccagccttgcggtgtttcggattaaattcgttgtcagtcgctctrtgggtttagtcattcccaaaagg

33.cagttagctgaatcgtttagccatttgacgtaaacatgattttacgtacgtaaattttagccctgacgtttag
ctaggaatttatgctgacgtagcgatcgactttagcac
34.cggttagggcaaaggttggatttcgacccagggggaaagcccgggacccgaacccagggctttagcgtaggct
gacgctaggcttaggttggaacccggaaa
35.gcggaagggcgtaggtttgggatgcttagccgtaggctagctttcgacacgatcgattcgcaccacaggataa
aagttaagggaccggtaagtcgcggtagcc
36.ctagctacgaacgctttaggcgcccccgggagtagtcgttaccgttagtatagcagtcgcagtcgcaattcgc
aaaagtccccagctttagccccagagtcgacg
37.gggatgctgacgctggttagctttaggcttagcgtagctttagggccccagtctgcaggaaatgcccaaagga
ggcccaccgggtagatgccasagtgcaccgt
38.aacttttagggcatttccagttttacgggttattttcccagttaaactttgcaccattttacgtgttacgatt
tacgtataatttgaccttattttggacactttagtttgggttac
39.ttagggccaagtcccgaggcaaggaattctgatccaagtccaatcacgtacagtccaagtcaccgtttgcagc
taccgtttaccgtacgttgcaagtcaaatccat
40.ccattagggtttatttacctgtttattttttcccgagaccttaggtttaccgtactttttaacggtttacctt
tgaaatttttggactagcttaccctggatttaacggccagttt
您需要登录后才可以回帖 登录 | 注-册-帐-号

本版积分规则

小黑屋|手机版|Archiver|数学建模网 ( 湘ICP备11011602号 )

GMT+8, 2024-3-29 01:50 , Processed in 0.052207 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表