2012年南开大学“学而思”杯数学建模比赛赛题 « 数学建模网

2012年南开大学“学而思”杯数学建模比赛赛题

时间：2012年05月06日作者：amao查看次数:1,248 次评论次数：0

消息来源：http://sms.nankai.edu.cn/html/xsgz/xszytz/464.html

A题：基因序列分析

人类免疫缺陷病毒(Human Immunodeficiency Virus，HIV)，简称艾滋病病毒，会造成人类免疫系统的缺陷, 导致艾滋病（AIDS）. HIV基因组翻译成蛋白的过程相对复杂, 它会重复交叉使用某些基因片段。病毒序列在进化和传播的过程中主要是envelope基因变化很快。详细描述可见HIV的生活史。由于现有的抗艾滋病病毒药对HIV无法根治，因此就将“责任”归咎高变异性. 目前, 很多的HIV序列已经被测定出来, 附件给出了一些HIV的序列. 我们试图通过对HIV序列的分析来断定这些序列上哪些位置比较重要, 从而给艾滋病的研究一些帮助. 例如, 某些位置上的突变可能会影响到HIV的传播机制, 如果我们瞄准这些位置设计药物, 可能会对艾滋病的传播起到抑制作用.

HIV基因组序列大约长10k，HIV1_GENOME_DNA.fasta包含了1400余条基因组的序列，因为在序列突变的过程中，有一些核酸会消失，这些消失的核酸在文件中使用”-“来表示。表示此处发生了一次删除突变。也就是说, 文件中所有序列都是”对齐”的. 这样, 我们可以知道这些序列中某一个特定位点上核酸的分布情况. 另外，HIV基因组中包含了若干个编码蛋白质的基因，编码后的蛋白质可以行使病毒传播，致病等功能。HIV1_ENV_DNA.fasta是其中一个编码蛋白质基因的序列，HIV1_ENV_PRO.fasta是编码后的蛋白序列。它们同样是已经比对好的。基于这些数据，回答先烈问题：

(1) 对于HIV1_ENV和HIV_GENOME的DNA序列，构造数学方法对序列的位点进行分析，指出这两者之间的异同。
(2) HIV序列位点之间或者某些位点之间是否存在相关性？如果存在，那么如何去度量这种相关性？
(3) 对这些序列进行进一步的分析，找到你认为的HIV中较为重要的位点，并说明这些位点为什么重要。

B题：自指涉系统

股市的大盘指数的研究是一个困难的事。在实际研究中，我们可以将它看成是个随机过程$$x_1,x_2,\ldots,x_n,\ldots$$（时间序列）。一般来讲，不论是否认可它的可预测性，人们都会自觉和不自觉地期待未来到底会发生什么变化。因此各种各样的手段登台亮相。从最不靠谱的易经，上升通道（下降通道），时间窗，波浪理论等手法，到借助信号学方法，信息论方法，概率统计方法的各种预测方法。似乎又都有正确的时候，又都又失败的时候。总有人信，也总有人不信。于是股市上的口头禅是“仁者见仁，智者见智”。

当然，不论你采用什么方法，预测单只股票或者大盘指数的话，你不可能有很大的把握肯定预测的趋势是否会发生。好在沪市已经具备了近千只股票的规模。因此，个股和大盘指数构成了一个自指涉系统。使得该系统中大部分与大盘相似就可以断定大盘未来的趋势成立。

因为大盘本身是由若干只被选出的个股现通过加权组合得到的。附件中有沪市大盘指数的数据，以及几乎全部的个股的周收盘数据，它们长短不一，是因为上市时间不一致，但截至日都是相同的。如何依据附件中的观测数据回答如下问题：

1. 假设个股和大盘分别是同分布的，通过检验附件中收盘数据说明个股和大盘涨跌幅服从正态分布者甚少。
2. 找出一个适当的含参数的分布函数使得多数个股和大盘的涨跌幅服从该参数分布（参数可以不同）。
3. 通过数学方法找出你认为是指标股的集合（可以分阶段）。但要与实际的指标股集合比较吻合程度。
4. 假如你要肯定你对沪市大盘指数预测有95%的把握，那么你必须选择一些个股进行预测来支持你对大盘预测的结论。根据你得出的指标股，你最少应该选择多少只来与大盘指数构成自指涉系统。

下载： 2012年南开大学“学而思”杯数学建模比赛赛题 (下载488)

声明: 本文采用 BY-NC-SA 协议进行授权 | 数学建模网—SHUMO.COM
转载请注明转自《2012年南开大学“学而思”杯数学建模比赛赛题》