<>首先感谢方老师的回复,这里补充几点:
1.首先同意方老师的意见,均匀分布未必是刻画真实的销售量分布的最好分布,但在没有任何销售量分布的先验信息的情况下,而且我们又只有获得真实的销售量分布才能从本质上改进原表的千车故障率计算的不合理,因此在这种情况下假设销售量分布为均匀分布有它的道理,这是基于改进原表的千车故障率计算的“分母”的不合理而提出的,正如方老师所说“可以尽量好地修正原表,使预测效果提高”.此外假设了均匀分布是对某一批次的汽车的整个销售期进行的假设,即某一批次的汽车在整个销售过程中销售量服从均匀分布,否则考虑到高峰期引起的局部分布期望发生变化,参数的确定将更加复杂.利用均匀分布修改后的数据保持了原数据的趋势,但原表中越靠左边的数据被调正的比例越大,最右边的0月份的数据保持不变,基本上修正了原千车故障率计算的分母不合理。
2.对方老师的建议"左下方第一条斜线的数据不用,当然这将影响不大",我谈一点不同看法:左下方的数据的不准确来源于两个方面,一是由于原表的千车故障率计算的“分母”的不合理,二是样本空间过小造成的观测误差较大.而且这两方面的问题造成的数据不合理程度都是是渐变的,即从右上到左下原数据的不合理程度是逐渐变大的,那么既然剔除左下方第一条斜线的数据不用,左下方第二条斜线的数据又有什么用的道理呢?而且实际上尤其是千车故障率计算的不合理是逐渐累积的,并不是剔除一两行数据就能解决的。
3.同意方老师的意见:横向数据的分布拟合是应该考虑到非奇次分布.但补充说明的是:分布究竟是否在横向统计时间段内是非齐次的,还要进行分布的假设检验(比如说在概率纸检验中,如果发现明显有折线现象,说明分布明显具有非奇次的特征),因此在对横向数据进行分布拟合时,必须伴随着分布的假设检验.拟合过程中,我们发现越靠左下方,拟合的残差越大,但这未必是代表分布一定是非奇次的,因为这部分数据本来统计方差就很大.除此之外,并没有发现明显的分布是非奇次的特征.如果过分强调对数据本身拟合,直接采用非齐次分不进行拟合,容易放大数据的局部(左下方)细节,造成对数据进行"过拟合".我们应该从数据本身的规律出发,平滑抑制随机噪声.拟合(估计)出真正的规律.
4.我个人并不赞同用时间序列来做,因为时间序列中的ARMA模型或指数平滑模型,本质上也是对数据进行拟合,我们在做金融上证指数数据分析经常使用到,但问题是时间序列方法一般要求数据充分,才可以拟合出数据本身的隐含规律,但是对于有限(24行)的纵向数据,我们甚至都无法分析检验数据的平稳性,因此在模型定阶与模型检验上也缺乏理论支撑,强行用时间序列拟合,我认为与直接拟合无本质区别,效果未必好.我们一开始就考虑过,并且现成的时间序列模型程序也有,就是因为在理论上缺乏合理性,拟合起来过于勉强,才放弃这种方法的.
5.此外样条模型,并不是直接拟合数据,也并不是认为数据各向同性,我们并不是直接对数据进行二维拟合,而是认为数据横向符合泊松分布(或威布尔),对横向分布参数(例如λ)进行纵向拟合,我们认为数据纵向相关性,体现在横向分布参数的纵向时间相关上,即不同的批次对应着不同的横向分布参数λ(i).然后横向纵向同一建模求解.由于篇幅关系关于样条模型的统一建模思想我会在以后的帖子中与老师和同学们慢慢讨论,我想非数学专业的学生,对样条拟合不熟悉的同学一时间很难体会到我们用样条模型统一建模的精髓.
6.补充说明的是,我认为在纵向数据处理上,方法可能多种多样,但本质无非是怎样拟合,关键看谁的数据分析的更透彻,建模思路更清晰准确,数据利用的更充分,横向纵向结合的更合理。研究生数模竞赛是展现大家聪明才智的舞台,是平时学习与科研工作的良好积累的充分体现,也是大家沟通交流的平台,希望研究生数模竞赛能越办越好!恳请大家指教!</P>
[此贴子已经被作者于2004-10-7 2:38:32编辑过]
|