C题评论-->amao转移

CoCoCoCo · 发表于 2004-9-29 16:11:19

<

>我是做第一题的，应该说难度比其他题都要难一点。
<

>不过讨论的气氛似乎不浓，发一个贴子很长时间都无人问津。
<

>论坛中也缺少一个像实际工作者一样的专家主持和指导，处于一种一盘散沙的状态。
希望斑竹能够联系第一题的专家百忙之中来主持讨论，我们一定会热烈欢迎。
也希望所有做第一题的同学们参加讨论！

qcwf · 发表于 2004-9-29 23:23:53

<

> 大家对C的讨论，越来越深刻了。
 在数据的合理性上，原题的千车故障数的计算是有问题的，问题的本质是分母有问题（大家都分析的相对比较透彻），反映在横向数据上，越往左（累计使用月数越多），数据越不准确，因此应该改进制表方式。数据本身的另一个问题是，在纵向数据上，越往左下方数据越不准确，这种不准确的原因是有统计样本空间过小造成的，在统计上我们往往用故障发生的频率去估计该故障发生的概率，这就好比抛硬币，只有抛得次数（样本空间）足够多，我们得到的正反面的频率才会接近真正的正反面概率0.5，只抛几次可能未必估计得到正反面概率0.5。此类问题在数据的反映是越晚出厂的批次的车，能够在用户手中使用到12个月的数目（样本空间）越少，因此故障统计数据（左下方数据）可能越不准确，但不能武断的说左下方数据不合理，数据本身是真实的（同意方老师观点），在处理上更不可以随便的丢掉。
 既然大家发现了数据的不合理，就要采取相应的数据处理，否则只利用不合理的数据进行预测，必然导致不合理，我们当然希望厂家能够给出改进制表后的合理数据，但没有。下面给出两种合理的数据处理方法：
 1.从千车故障数的计算上讲，原表的数据都是不合理的，而且越往左下方越不合理，一种将计就计的处理方法是直接剔除不合理程度较高的左下方数据，保留不合理程度较低的右上方数据进行预测。这种处理方法处理起来，比较简单，但问题重重，因为越往左下方的数据，越靠近我们的预测数据，与预测数据的相关性越大，对预测的贡献也越大，直接剔除必然会导致预测的不准确。而且在剔除数据的尺度把握上也缺乏合理解释。
 2.另一种较合理的处理方法是，假设一个合理的销售分布，通过原数据差分出增量，由于增量与累计数据是一一对应的，可通过差分和累加相互转换，二者本质上是一致的，因此直接差分后得到的增量数据并没有解决原数据的不合理（分母问题），要彻底解决分母问题，必须根据销售分布重新计算合理的增量，以解决原数据千车故障数计算中的分母问题。然后将计算得到的增量数据再累加得到新的相对准确的千车故障表。由于没有销售分布数据，我们可以做出合理的假设，比如在没有任何先验信息可不妨假设为均匀分布。这种方法我认为是一种相对合理的处理数据的方法。因为是从本质上解决分母问题，而且销售分布的假设也并很合理。
 数据预处理后，就要进行合理的预测。由于数据量较少，直接从数据本身进行拟合我认为缺乏合理的解释，应该从数据的本身规律出发，在横向数据上（同一批次）建立合理的概率分布模型，对相应参数进行参数估计和假设检验。分布模型采用威布尔分布，负指数分布我个人认为都合理，差别不会很大，不过威布尔分布更专业一点。在数据的纵向处理上，我认为也要从数据的本身规律出发，即数据纵向相关性反映在横向概率分布的参数的纵向相关性上，可对这些横向概率分布的参数进行纵向拟合，但在拟合上有两种处理方法：
 1.先横向概率分布拟合，得到分布参数，然后再纵向拟合。这种做法虽然在两个方向上都作了考虑，但是分开处理的，割裂了数据的统一性。并且在后面几个都是0的批次中，横向已经无法进行拟合，因此都是0的批次故障数据无形中就被丢弃了。对最后一个数据的预测必然欠周到。
 2.横纵统一建模，这种做法的思想是先将横向分布参数，用样条（或多项式）函数表示出来，然后统一带入数据进行参数估计，这时候直接估计的参数已经不是每个批次的分布参数，而是不同批次分布参数的样条（或多项式）表示参数，进而可以通过样条（或多项式）表示函数得到每个批次的分布参数，统一建模的好处是，将横向相关与纵向相关同一建模考虑，并且所有数据对参数估计都有贡献，不会出现上面的都是0的批次故障数据丢弃现象。这种同一建模思想我认为优点很多，样条（或多项式）表示后待估参数个数明显减少，并且参数估计的稳定性加强。
 在模型的参数估计时，由于左下方数据的观测误差较大，可利用加权的方法重新调整这部分数据拟合残差贡献。
 至于其他的大家的一些方法，如滤波，指数平滑，周期预测等思想从本质上讲都是拟合参数的最小二乘估计问题，只是表现形式不同，不作过多评论。
 恳请大家指教。

实际工作者 · 发表于 2004-9-30 18:18:37

已删除

[此贴子已经被作者于2005-4-22 14:35:28编辑过]

xabpz · 发表于 2004-9-30 20:44:59

<

>结合生产的实际情况，随时间延长，生产设备的精度会有一个周期性的变化，比如设备使用一段时间后误差达到一定程度，则需要进行大修。看看题目中的数据，可以发现纵向上故障数缓慢上升，急剧上升，然后下降的趋势，而且出现故障数峰值的批次，产量很低，只有403，如果用设备大修期间，无法满负荷生产来解释是很合理的；紧接着下一个月，产量上升很快（6000多），则可解释为大修结束，为了补充产量，加班生产。不知道大家认为这样预测合理否？

qcwf · 发表于 2004-10-2 23:10:35

<

>首先感谢方老师的回复,这里补充几点:
1.首先同意方老师的意见,均匀分布未必是刻画真实的销售量分布的最好分布,但在没有任何销售量分布的先验信息的情况下,而且我们又只有获得真实的销售量分布才能从本质上改进原表的千车故障率计算的不合理,因此在这种情况下假设销售量分布为均匀分布有它的道理,这是基于改进原表的千车故障率计算的“分母”的不合理而提出的,正如方老师所说“可以尽量好地修正原表，使预测效果提高”.此外假设了均匀分布是对某一批次的汽车的整个销售期进行的假设，即某一批次的汽车在整个销售过程中销售量服从均匀分布，否则考虑到高峰期引起的局部分布期望发生变化,参数的确定将更加复杂.利用均匀分布修改后的数据保持了原数据的趋势,但原表中越靠左边的数据被调正的比例越大,最右边的0月份的数据保持不变,基本上修正了原千车故障率计算的分母不合理。
2.对方老师的建议"左下方第一条斜线的数据不用,当然这将影响不大",我谈一点不同看法:左下方的数据的不准确来源于两个方面,一是由于原表的千车故障率计算的“分母”的不合理,二是样本空间过小造成的观测误差较大.而且这两方面的问题造成的数据不合理程度都是是渐变的,即从右上到左下原数据的不合理程度是逐渐变大的,那么既然剔除左下方第一条斜线的数据不用,左下方第二条斜线的数据又有什么用的道理呢?而且实际上尤其是千车故障率计算的不合理是逐渐累积的,并不是剔除一两行数据就能解决的。
3.同意方老师的意见:横向数据的分布拟合是应该考虑到非奇次分布.但补充说明的是:分布究竟是否在横向统计时间段内是非齐次的,还要进行分布的假设检验(比如说在概率纸检验中,如果发现明显有折线现象,说明分布明显具有非奇次的特征),因此在对横向数据进行分布拟合时,必须伴随着分布的假设检验.拟合过程中,我们发现越靠左下方,拟合的残差越大,但这未必是代表分布一定是非奇次的,因为这部分数据本来统计方差就很大.除此之外,并没有发现明显的分布是非奇次的特征.如果过分强调对数据本身拟合,直接采用非齐次分不进行拟合,容易放大数据的局部（左下方）细节,造成对数据进行"过拟合".我们应该从数据本身的规律出发,平滑抑制随机噪声.拟合（估计）出真正的规律.
4.我个人并不赞同用时间序列来做,因为时间序列中的ARMA模型或指数平滑模型,本质上也是对数据进行拟合,我们在做金融上证指数数据分析经常使用到,但问题是时间序列方法一般要求数据充分,才可以拟合出数据本身的隐含规律,但是对于有限(24行)的纵向数据,我们甚至都无法分析检验数据的平稳性,因此在模型定阶与模型检验上也缺乏理论支撑,强行用时间序列拟合,我认为与直接拟合无本质区别,效果未必好.我们一开始就考虑过,并且现成的时间序列模型程序也有,就是因为在理论上缺乏合理性,拟合起来过于勉强,才放弃这种方法的.
5.此外样条模型,并不是直接拟合数据,也并不是认为数据各向同性,我们并不是直接对数据进行二维拟合,而是认为数据横向符合泊松分布(或威布尔),对横向分布参数（例如λ）进行纵向拟合,我们认为数据纵向相关性,体现在横向分布参数的纵向时间相关上,即不同的批次对应着不同的横向分布参数λ(i).然后横向纵向同一建模求解.由于篇幅关系关于样条模型的统一建模思想我会在以后的帖子中与老师和同学们慢慢讨论,我想非数学专业的学生,对样条拟合不熟悉的同学一时间很难体会到我们用样条模型统一建模的精髓.
6.补充说明的是,我认为在纵向数据处理上,方法可能多种多样,但本质无非是怎样拟合,关键看谁的数据分析的更透彻,建模思路更清晰准确,数据利用的更充分,横向纵向结合的更合理。研究生数模竞赛是展现大家聪明才智的舞台,是平时学习与科研工作的良好积累的充分体现,也是大家沟通交流的平台,希望研究生数模竞赛能越办越好！恳请大家指教！

[此贴子已经被作者于2004-10-7 2:38:32编辑过]

dullenx · 发表于 2004-10-7 17:46:59

<

> 大家都说分母错了，我认为没有错，大家不妨指出我的错误所在。
 大家讨论的关于分母错误的问题，我的看法是要看怎么定义“已售出”了，是已经到了消费者的手里，还是已经出厂？我的理解是前者，因为保修是从消费者购买汽车的时间开始的，在分析表时也是分析保修期内的故障率，那么，公司在统计已售出的汽车时就应该以到顾客手里才算售出，另外，我国的汽车经营方式，主要还是以代理的形式，即代理商将汽车卖出后再支付相应资金给厂家，因此，到了代理商那还不算售出。
 这样，分母的定义就不会有错了，除非消费者买到车了但一直没有用，那就另当别论了，也是统计不到的数据。
 如果是这样定义的话，那么表中的数据就不存在统计上的错误了，至于表中都是0的行，可以理解为事实如此，大家可以看0203行，经过计算实际上前五个月也就总共有4辆车报修，也不多。另外从质量变化趋势来看也是逐渐变好，因此，出现0是可以接受的。但是用0去预测分布参数显然是不行的，所以应该考虑用纵向预测该行数据。

实际工作者 · 发表于 2004-10-9 05:37:02

已删除

[此贴子已经被作者于2005-4-22 14:34:11编辑过]

eviltd · 发表于 2004-10-19 20:41:20

<

>求助：我想构造一个等概率的随机过程，其实题目很简单就是有N个存储单元，然后以等概率的方式分配存储单元，也就是每个单元被分配的概率为1/N。我本来是想C里面能不能找到类似JAVA中的一个random（）函数来随机生成一个数，以这种形式来实现随机的分配，但是又想到这个模型将来扩充的时候肯定是要以某种分布来选取存储元，所以想请教各位如何用数学模型来构造这个随机过程，即可以用C的算法来实现的这样一种数学模型！<

> 我不知道我的问题也许是不是很幼稚，但我是第一次做这样的问题，好象没有什么灵感和概念，真的希望高手们可以赐教，谢谢！

qcwf · 发表于 2004-10-20 18:50:32

<

>eviltd：具体意思我可能不大明白，不过我可以介绍C里面的一个函数给你。
rand（）函数将产生0到RAND_MAX(大概是三万多)的一个伪随机，所以除以RAND_MAX就是0到1之间按均匀分布产生的随机数，头文件<stdlib.h>，应用时最好加入 srand( (unsigned)time( NULL ) );则更接近真实分布。详细可查MSDN

qcwf · 发表于 2004-10-20 19:03:00

<

>C题讨论到今天，我个人认为该讨论到的基本上都讨论到了。本题的关键一是数据分析，指出不合理之处，二是建立合理的预测模型，我个人认为应该从汽车的质量特性出发，即分布里面的参数出发进行拟和或者平滑，而不是根据数据本身。对于第三四问的讨论不是重点，因为本题三四问跟前面一二问的联系不算太大，所以谈不上模型的进一步讨论，就看怎么发挥了。多零件的情况可以建立一个整车评价模型，其它诸如储存，运输方面的建模由于范围太广，显得有点脱节。以上是我的一点不成熟的总结，希望大家批评指正！

		自动登录	找回密码
密码			注-册-帐-号