C题评论-->amao转移

IRIS · 发表于 2004-9-27 15:45:53

<

>我觉得按照实际情况是增量受销售量影响，因为增量计算的减数和被减数分母不同了，但按原题错误的计算方法，由于每一行分母是相同的，所以导致不受销售量影响了。所以原题中的增量还是可以用。<

>当然我的观点很片面，希望不要影响老师的思路。

dullenx · 发表于 2004-9-28 06:00:18

<

0cm 0cm 0pt">大家好，我有点想法，不知道对错，希望得到大家的批评指正：）<

0cm 0cm 0pt">我觉得，纵向数据的预测首先要把握纵向数据反映的实质。<

0cm 0cm 0pt"> 纵向数据反映的是各批次生产汽车的质量变化规律，直观地说，当我们看到某行的数据较大时，我们就会说这一批次的产品质量不好，反之就会说好。 所以，我认为，单纯用各种如灰色预测，样条函数等去预测并不能让人信服这种规律。因为如果用灰色预测等作纵向预测时我们依据的是该列的前几个数据去预测下一个数据，也就是说，我们在用前几个批次生产的部件在使用相同时间的千车故障率来预测将来批次生产的部件在使用相同时间的千车故障率。从本质上分析，下个月批次生产的使用一定时间的千车故障数只与该批次的产品质量有关，是该批次产品质量的外在表现。从这个角度来看，问题本质需要预测的就应该是该批次的产品质量了。 同样，每行的数据也是刻画该批次的产品质量，表中数据仅仅是外在表现，因此，我认为用质量参数来刻画每行的数据的随机性影响会更小。 这样，表中的数据我们就可以看成是：受产品质量限制所表现出来的威布尔分布+随机扰动 的结果。 而传统的预测是：用威布尔分布+随机扰动 的数据去预测一个横向上服从威布尔分布+随机扰动的数据。 我的想法是：用威布尔分布数据去预测威布尔分布数据。直观的说就是，用前几个批次的产品质量去预测下个批次的产品质量，再根据产品质量来计算千车故障率。 现在要做的就是产品质量用什么来刻画。一个比较直观的是寿命分布的期望和方差，他分别刻画了该批产品的平均寿命和质量稳定状况。根据二参数威布尔分布，有上述统计量也可以方便反推出分布的两个参数。所以，可以用每一行的分布的期望预测期望，方差预测方差，再根据预测的期望和方差反推预测行的分布，再计算相关千车故障率。当然，这也存在一个问题，就是用小样本去估计分布函数本身就存在误差，另外，威布尔分布的期望和方差的变化受样本变化很敏感，也就是说有时期望和方差差距很大，但分布可能很接近。这里想到的方法就是：用威布尔分布修正的数据来近似刻画质量。例如：表中某个数据是a，通过这行数据的参数估计得到威布尔分布，用威布尔分布修正得到该数据应该为b,那么就应该用b来预测。在估计威布尔分布参数时，用的是累积量估计，这是因为可以通过误差的正负性相互抵消一部分误差。可以用误差的和的期望为0，方差为σ2/n来解释，这样误差的累积将减少误差。举个例子，通常测一段距离的长度是通过多次测量再取平均，其实质也是先求和，存在误差的叠加问题。也就是说，用累积的数据预测较之增量预测更为准确。现在问题来了，为什么<st1

ersonName w:st="on" ProductID="方">方</st1

ersonName>老师从另一个角度出发推出用增量预测效果更好？而且，从增量上看数据经常会出现0，规律性不明显，但从累积量来看较明显地看出了规律。这是否应证了我的推导？

IRIS · 发表于 2004-9-28 16:09:50

<

>增量再累积一下不就可以用了吗？
<

>单纯从增量的话，分布就是泊松分布
<

>通过增量累积，得到的依然是威布尔分布。
这里并不矛盾。
从质量来考虑，我认为是可行的。
但不管从质量来看或者从数据本身或修正的数据来考虑这个问题，我认为都不能分割横纵的统一性
也就是说不能单独用横向预测或纵向预测，必须统一考虑横纵，也可以这么说，同时利用横纵数据进行预测。另外根据我对楼上分析的理解，利用期望预测期望，方差预测方差实际上是在纵向上进行预测，横向上依然承认是威布尔分布，横向上的预测依然只能利用威布尔分布来做

dullenx · 发表于 2004-9-28 18:01:14

<

>我没有否认预测时要分开纵横，但总的来说，横向的预测比纵向的预测更为可靠，因此，数据充分，能用横向的就尽量用横向的。用横向预测的数据总结出质量特征，再用质量特征进行预测将来批次的质量特征。<

>既然还要对增量在累加，那为什么还要求增量？增量不就是累加值递减得到的吗？<

>我在研究每一行的数据时用的就是威布尔分布，因为只有这样才能提取出质量信息。用期望和方差预测当然要用到横向数据了，不然怎么得到每行数据的期望和方差。增量数据可以看成是一个帕松流，但不能说增量就是帕松分布，累加后就变成了威布尔分布了，他们的关系是概率密度函数和分布函数的关系，后者是前者的积分。本质是一样的，只是表达形式不一样而以。我想说的统一纵横的目的不是单从纯数据的角度把这个曲面重构出来，而是找到数据所反映的问题本质，从本质上去发现规律。表中数据的行与列不是独立的，他们之间有内在的联系，我希望的就是把这种联系找出来，并用以指导预测。我所能想到的就是上面我讲到的联系。不知我说的是否正确，欢迎批评指正。

qcwf · 发表于 2004-9-28 20:01:23

<

>我同意楼上“累积将减少误差”这一观点，但前提必须是累计数据必须正确,即必须是正确的千车故障数.这个数据目前没有,所以还必须要转换数据.转换的方法就是利用增量,因为增量是准确的.<

>另外误差这个概念不是很确切,概率本身就有不确定性.抛硬币你得到的频率也不是严格的等于0.5.服不服从威不尔分布,检验即知.<

>在纵向问题的考虑上,你是否忽略了批次间的相关关系,下一个批次沿用的还是同一套生产设备,可能有技术改进,所以它们是相关的.如果单用横向数据,最后那几个零你是无法拟和威不尔参数的,但是利用横纵结合就可以预测.所以我认为本题的关键一是数据分析,包括怎样转换数据,二是怎样利用纵向数据(最好是横纵结合,不分横纵的先后)上面是我的几点意见,不一定对,欢迎大家批评指正!

dullenx · 发表于 2004-9-28 23:55:37

<

0cm 0cm 0pt; TEXT-INDENT: 21pt; mso-char-indent-count: 2.0">我强调的是能用横向的就尽量用横向的，当横向预测数据不足时采用纵向的，问题的后两个预测就需要纵向预测。<

0cm 0cm 0pt; TEXT-INDENT: 21pt; mso-char-indent-count: 2.0">我没有忽略纵向数据的关系，而是在尽量地发掘他们的关系，通过归纳出每一行数据所反映的质量特征去提取他们之间的相关性。<

0cm 0cm 0pt; TEXT-INDENT: 21pt; mso-char-indent-count: 2.0">纵向数据确实有非常密切的关系，因为他们处于一个生产线，但为什么会变化呢？这是因为个批次的产品质量不同，那有什么表现呢？就是寿命分布的参数不同，从而表现出具体数据不同。我做的只是倒过来这个分析过程，从具体数据估计寿命分布参数，用寿命分布参数去刻画产品质量，再分析产品质量变化。楼上的说，概率本身就有不确定性，抛硬币你得到的频率也不是严格的等于0.5.服不服从威不尔分布,检验即知。某一事件的出现具有不确定性，即抛出的硬币是正面还是反面是不确定的，但是它的分布是确定的，这也正是由偶然产生的必然。我没有否认寿命数据需要作检验，而且我认为这是必要的。但目的不是检验是否接受这个分布，主要目的是用什么分布最合适。我不太明白楼上的这句话：“这个数据目前没有,所以还必须要转换数据.转换的方法就是利用增量,因为增量是准确的.”请问增量如何得到，得到后又如何转化为累积量？我理解大家的目的是用已知的数据把整个曲面构造出来，所以希望把横向和纵向结合起来，我想做的只是抛弃从纯数字的角度去构造这个曲面，而是找到其中数据的规律去重构它。

qcwf · 发表于 2004-9-29 00:40:38

住在46楼的朋友，我大概明白你的意思，实际上我们都是用数据来提取故障的本身规律，即上面的两个参数。用这些参数确实可以重构二维平面。但我认为不能忽略纵向的重要性，横纵应相互制约。另外本题首先是要进行数据处理的，即分析千车故障数定义的不合理性，不知道你考虑了没有

实际工作者 · 发表于 2004-9-29 00:48:18

已删除

[此贴子已经被作者于2005-4-22 14:32:12编辑过]

qcwf · 发表于 2004-9-29 06:21:53

<

> 感谢方老师提出这么中肯的评论，看到有这么同学和老师在网上讨论，我们也非常高兴。
 我认为方老师说出了问题的实质,即是说: 用每行的数据确定每个批次对应的韦伯分布的两个参数,再用两个参数的变化规律预测出预测行的威布尔分布. 这样的话预测就不是根据数据本身,而是根据车的本身质量特性,同时避免了数据本身带来的不确定性,又结合了横向所反映的规律.
 我们当时做的第二个模型实际上也是基于此原理来做的.大概思路如下:用两组B样条参数来表示24个批次的威布尔参数(当然也可用最小二乘,多项式基,三角函数基等.当时我们发现纵向数据的曲线形状很像B样条基的曲线形状,同时B样条可以节省参数,拟和残差较小,所以选用B样条基.注:多项式基不是很好的基,基间存在相关性).在做的时候我们并没有直接根据横向得到的威布尔参数来拟和预测行的威布尔参数(即先横后纵),因为这样做实际上破坏了数据的统一性.我们的做法是,把表示后的两组参数回代入威布尔分布函数的表达式中,按残差最小的原则估计这两组表达参数(横纵统一整体建模).这样的话能从整体上反映车的质量特性.
 但是我认为老师说的也非常有道理，即是说临近批次的相关性应该大些，隔得太远就应该小些，上面的整体建模中如果再加入一定的优先级，效果会更好些。不过需要说明的是样条模型本身也有此功能，因为它的基基本上是独立的，批次也是受邻近批次影响最大，批次相隔太远就基本上没有什么影响了。
 另外,靠近左下角的数据前面大家已经分析不是很准确,但也不能不用,因为数据本身就少.我想也可以用加权的思想.这一块数据的权值可以设的小些再整体建模.我想效果还会更好一些.
 以上是我的几点意见,欢迎大家批评指正!

dullenx · 发表于 2004-9-29 08:57:18

<

0cm 0cm 0pt; TEXT-INDENT: 18pt; mso-char-indent-count: 2.0">非常感<st1

ersonName ProductID="谢方" w:st="on">谢方</st1

ersonName>老师的批评指正：）<

0cm 0cm 0pt; TEXT-INDENT: 18pt; mso-char-indent-count: 2.0"><st1

ersonName ProductID="方" w:st="on">方</st1:PersonName>老师说得对，大家讨论的目的是为了把问题弄明白，不一定要严格按照论文的讨论，所以我的一些看法也是论文里面没有提到的。<

0cm 0cm 0pt; TEXT-INDENT: 18pt; mso-char-indent-count: 2.0">另外，我认为，研究生的竞赛要脱离本科生竞赛的束缚，不要追求有一个完美的答案，而应该要把问题研究透侧，重在用数学的方法把问题的原理分析清楚，应该允许出现因为数据不足而无法达到精确解的答案。不知道我说得对不对：）欢迎<st1:PersonName ProductID="方" w:st="on">方</st1:PersonName>老师批评。
 下面是我对您的问题的解答，不知是否说清楚了。
1、用两个参数预测两个参数同样存在这种问题，各行的参数差距也很大（数量级的差距）。而且在没有严格证明的前提下，我不敢保证参数拟合的效果，因为有可能在某些区间参数很接近，但分布函数相差很大，但在某些区间参数差很大，但分布却很接近。所以最终我们还是直接用修正的累加的数据做的，因为这样刻画分布曲线更为直观，不用担心上述问题。
 2、纵向预测的预测长度，我不知道是不是指预测的阶，也就是依据几个数据去预测下个数据。如果是的话，我认为这与生产相关，要看质量变化受前几个月的影响了。我认为下个月的产品质量的相关性一方面依赖于上个月的质量水平，另一方面依赖于质量反馈情况，也就是说，质量的变化与质量反馈有关，反馈回质量差了，就加强管理，质量变佳。反之变差。也就是说预测的阶与质量反馈时间有关。
3、大家讨论的关于分母错误的问题，我的看法是要看怎么定义“已售出”了，是已经到了消费者的手里，还是已经出厂？我的理解是前者，因为保修是从消费者购买汽车的时间开始的，在分析表时也是分析保修期内的故障率，那么，公司在统计已售出的汽车时就应该以到顾客手里才算售出，另外，我国的汽车经营方式，主要还是以代理的形式，即代理商将汽车卖出后再支付相应资金给厂家，因此，到了代理商那还不算售出。
 这样，分母的定义就不会有错了，除非消费者买到车了但一直没有用，那就另当别论了，也是统计不到的数据。
 如果是这样定义的话，那么表中的数据就不存在统计上的错误了，至于表中都是0的行，可以理解为事实如此，大家可以看0203行，经过计算实际上前五个月也就总共有4辆车报修，也不多。另外从质量变化趋势来看也是逐渐变好，因此，出现0是可以接受的。但是用0去预测分布参数显然是不行的，所以应该考虑用纵向预测该行数据。
 4、对于小样本问题，这是问题本身的问题，巧妇难为无米之炊，现在也只能用传统的参数估计方法了，我要指出的只是小样本估计的参数可能不准确。
5、在分布法预测时同样使用一定时间长度的预测下一个分布，这点不矛盾，因此也具有一定的抗干扰性。另外，如果我分析的表格设计是有一定科学性的话，那么分布法的优势自然体现出来了，也不存在讨论累加还是增量的问题了。

		自动登录	找回密码
密码			注-册-帐-号