分析检测Analysis and Testingdoi:10.16736/j.cnki.cn41-1434/ts.2021.18.058基于统计分析模型的葡萄酒评价Evaluation of Wine Based on Statistical Analysis Models◎ 徐雨涵(江西财经大学 统计学院,江西 南昌 330013)(School of Statistics, Jiangxi University of Finance and Economics, Nanchang 330013, China)XU Yuhan摘 要:本文以葡萄酒和酿酒葡萄为研究样本,利用t检验对两组评酒员的评价结果有无显著差异进行可信度分析;运用主成分分析法对酿酒葡萄的一级理化指标进行筛选,提取酿酒白葡萄的10个主成分因子,并利用聚类分析法对酿酒葡萄的质量进行分级。关键词:酿酒葡萄;t检验;主成分分析;聚类分析Abstract:With wine grape and wine as the research samples, reliability analysis was conducted about the difference in the evaluating results of the two groups evaluators by t-test. Based on the primary physical and chemical indicators in the wine grape, the ten main factors of wine were selected by principal component analysis, and the wine grapes were divided by the clustering analysis method.中图分类号:TS262.6Keywords:wine grapes; t test; principal components analysis; clustering analysis随着人们对葡萄酒营养价值的需求,各种参差不齐的葡萄酒品种出现在国内市场。确定葡萄酒的质量好坏,需要有资质的评酒员品尝葡萄酒后对其指标进行评分,最后综合各项评分确定葡萄酒的质量。一般来说,葡萄酒的质量直接取决于酿酒葡萄的质量[1-2],鉴于此,本文根据酿酒葡萄的理化指标,在主成分分析法的基础上,采用聚类分析法对这些酿酒葡萄的质量进行分级,这对葡萄酒质量的评价具有一定的指导意义。样品号1234567891011121314表1 评酒员对葡萄酒评分的平均值表X82.074.278.379.471.068.477.570.472.974.372.363.365.981.3Y77.975.875.676.981.575.574.272.374.379.871.472.473.979.6样品号1516171819202122232425262728X72.072.474.078.873.172.277.876.471.075.973.377.181.364.8Y77.178.467.380.376.776.476.679.279.477.476.179.574.377.01 评价结果的t检验数据来源于文献[3],每组10名评酒员对同一样品进行打分,取其平均值,即为该葡萄酒样品的最终得分。计算出两组评酒员对28种葡萄酒样品的评分,见表1。基金项目:江西省教育厅科研项目(701/02223)。假设第1组和第2组葡萄酒得分X和Y均满足正作者简介:徐雨涵(2000—),女,本科在读,研究方向为数学建模及应用。214/现代食品XIANDAISHIPIN态分布N1(μ1,σ12)和N2(μ2,σ22)。作变换Zi=Xi-Yi,将该问题转化为单个正态总体检验的问题[4],即Zi满足分布N(μ1-μ2,σ12+σ22)。建立假设:H0:μ1-μ2=0;H1:μ1-μ2≠0。相应的t检验统计量为:AnalysisandTesting分析检测包含的信息越多。每个主成分方差占总方差的比重λi表示该主成分包含信息的贡献度,既减少了数据量,又保留了数据的主要信息。因此,当累积贡献度∑ki=1λi达到85%以上时,表示前k个主成分Y1,Y2,…,Yk 已经能表示出绝大部分信息,成功达到简化系统结构和降维目的。 (1)用SPSS软件对30个指标进行主成分分析,求得方差贡献率如表2所示,对变量的方差贡献率省略不2Z−0t= Szn———n1其中Z=X-Y,Sz=∑Zi−Zn−1i=1()2。如 计。由表2可知,前10个主成分因子累积贡献率达85%左右,能较好地反映指标变量信息,故只需提取前10个主成分因子即可。主成分分析后虽然已经找出主成分因子,但需要知道每一个主成分因子的含义,以便对实际问题进行分析。本文采用方差最大正交旋转方法[6],探讨酿酒葡萄主成分因子与原变量的关系,结果见表3。由表3可以看出这10个主成分因子所代表的实际含义。表2 酿酒葡萄的特征值、贡献率、累积贡献率表主成分123456789101112主成分因子12345678910特征值5.8735.1083.6672.0961.8981.5951.5081.3251.1931.0440.9370.806贡献率/(%)15.57517.02612.2246.9886.3255.3185.0274.4183.9753.4823.1252.687一级指标总糖、还原糖、可溶性固形物质、干物质含量、百粒质量、出汁率蛋白质、花色苷、多酚氧化酶活力、DPPH自由基、总酚、葡萄总黄酮、固酸比VC含量、可滴定酸、a红绿、b黄蓝氨基酸总量、苹果酸、白藜芦醇、可滴定酸酒石酸、苹果酸、柠檬酸单宁、白藜芦醇柠檬酸、多酚氧化酶力、白藜芦醇、pH值pH值、果皮质量果皮质量花色苷、DPPH自由基累积贡献率(/%)19.57536.60148.82555.81362.13967.45672.48376.90180.87684.35887.48290.169果t>t1−α(r−1),则拒绝原假设,如果t<t1-α(r−1), 22则接受原假设。取显著性概率α=0.05,将表1中数据代入公式(1)得:t=2.951>t0.975(27)=2.051。由此可知,对葡萄酒t检验统计量满足t>t1−α2(r−1),拒绝原假设,即认为两组评酒员对葡萄酒的评分有显著性差异,即所选数据在统计意义上具有有效性。对于葡萄酒评分,可求得第1组的标准差系数为:Z1=0.068,第2组的标准差系数为:Z2=0.042。经比较可得Z2<Z1,所以第2组的评价结果更加可靠。2 酿酒葡萄质量分级由于对葡萄酒的质量产生影响的指标较多,信息冗余量大,故合理提取指标信息是葡萄酒质量分级的关键,在主成分分析法的基础上运用聚类分析方法对酿酒葡萄的质量分级进行探讨研究。2.1 主成分分析主成分分析是利用降维思想,在损失信息较少的前提下,将多个指标转化成几个互不相关的综合指标的一种多元统计分析方法[5]。假设对于某种事物有p个评价指标,构成随机向量X=(X1,X2,…,Xp),形成多种线性组合和新的综合变量,按公式(2)计算:Y1=a11X1+a12X2+⋯a1pXp Y2=a21X1+a22X2+⋯a1pXp Y=aX+aX+⋯aXp11p22pppp表3 酿酒葡萄主成分因子与原变量的关系表(2)这些主成分之间互不相关,即i≠j时,Cov(Yi,Yj)=0,每个主成分的方差依次递减,即Var(Y1)≥Var(Y2)≥…≥Var(Yp),方差越大,表示XIANDAISHIPIN现代食品/215分析检测Analysis and Testing2.2 聚类分析所谓聚类分析,是一种将样本归类的统计分析方法[5]。根据所研究的样本或变量之间的亲疏关系、相似程度将其分成若干类,使得每一类内部样本差异尽可能小,类与类之间的样本差异较大。聚类分析的主要目的是减少研究对象数目,直接用几大类代表多个样品,以达到减少计算量的目的。根据已经提取出来的主成分以及求出的各样品所对应的主成分得分,采用组间平均连接聚类分析法,根据主成分得分score标准化后的数据对酿酒葡萄样本进行聚类,随后根据每种葡萄对应葡萄酒的评分范围或平均分划分出等级。运用SPSS软件,对28种酿酒葡萄样品进行聚类分析,聚类分析树型图结果见图1。根据组内距离小、组间距离大的原则,样品依据理化指标主成分得分,由图1可以看出,样品可分为7类,分别是(6,18,7,15)、(1,13,8,16)、(10,24,12)、(11,27)、(21,23,14,5,20,4,28)、(19,25,2)、(9,22,26,3,17)。酿酒葡萄级别12341234567由于第1、3类合并后的均值与第6类接近,故将其再次与第6类合并,得到的酿酒葡萄的等级划分如表5所示。表4 聚类后每一类酿酒葡萄对应葡萄酒评分均值表类别样品编号6,18,7,151,13,8,1610,24,1211,2721,23,14,5,20,4,2819,25,29,22,26,3,17表5 酿酒葡萄质量分级表葡萄样品编号21,23,14,5,20,4,28,9,22,26,3,176,18,7,15,10,24,12,19,25,211,271,13,8,16对应葡萄酒得分均值78.1576.6774.2072.85对应葡萄酒评分均值76.2072.8576.1074.2078.3077.2078.003 结论本文以葡萄酒和酿酒葡萄为研究样本,以多元统计分析为模型,通过采用t分布差异检验法判断出两组评酒员的评价存在显著差异。根据酿酒葡萄的理化指标,在主成分分析法的基础上,采用聚类分析法对酿酒葡萄的质量进行了分级。本研究方法对葡萄酒质量的评价具有一定的指导意义。参考文献[1]王华,赵现华,刘晶,等.葡萄与葡萄酒生产可持续发展研究进展[J].中国农业科学,2010,43(15):3204-3213.[2]房玉林,王华,张莉,等.不同酿造工艺对毛葡萄酒香气的影响[J].农业工程学报,2007(9):246-250.[3]教育部高等教育司和中国工业与应用数学学会.2012高教社杯全国大学生数学建模竞赛A题[EB/OL].(2012-09-07)[2021-07-02].http://www.mcm.图1 酿酒葡萄聚类分析树状图edu.cn/problem/2012/2012.html.[4]茆诗松,程依明,濮晓龙.概率论与数理统计教程[M].北京:高等教育出版社,2011.[5]何晓群.多元统计分析[M].北京:中国人民大学出版社,2012.[6]张钊,赵晓静.山东省城镇居民生活水平指标体系的实证分析[J].科协论坛,2011(4):189-190.由评价结果的t检验分析可知,第2组评酒员评价结果更可信,因此直接采用第2组评酒员评分数据对酿酒葡萄分级,通过每一类样品对应葡萄酒的评分平均值划分等级。求得7类样品对应评分的平均值,见表4。由于第1类和第3类,第5类和第7类的平均值相差很小,故把第1类和第3类合并,第5类和第7类合并。216/现代食品XIANDAISHIPIN