用数据品鉴咖啡,407杯咖啡数据教你如何区分咖啡等级和风味

大数据文摘

共 2303字,需浏览 5分钟

 ·

2020-12-11 05:45

大数据文摘出品

来源:Medium

编译:睡不着的Iris


尝遍世界各地不同的咖啡,我好奇风味差异如何影响咖啡评级。尽管知道咖啡等级会影响口感,但我依旧喜欢一些等级较低的咖啡。


看了下两个咖啡评级数据库,撇去地区差异,我始终搞不明白风味能起到什么样的作用。


因此,我选取Sweet Maria's数据库进行分析。虽然数据库里有每杯咖啡的风味评级,但我首先提取了咖啡的Q级分。接着,我提取了所有豆子的风味评级数据,最终得到一个比原先稍大的数据库,其中有407杯咖啡的数据。


杯测评分(修正Q分)


如表格所示,Sweet Maria’s与SCA的杯测标准略有出入。奇怪的是,相比其他指标,甜度、一致性、干净度3个指标在SCA标准中,一开始分数看似挺好,但随后递减。反观Sweet Maria’s评分指标,发现它对咖啡有更深入的洞察。



数据


构建任何数据库,我们都需要花费时间做数据清洗和数据检查。此处,我用Q级分画了一张雷达图,我用原先代码生成了一张扩展的辅助指标评分图。对于咖啡风味数据,为了便于提数,我做了一定的修正。


经过Sweet Maria's授权使用,其他图均出自本文作者


我将数据整合在一张包含生产地、加工类型类型等元数据的大表中。我对数据做了多次梳理、审核,并抽样验证算法是否运行良好。



数据准备完毕,我开始分析。


分析:风味分布


12种风味指标加总后求平均,发现坚果和花香味比较少有,最常见的是糖果、可可和醇厚风味。



分析:相关性


相关性用于描述两个变量之间的相似程度。相关性高不代表一个变量对另一个变量有什么影响,当发生变化时,两个变量变化趋势相同。我认为一些评级变量最开始具有很高的相关性,因为它们是从不同角度表示咖啡口感。相关性可以是正向(趋势相同)的或负向(趋势相反)。0则表示两个变量没有相关性。


显然,杯测分数(Q分、评级,不管怎样称呼)的各项指标之间的相关性比风味指标更高。有趣的是,焦糖、可可、坚果和乡村风味与杯测分数成反比。这几种风味与其他风味的相关性不高,表现为微弱的负相关。莓果与水果具有很高的相关性,看起来是合理的。



我们通过一张更大的表直观展示各属性之间最高的相关性。负数表示为最高相关性的绝对值,但为负相关值或逆相关值(成反比)


显而易见,杯测分数与花香味指标最相关,许多风味指标都与明亮度杯测指标具有较高的相关性。但奇怪的是仅有27%的咖啡有花香味(要么一点都没有)。



对相关性矩阵按地区进行分解,看看每个指标与总得分(杯测分)的关系。不同地区的咖啡,水果、柑橘和莓果风味差异最大。令人诧异的是,我一直以为非洲咖啡豆果香味会更浓,但水果对非洲咖啡豆的贡献分并不大。



咖啡豆的风味部分也依赖于采用不同的工艺处理咖啡果实。我喜欢干法加工的咖啡豆,富有果香味,这从风味得分也可以看出来。但焦糖味却相反。我本以为焦糖与糖果味会相似,最后发现两者之间没有多少关联性。


另外,北美洲、混合拼配地区以外的地区,坚果/可可风味之间没有多少关系,但它们与总体得分呈现很强的负相关性。



坚果、可可都与干法加工逆相关,但受蜜处理、湿法加工的负向影响较弱。总体而言,非洲咖啡豆味道越丰富,整体杯测得分越高。杯测纠正与干法、其他加工方法负相关。这表明干法、其他加工方法总体得分低,但是实际上豆子很棒,因为杯测标准里没有代表加工工艺的量化指标。


分析:主成分分析(PCA)


主成分分析法(PCA)是将一组变量映射至新的维度空间,原始变量在新空间用新维度表示。简单数据集在不失真的情况下实现了降维,这样,每个Q级分(Sweet Maria’s评分)不需要使用所有的评分项,仅用11个维度表示即可。或许你只需要用到三个或主要成分。


让我们看看所有变量,不出所料,杯测总分是第一主成分,是最主要的影响变量。然而,在鉴别咖啡豆时,风味成分最主要的变量。



在没有杯测总分的情况下进行同样的分析,杯测师就在产生了一定的影响,但是,风味仍旧是最具影响力的独立成分。



进一步研究杯测、风味会对咖啡产生何种影响,我们计算了每个主成分的累积百分比值。



单独比较风味和杯测评级,风味指标依赖更多的主成分变量,使用到13个成分中的8个成分可达到90%的变化性,杯测评级只需4个指标。这表明风味指标更适合单独鉴别咖啡豆。



我们可以计算每个指标对各主成分影响的累积绝对值及其对数据的贡献度。杯测师纠正影响最大,风味和复杂度影响相对小。所有的风味指标,莓果、柑橘、水果和可可对鉴别咖啡豆最有影响,糖果累积影响最小。



使用包含大部分数据变量的2 个主成分绘制成散点图。杯测评级图数据分布比较集中,风味图数据分布比较分散。



评级数据相对集中,风味数据的分布比较有趣。观察干法加工、湿法加工、非洲地区咖啡豆数据最分散。


此项工作,仔细对比咖啡评级(杯测评级)和风味评级的差异。我发现,评测咖啡产区或加工工艺时,风味等级比咖啡评级更具代表性。咖啡评级应该与风味指标相互独立,而且Sweet Maria’s杯测方法对特定风味不会出现严重偏差。风味偏差最大的是花香味,但它没有其他杯测参数那么强的相关性。


相关报道:

https://towardsdatascience.com/a-review-of-coffee-data-grades-and-flavors-5ccb6fc51941


志愿者介绍
后台回复志愿者”加入我们


点「在看」的人都变好看了哦!
浏览 3
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报