如何通过文本挖掘进行品牌分析-技术圈

大家好，我是宝器！

毛主席说过“没有调查就没有发言权”。但传统的调研需要花费大量的时间进行问卷调研与用户访谈。在“客户为王”的市场竞争环境下，企业只有更快、更好的响应客户需求，才能提升客户感知，保证客户满意度，从而促进企业价值及收益。

我们为企业进行的客户声音管理项目，就是通过多个渠道倾听客户关于产品或服务的需求、投诉、建议等，通过自动化的手段分析问题、解决问题，从而为客户提供更好的服务体验。

通过这篇文章，想和大家分享的是，随着各种内容平台的兴起，结合文本挖掘技术，挖掘、分析产品的评分与评论，将是我们聆听市场声音非常有效的途径。

在之前的文章《商业分析中，如何进行文本挖掘（上）》中介绍了，大数据文本挖掘作为市场调研、客户体验管理的一种补充手段，可以帮助企业完成诸如“消费者情绪识别”、“售前支持”、“购买信号”、“发掘意见领袖”等信息的挖掘。

前文当时引起了一些品牌方、新媒体、咨询公司、产品经理的浓厚兴趣，强烈希望笔者继续对分析方法和应用场景做进一步的阐述。

为了响应大家的需求，本文以特斯拉Model3口碑分析为例，介绍文本挖掘的实际应用场景以及流程。文章内容较长，建议大家先收藏，即使阅读被中断也能快速找到，需要时也可以作为工具书。

图片来源于网络，如有侵权请联系删除

1.数据准备

1.1明确分析目标

在做分析之前我们首先要明确分析目标，本次Model3口碑研究我们希望了解Model3的产品体验表现，主要探索如下三个方面：

了解Model3车主的购车目的，分析车主的主要使用场景
了解Model3车主的购买决策因素，例如科技感、牌照难摇、泡妞有排面、信仰
Model3车主客户体验评价：从空间、动力、操控等八个维度分析客户评价，挖掘产品槽点，结合竞品的优劣势，探索后续机会点

1.2数据采集与处理

明确目标之后就开始数据采集，行业垂直类社区是数据采集的主要渠道。本文通过对汽车领域垂直类社区“汽车X家”进行Python爬虫，获取了用户口碑评价的大量文本数据。爬虫数据仅用于学术研究，不用于其他任何商业用途。

接着需要明确数据涉及的范围，本文采集了Model3的用户口碑评价数据；同时还包括奥迪A4L、奔驰C级、宝马3系、比亚迪汉、小鹏P7等Model3竞品车型的用户口碑评价数据。

数据是通过网络爬虫的手段获取到的，这里顺带分享下爬虫技巧。汽车X家为了保护汽车口碑评价内容，针对爬虫进行了相应的反爬处理。主要和大家分享三点爬虫经验。

第一点，网页内存在“字体反爬”，需要从每个页面中获取对应的字体文件来解密反爬文字。

第二点，APP和PC端会被重点反爬，手机WEB端反爬能力较弱可相对轻松的获取数据。

第三点，无需直接在HTML中爬取数据，可直接通过分析接口来爬取数据。

这里不对爬虫进行深入展开，有兴趣的同学可以私下交流讨论。

1.3数据分析工具

俗话说，工欲善其事必先利其器，比如针对全网舆情可以使用百度指数和微舆情。而文本分析则需要按分析目的进行工具选择。比如：

SnowNLP可进行中文分词、词性标注、情感分析、文本相似。

Jieba可进行中文分词、关键词提取、文本分类。

HarvestTEXT可进行文本清洗、情感分析、关系网络分析。

2. Model 3 产品体验研究

2.1 Model3车主的购车目的分析

消费者购车的主要目的是什么，汽车厂商都非常关注。本文共挑选了5款Model 3的竞品车型，其中新能源车型包括“比亚迪-汉”、“小鹏汽车P7”，燃油车车型包括“奥迪A4L”、“宝马3系”、“奔驰C级”。

通过对这六款车型的消费者口碑评价中的“购车目的”进行统计分析，确定各个车型的购买目的，同时验证各自产品定位与消费者认知是否一致，以及确认是否需要调整宣传推广策略。

本文采用了汽车X家提供的13种购车使用场景，分别是改装玩车、购物、接送小孩、拉货、跑长途、赛车、商务差旅、上下班、网约车、约会、越野、自驾游、组车队。

通过对6款车型的使用场景进行分析，发现新能源车相比BBA燃油车更多用于“上下班”、“接送小孩”、“购物”，这点主要由于新能源车在城市区域内较低的用车成本。三款BBA燃油车型相比电动车更广泛用于长距离的场景，例如“跑长途”、“商务差旅”、“拉货”。对于“约会”这种场景，传统BBA车型好像比新能源车更有排面。

再看Model 3的数据表现，Model 3的车主买车似乎除了用于“上下班”，没有明显的使用场景倾向，Model 3只是作为燃油车之外的补充。相比同样是电动车的“比亚迪-汉”，购车目的与传统BBA燃油车基本一致，全面的场景覆盖，属于燃油车的替代选择。

2.2 Model3车主的购买决策因素分析

清楚用户购车的主要使用场景后，汽车厂商可以在后续的营销推广中主动设计场景，激发用户购车的需求。此外，研究哪些关键因素可促使用户下单购买，这也是售前工作顺利开展的关键。本文通过对评论中“为什么选择这款车”进行文本关键词提取、文本多标签分类，再通过定性与定量方法分析用户购买决策因素。

【为什么选择这款车】这类文本的处理十分棘手，主要难度有两点：

首先，文本没有明确的标签，无法直接进行统计与分析。

其次，评论中可能同时存在多个意见类别，用户的购买决策因素可能来自多个方面，具体可见下图。

由此可见，将文本分类到若干个适当的类别对于后续的定量分析十分关键。

处理此类“半结构化”文本可以分三步实现：

第一步，进行文本分词与关键词提取，制作一个“词云”来大致看一下关键词分布。

第二步，基于评论语料进行word2vec建模，将生成的词向量进行DBSCAN聚类分析，提炼具有业务意义的核心因素（例如：政策牌照、用车成本、动力操控、车型外观、内饰、舒适性等）。

第三步，人工对部分文本进行分类打标，基于标签训练分类模型，模型训练完成后进行多标签分类（Multi-Label Classification）。

接下来我们以Model3为案例，讲述这三个步骤。

第一步，通过对Model3车主的评论文本进行分词，并且进行关键词提取，将TOP100关键词进行分类（此处的分类需要具备相关行业与业务经验）。

第二步，经过对TOP100关键词进行分类后，提炼出8个一级关键词“外观”、“内饰”、“动力操控”、“空间”、“性价比”、“用车成本”、“品牌口碑”、“相关政策”，以及所有一级关键词所对应相关词。

为了尽可能全面的找到购车决策8大因素所对应的相关词，可以在word2vec建模所训练的语料库中进行相关词检索。根据词相关性系数结合业务经验，挑选出相关词关联至对应的一级关键词。

第三步，对Model 3及5款竞品车型“为什么选择这款车”的5414条文本进行FastText多标签分类，模型的整体准确率达到92%，召回率达到75%，F1-socre达到0.83。模型的分类效果表现较好，人工复查后准确性也不错。

通过以上三个步骤，把数据实现了结构化，接着展开定量统计分析。对各个车型“为什么选择这款车”的原因进行“交叉列联分析”，得到如下结果。

6款车型的购车主要因素前三分别为“外观”、“性价比”、“动力控制”，可见颜值从来都是买车的重中之重。对8个因素进行对比分析，发现Model 3车主购买决策的因素相对均衡，没有一项因素是消费者一致认同的购车原因。

Model 3相比传统BBA燃油车，动力控制是购买Model 3的关键因素，直观的推背感与便捷的辅助驾驶给用户带来独特的用车体验，这点是同价位BBA燃油车所不能给的。同时，地区性的牌照限制、购置税补贴方案、用车成本这三个因素也是大多数消费者购买新能源汽车而非燃油车根本因素。

以下是关于地区性的牌照限制因素的用户原话：

省钱、节能、环保、不限行、需要一台性能较好的车子。
主要是深圳拍蓝牌太贵，第二个是用车成本低，没有购置税，加上政府补贴，觉得不错就买了。
因为只有电车指标，只看了汉、小鹏、i3,结果试驾了Model3就中毒了，外观，新鲜的内饰和良好的操控。

Model 3相比同为新能源的小鹏P7与比亚迪汉，消费者更关注的是品牌口碑，特斯拉是打开消费者对新能源车认知的品牌，他给年轻消费者营造了一个电动车梦。购买国产新能源品牌的用户，普遍认同“外观、性价比、动力控制”是他们购买的主要因素，一致性程度甚至超过传统BBA燃油车。可见国产新能源车在同价位车型竞争中要想脱颖而出，需要更好地修炼内功，以汽车的外观与动力控制为首要发展方向。

以下是选择Model 3用户的原话：

没考虑过其他品牌，毕竟新能源选择面窄，而特斯拉是新能源车中的算是先来者吧，品牌效益也是选择这款车的很大一部分原因。
在众多新能源车选中一辆应该源自于对高科技的崇拜，以及试驾中一脚电门带来的加速感。

2.3 Model3车主用户体验评价

几乎没有消费者是因为空间体验而购买Model 3，或许这也是Model Y推出的主要原因。下面本文将从空间、动力、操控、能耗、舒适性、外观、内饰、性价比八个维度的分析，探索用户主要槽点，为后续迭代提供建议。

传统调研通常会针对产品或服务设计量表进行满意度测评。然而用户有时候也很难去量化自己的满意程度，此时借助文本挖掘技术，基于用户评论的关键情感词汇与语气副词的情感得分，可以作为满意度评价的一种补充。

例如：Model 3车主对于空间的一段评价：“座椅数据不短，但乘坐感受太差，可能和硬有关，也可能和腰部支撑有关，反正膝盖下面悬空，不舒服；后排空间嘛，对不起那个轴距，座椅还有点矮，所以后排不太舒服，适合孩子”。“不舒服、感受差、硬、矮”等形容词决定了情感方向是正向还是负向，“太、有点、超级”等副词决定了情感的程度。

针对产品某一类维度的文本评价，自然语言处理神器HarvestText库，通过挑选出若干积极种子词（positive_seeds）与消极种子词（negitive_seeds），能够较为准确的计算出用户评论的情感得分。

以Model 3吐槽最多的“空间”为例，将所有车主关于“空间”的评价导入微词云进行分词，可以挑选出符合要求的高频种子词汇，如下图。其中有关“空间”的积极种子词包括“满意、宽敞、很大、舒服、舒适、充足、够用、足够等”，消极种子词包括“拥挤、压抑、不大、不足、憋屈、尴尬、压力、局促、难受”。然后根据积极种子词与消极种子词，计算有关“空间”评论文本的情感得分值。本文通过处理空间、动力、操控、能耗、舒适性、外观、内饰、性价比8个纬度的评论文本，以此方式分别计算各个维度的情感得分。

从Model 3竞品车型各维度体验情感得分可以发现，消费者对于Model3的“动力与操控”评价远高于其余5款车型，但“空间”、“舒适性”、“内饰”却处于垫底水平，频繁被消费者所吐槽。

下面来具体看看被用户吐槽最多的“空间”、“舒适性”、“内饰”到底存在哪些问题。本文对Model 3口碑评论中“最不满意”、“空间”、“动力”、“操控”、“电耗”、“舒适性”、“外观”、“内饰”、“性价比”字段进行典型意见挖掘与关键词提取，实现方式通过短文本主题建模利器 – BERTopic。

从有关Model 3“空间”、“舒适性”、“内饰”评论的负面文本可发现，消费者的吐槽主要有三方面：

空间上后排空间过于拥挤，储物空间设计不合理。
舒适性上隔音效果差，避震效果不佳。
内饰上新车味道大，百度地图的导航体验不佳。

在各款竞品车型中，“内饰”与“外观”用户体验情感得分最高的是奔驰C级，Model 3和奔驰C级都有大量的注重“颜值”的年轻女性车主。在内饰方面，Model 3显得相对朴素，营造高端炫酷的氛围或许能够获得不少女性的青睐。

“空间”与“舒适性”得分最高的是比亚迪-汉，由于Model 3车主基本都是购车用来上下班，前排的空间体验提升比后排更重要，同时隔音问题需要得到重视。

3.结论

从上述的Model3评价文本分析来看，可以得出以下三点结论：

结论一：Model 3在消费者心中的使用场景过于单一，除了买来用于“上下班”之外并无其他使用场景。为了拓展更宽广的消费市场，需要加强用车场景的营销。

结论二：Model 3相比传统BBA车型的核心优势在于牌照补贴政策所降低的用车成本，相比国内新能源车有先发的品牌优势。当传统BBA车也转战新能源，国内新能源车在技术与品牌逐渐完善，新能源赛道的下半场不出意外将是客户用车体验的竞赛。

结论三：Model 3产品体验方面，空间、舒适性、内饰一直被消费者所吐槽。前排的驾驶空间是关键，胎噪与风噪是当下最主要的问题，内饰主观成分较高建议选配。综合来看，这些体验问题相对来说是比较容易改善的。

·················END·················

如何通过文本挖掘进行品牌分析