记得在北漂时,周围的同事都说北京是美食荒漠,比不得我的大长沙,我深以为然,我觉得甚至比不上我老家。
南下广东时,大家都说广东人不喜吃辣,要知道,我可是地道湖南人,所以瞬间失去了广东美食的探索欲望。
但是有一次从深圳到广州出差,在小蛮腰附近吃了一顿「点都德」,印象瞬间就反转了,这简直是人间绝味。
我觉得最好吃的是「百合酱蒸凤爪」、「金牌虾饺皇」和「金沙红米肠」,于是我向周围的朋友推荐。
他们不约而同地说吃过了,味道很一般,我当时心里全是问号,犹记得当时去顺德美食打卡时,我觉得顺德招牌鱼皮、牛杂一般时,他们觉得很好吃。
于是我转向了广大网友,抓取了大众点评广州点都德 6 个店铺 10w+ 条评论,字段包括评论内容、评论时间、大评分和小评分等等大概 10 个字段。
大家都说好吃,也有少部分网友和我那朋友一样给了差评,各种溢美之词就不看了,我主要关心差评点主要在哪些地方。
差评也有好几千条,我总不能一条条看吧,公众号的一个口号是,所以能被 Python 取代的活,最终都将被 Python 取代。
我打算先用 Python 做下 LDA 主题分析,第一步就不太顺利。
第一步是确定最优主题数,也就是计算所谓的主题困惑度,在主题数相同时,困惑度越低越好。我首先计算了 n=0~20 时各自的主题困惑度。
n = 20 时,困惑度还没有完整下降,但是看上去快下降了,所以我加大了力度,使得 n 最大为 60,然后发现他只是虚晃一枪。
很曲折且令人困惑的困惑度曲线,我索性直接取主题数 20 ,做 LDA。
你看,大家给差评,相当一部分是说服务态度不好,并不是说味道不好。
再者,既然 LDA 无法确定最优主题数,那我可以考虑再用 BertTopic,说干就干,效果如下:
第一眼看上去,这并不像差评。
最后,我问了下 ChatGPT 关于点都德的评价,可笑的是,问其他品牌也是一样的,这家伙中庸之道拿捏住了。