学姐总是强调她是一个很爱看书的人。
她跟我来说:“作为一个内外兼修的现代女性,我一直致力于读书这项伟大的娱乐活动。但我每在一个网站上买了书,就会收到无数的广告邮件和短信,烦死我了。所以我决定收拢战线,只在一个网站上买书,还能积分冲钻换小礼品什么的。你说我应该选择哪个网站呢?”
我说:“那问题是,学姐你通常都买什么样的书呢?”
学姐说:“我的阅读范围天空海阔包罗万象极其广泛,你就从总体上比较一下吧。”
好吧。
我已经习惯了学姐的自信,那就先选择图书类比较热门的当当、京东、亚马逊这三个电商平台来看看。
第一个问题来了,这三个网站,它们都在卖什么书呢?
由于三大平台对图书的分类各有不同,我们可以简单地将数十个图书分类归并为六个大类(这六个大类未能覆盖全部图书,但已包含了学姐的兴趣范围)。
1,学霸类:教辅类、考试类、外语学习类图书。
2,装逼类:英文原版书。
3,亲子类:孕产胎教类、少儿类、亲子家教类图书。
4,码农类:计算机类、互联网类图书。
5,文艺类:艺术类、摄影类、绘画类图书。
6,八卦类:两性类、婚恋类、风水类、娱乐类图书。
那么,各个平台上的在售图书,哪一类最多呢?看图便知:
很显然,当当最多的是学霸类图书,其次则是亲子类。
京东最多的是装逼类图书,但学霸类图书也紧追不舍。
亚马逊最多的也是学霸类图书,但装逼类图书紧随其后。
毫无疑问,学霸类图书占据了三大网站的核心。虽然读这些书的究竟是学霸还是学渣不能确定,但该类图书一骑绝尘的优势显示出一颗孜孜不倦培养学霸的心。
学姐分析说:“这么看上去是没错,但某类图书的在售数据多只能说明一部分问题,要想搞清楚哪个网站适合我,还得看看哪类书卖得好才行啊。”
学姐说得好有道理。
但由于我们不掌握图书销量数据,只好做出以下假设:不同图书售出后被评价的概率总体是相似的。
这样,我们可以以评论数量来替代销量,定义了“热销度”的概念。即把图书的评论数与图书数量相除,将其比值作为热销程度的衡量。结果如下图所示:
非常明显,无论在哪个平台,亲子类图书都是最受欢迎的。尽管其在售图书的种类数量并不太多,但每本书得到的评论反馈数量却是远超其他类型图书。
而八卦类图书也呈现相同的特征:在京东和亚马逊上虽然数量不多,但热销度却十分惊人。
而在售图书数量占据绝对优势的学霸类图书,其热销程度仅在当当取得了较好名次,在其他两个平台都表现平平。
至于在京东上书籍总量排名第一的装逼类图书,其热销程度实在呵呵。
学姐若有所思地点评道:“是啊,我想世界上还是普通人比较多。关爱子女和八卦是人的本性,大概只有少数人才会在恶劣的社会压力下变成了学霸,或者学会了装逼。”
学姐脸上似乎有往事的痕迹。
不管了,我们再来看看三个网站上图书的价格如何呢?请看下图:
可以看到大多数图书的价格都保持在20-40元的区间,40-100元也有很多书,而100元以上的图书很少。而且三个平台在价格上基本一致。
那么,分类别呢?我们再来看下图:
分别比较各类图书的价格中位数则可以发现,装逼类图书价格一骑绝尘,突破百元大关,在京东的价格中位数甚至高达330元!而其他类型图书的价格则比较平稳,且在各个平台的情况基本一致。
总体而言,除了装逼类原版书之外,文艺类和码农类图书组成了第二梯队,中位数价格在25-40元区间;而第三梯队的八卦类、亲子类和学霸类图书,中位数价格在20-25元之间。
学姐点了点头说:“情况已经基本清楚了,但是各个网站的卖书特征还不够突出。你能不能总结一下?”
好吧,我们来设计一个各类图书的综合指标。该指标由三个指标合成:某类图书占某平台上top1000的畅销书的数量比例;该类图书占该平台图书总数的比例;该类图书占该平台图书销售额的比例。其中,销售额指标以“价格*评论数”近似计算。我们简单地给这三个指标取相同的权重,即可计算得到每个平台的指标倾向情况,如下图所示。
可以看到,三个网站呈现出明显的偏好特征区别:
当当的特征直指是亲子和学霸。其家庭特征非常明显。在当当上面,这两类图书的在售数量多、销量也大。
亚马逊的特征直指装逼。没有其他。
京东看上去比较平衡,码农指数明显高于另两个平台,其他各个类别表现中庸。
学姐学姐,你决定去哪里买书了吗?
学姐说:“我突然想到,上面这些指标还是不够说明问题。还应该有一个指标来表征图书的质量,看看哪个网站上的图书最好看呢?”
我想了想:“学姐你说得对。电商平台上表征图书质量的最好指标应该是评分。但是,评分是综合了图书质量、装帧印刷、物流快慢等一系列情况的结果,还有一些是系统好评、习惯性好评等,总之已经不能纯粹地反映图书质量了。”
既然如此,那我们就只能去看豆瓣了。
豆瓣虽然不直接销售图书,但豆瓣图书的评分和评价是较为纯粹的对图书本身的评价。
但由于豆瓣图书没有分类,只有若干标签,我们只好设计了一套简易的算法将豆瓣图书与电商平台的图书进行匹配。先按照isbn(国际标准书号)进行匹配,没匹配上的,再以豆瓣书名作为过滤器,对电商平台的图书书名进行过滤和匹配。
总体而言,在将豆瓣评分与电商平台图书匹配上以后,我们利用豆瓣评分,绘制出了三大平台各类图书的得分情况。
基本差异不大。毕竟大家卖的书都差不多。
但是,假如以豆瓣上图书的价格作为原价,而电商平台上的价格作为折扣价,就可以得到三大平台各类图书的折扣情况。请看下图:
可以看到,三大平台最主要的折扣都落在6-8折区间,尤以7.5折居多。但相对而言,
1,京东的折扣分布最为集中,基本在75折左右;
2,亚马逊除了75折外,在6折处还形成第二个折扣高峰;
3,当当的低价折扣最多,甚至在5折处还有一个折扣小高峰。
那么,究竟是哪些书在打折呢?请看下图:
区分图书类型的话就可以发现:
1,装逼类书籍都基本不打折的。
2,码农类书籍的折扣力度也比较小。只有亚马逊的折扣力度中位数低于75折。
3,在所有品类中,折扣力度最大的是八卦类图书了,基本上没有高于75折的。
“学姐你看,通过上述一系列的分析,哪类人该去哪个平台买书就一目了然了吧。”
假如你是文艺青年但很有钱,建议去文艺类豆瓣评分最高的当当;
假如你是文艺青年但还很穷,建议去文艺类折扣最低的亚马逊;
假如你是码农但很有钱,建议去码农类评分最高的京东;
假如你是码农但还很穷,建议你码农折扣最低的亚马逊;
假如你是学渣而且还很穷,建议你去学霸类折扣最低的亚马逊;
。。。。。。
假如你想装逼但还是很穷,建议你还是不要买书了!
------------------------------------------------------
学姐走后,怀着一颗求知求真的好奇害死猫的心,我又单独针对豆瓣数据进行了一些研究,发现了一些有趣的现象。
首先,在最近11年里,被豆瓣收录的当年出版的图书数量是在持续增加,与之相反的,图书的评价得分则在大幅下降,平均分从2006年最高的8.23分跌至2015年最低的7.98分。请看下图:
其次,从图书的评论数量来看,2007年是豆瓣图书的巅峰,当年出版图书的累计书均评论数和书均年均评论数都是最多的。此后,书均年均评论数呈现出在波动中呈现下降的趋势。换言之,在豆瓣图书上,经典依然是经典。而新书想要得到与老书同等的关注,还有一段路要走。请看下图:
不仅如此,最后,豆瓣评分其实对电商平台上图书的销量也没有大的影响。我们综合了三大网站的销量替代数据,与豆瓣评价结合起来,可以得到下图:
“好书能卖得更好”?也许这个假设并不成立。
这几个现象反映出的,是图书质量降低带来的评分和关注的降低?是读者的评价标准越来越高、越来越多元?是快餐文化冲击下的阅读兴趣越来越低?是豆瓣读者对普通读者的代表性不够?或者是豆瓣平台的衰落?
一本书能不能成为“好书”,在其本身品质之外,还掺杂了许多偶然因素。
由于我们的数据不够,无法对这些问题进行更深层次的研究。但我想,即使是对于阅读范围海阔天空包罗万象及其广泛的学姐,也有比选择在哪里买书更难的问题,那就是:在哪里才能买到一本好书。
最后放一张豆瓣评论热门词汇TOP100:
PS:你们信,或者不信,我真的没有收广告费!
PPS:学姐看的什么书?我真不知道。不过她的手机锁屏经常换,一般都是同人手绘。等等,这类书在电商平台有卖么???
-----------------------------------------------------
数据来源说明:
1. 数据来源于互联网。
2.数据分析及可视化:BDP个人版、R。