简书推的内容不能满足需求
最近发现简书的“短篇小说”里有许多出彩的文章。但是官方推的内容不能满足自己的胃口。
原因两点:
- “热门”榜里只按照“点赞”数量排序。发布时间越长的文章越靠前。
- “最新评论”和“最新收录”只按照时间排序。但是文章质量参差不齐,心的文章里很多垃圾。
自己动手,丰衣足食
其实我就是想更方便的找到好的文章
于是自己用Python写了个爬虫程序,每天更新,然后发布到自己的网站上。
github也不支持iframe,只能点连接了,连接里的排行是实时的哦~
至于这里,只能用工具把html转markdown了。
我尽量每天更新!
以下是2017年7月3日爬取的结果:
关于分数计算
为了避免上面说的那些问题,我把分数设计成了多项式加权。包括:
- 阅读量
- 点赞
- 回复
- 打赏
- 文章发布时间
打脸
我原本想着找到好文章,结果一看题目,
好狗血!!!。
难怪官方的推荐内容都是三观正的了。
不过点进去看了之后,发现有些文章的确写的入木三分。
只是用了“谁敢比我惨”或者“谁敢比我贱”的噱头。
希望有一天,草根小说也能不靠“辣眼睛”的题目也能吸引读者。
那说明大家的阅读鉴赏能力提高了。
持续改进
个人觉得这个挺有意思,我会继续改进。
目前能想到的地方有:
- 相比于昨天的排名变化(已实现)
- 将排行榜页面从树莓派移动到coding和github上,并支持定时自动更新。(已实现)
- 利用scrapy框架重构(已实现)
- 记录数值的历史数据,挖掘更多的有趣规律