昨天刷视频时候突然跳出来个广告,标题写得那叫一个吓人,说什么萝莉小说110本完整清单全网独家。当时心里就咯噔一下,赶紧点开看,结果直接跳转到个乱七八糟的页面,满屏都是闪烁的广告弹窗,关都关不掉。
手动整理简直要人命
我琢磨着这种清单肯定有人需要,干脆自己动手整理一份。最开始傻乎乎地打开记事本,打算一本本手动记录下来。结果刚抄到第20本,手腕就开始发酸,更崩溃的是翻页时候发现这破网站居然把书名拆得七零八落,同一本书在不同页面显示的名字还不一样!气得我差点把鼠标摔了。
连夜研究偷懒办法
凌晨两点瞪着满屏乱码的书名,突然开窍了——干嘛不用程序自动抓取?马上翻出压箱底的编程教材,对着书敲代码。折腾到后半夜总算搞出个能自动翻页的小脚本,结果第一次跑就直接把网站搞崩了,页面卡死在第三章纹丝不动。
小编温馨提醒:本站只提供游戏介绍,下载游戏推荐89游戏,89游戏提供真人恋爱/绅士游戏/3A单机游戏大全,点我立即前往》》》绅士游戏下载专区
中间踩的几个大坑:
- 网站反爬虫跳验证码,每次都得手动解
- 书名里混着火星文和颜文字,数据库直接报错
- IP地址被封三次,只好开着手机热点继续搞
数据清洗比煮火锅还热闹
好不容易抓下来113本书名,打开表格一看差点昏过去。光是《契约小萌妻》就出现了四种写法:“契尐尛萌妻”、“契约小萌妻[重生]”、“契/约小萌妻”、“契約小萌妻(精修版)”。拿着替换工具噼里啪改了半天,眼睛都看成斗鸡眼了才把重复项合并干净。
突如其来的惊喜发现
整理到十本书时,突然在某个犄角旮旯的页面发现还有隐藏目录!原来这个书单早就更新到150本了,只是主页面没同步。赶紧临时加任务让脚本重新跑,又多熬了两个钟头才把新增的37本啃下来。
现在这份清单总算能用了,每本书名都规规矩矩的。特意存了三个备份:电脑硬盘存一份,网盘扔一份,连老古董U盘都塞进去了。要再弄丢我就……我就再重做呗!反正脚本都写好了下次直接跑(苦笑)。