分类 主营业务 下的文章

写爬虫啦

想用Python但是基础太弱了
决定先试试易语言
爬站laomoit.com
目的是爬出他的下载地址
前期用了十分钟左右对他的站做了一下初步的了解
下载地址需要post验证,好在没有做cookie验证,不然真么多验证我会疯
最近他的站好像老是被CC攻击,严重影响我测试的效率
立一个flag 下个星期做好爬虫。
把url的一个关键词去掉。看到这个页面
https://www.laomoit.com/category/page/1
这应该就是网站所有数据的地图了吧,这就好办了 但是网站还是非常卡
还是一直被cc
好不容易抓取下来一段数据 正则也已经写好 匹配结果两千多个吧 一秒多暂时不需要多线程
要我也不会。
正则表达式<li><a href="(.?)l"[s|S]?title="(.*?)"
现在等他网站好了就可以测试爬虫了 如果明天还没好就先做列表框

阅读全文
none

网站运行日志

2018.10.20 正式上线 使用Typecho 用香港机房

2018.11.02备案成功 迁移国内机房使用CDN 更换wordpress

2018.11.18 wp的SEO插件问题出现故障,(数据没用丢失,但是懒得修复了)

       考虑到WP稳定性 重新更换Typecho 做主程序  
       
阅读全文
none