Linux的一些小技巧(随时补充)

最近要处理一个60W+数据的文件,天真的我第一次用了单线程,还满怀自信的以为一天就能跑完。。。。。残酷现实告诉我跑了三天只处理了5w来条(手动捂脸)。总在虚拟机里跑也不是个事儿,灵机一动,我不是有台云主机吗!果断把代码用多线程重写然后放到云主机里(一怒之下开了500个线程,不知道会不会被封。。。),在运行过程中有学到了一些Linux的技巧,在这里记录一下,以后随时补充~

Continue Reading...

利用socks模块访问“外面的世界”

Q:想学爬虫没有动力怎么办?
A:创造动力呀,先把草榴的图片全爬下来,地址你可以偷偷私聊我~
Q:草榴你妹啊,你不知道伟大的祖国母亲。。。。。
A:看来你需要socks模块,利用socks5协议,简简单单几行代码,轻松给Python挂代理。以后爬个美女图片啊,批量检(ri)个测(zhan)啊,再也不用怕暴露真实IP了!实在是居家旅行、挖洞拿shell之必备,实实在在的好模块啊!
Q:屁话多,快拿来。。。。

Continue Reading...