对python不熟。
不过弄爬虫之类的重点不在爬,而是格式分析。
举个简单的例子吧。
把一本小说的内容全部给爬下来。
比如上面这本小说。
上面这一章的内容,爬下来就难很多。
/span> /span> /p>
p>为了抓捕这个高智商罪犯 span class=" fw-cl "> span>, /span> /span>我国缉毒史创造几个之最 span class=" fw-cl "> span>, /span> /span>投入警力最大 span class=" fw-cl "> span>、 /span> /span>参战警种最多 span class=" fw-cl "> span>, /span> /span>以及侦查战场最广 span class=" fw-cl "> span>。 /span> /span>公安干警历时 9 年多 span class=" fw-cl "> span>, /span> /span>转战十几个省份 span class=" fw-cl "> span>, /span> /span>时间 span class=" fw-cl "> span>、 /span> /span>人力 span class=" fw-cl "> span>、 /span> /span>物力的投入远超 1992 年的平远街扫毒 span class=" fw-cl "> span>, /span> /span>以及 2013 年的雷霆行动 span class=" fw-cl "> span>。 /span> /span> /p>
p>
比如需要分析上面的代码块的切割跟删除。
有时候需要把json串的具体格式重新理解一下。
再比如上面的扯蛋模型中用到的数据格式。
它并不是统一的,有很多种格式,各个网站的都不同。然后爬虫爬各种网站的这种格式。最后的去重与统一格式反而是非常的麻烦。
写这块东西的时间,比爬虫本身的工作量大得多。
取决于你想往哪方面发展。游戏开发、桌面应用、网站、自动化运维、数据处理…
无论哪种语言,其本身的语法都是可以迅速学会的。所谓功夫在诗外,就是说要想成为一个厉害的程序员,肯定是在某个方面或多方面具备了丰富的经验。
游戏开发,有3D 游戏和 2D 游戏,3D 的可以用到 OpenGL 这个库,当然这个得额外学习下计算机图形学和线性代数。2D 游戏有 pygame 可以耍耍,写点简单的打飞机,连连看什么都也蛮有意思。如果有很好的创意,鼓捣出一个游戏上架 steam 也许下一个百万富翁就是你
桌面应用 像微信、百度网盘、翻译工具等常用软件,也可以用来练练手。比如 ubuntu 上的金山词霸、Dropbox 等一众软件就是用 python+pyqt 写的。 pyqt 用来写桌面应用也挺有意思。只不过现在桌面开发的场景比较小了,国内大部分都在搞web。但桌面应用开发还是存在一定的份额。
网站 没有什么比自己独立撸出来一个网站更有成就感了,像你现在正在用的知乎,其后台就是用 python+tornado 框架写的,还有全球最大的视频网站油管也是用的 python 当然还有 ins。可以试试用 python 的 django 框架写一个自己的博客,在上面分享自己的学习心得。或者征友启事^_^
自动化运维 这个目前也是一个蛮吃香的岗位,用自己写的自动化程序管理成千上万台机器像不像一个指挥千军万马的将军,运筹帷幄,决胜千里之外。这部分可以了解下 fabric 和 ansible。前期你可以借助 vmware 模拟多个虚拟机(安装 server 版本的虚拟机占用内存更小,可以多开几个)。
数据处理 其实这个你已经正在做了,用 python 处理 word 和 excel 数据。这部分要赚钱,需要了解些统计学的知识,用已有的数据套上一些模型得出有价值的结论。分析股票走势,预测总统大选啥的(真有人这么做的)
上面只是抛砖引玉,实际上 python 可以做很多很多事情。购买一个树莓派,给它买一些传感器就可以尝试搭建自己的智能家庭。你一进门就有门口的音响来一句 “Welcome home Master” 别提多拉风了。
总结下就是,先找到自己的兴趣,在某个具体的领域暗暗发力,你最终会有所成。