岗位职责
1. 熟悉掌握Python语言编程,有脚本语言使用经验,并能熟练使用正则表达式,熟练DOM分析网页结构;
2. 熟悉各种网站、网页、链接的形态,了解它们的特点和规律;
3. 熟悉各种策略和算法,了解提升spider的抓取的方法;
4. 熟悉互联网技术与搜索引擎原理和机制;
5. 对网络爬虫、网页信息抽取、网页结构分析有类似开发工作经验;
6. 有搜索相关经验与数据挖掘、自然语言处理等方面经验;
7. 利用Web Service 的 Web API提取目标数据的经验。
任职要求
负责垂直类网站的内容抓取和整理,提高抓取效率和准确性。
1、本科及以上学历,计算机相关专业毕业,2年以上工作经验;
2、熟悉php/ruby/python/perl等至少一种脚本语言;
3、熟悉linux操作系统;
4、熟悉mysql数据库 ;
5、开发过网络爬虫,有过垂直网站结构化数据抓取项目经验。