职位描述
该职位还未进行加V认证,请仔细了解后再进行投递!
职位描述:
岗位职责:
1、负责网络爬虫系统设计、开发。
2、完成带领团队完成数据采集爬取、解析提取、清洗入库等数据生产工作。
3、研究网页特点和规律,对网页信息进行分类、抽取、数据清洗、存储结构等研发和优化工作。
4、负责定向爬取视频资源及相关联信息。
5、负责领域知识的定向爬取、深度提取和挖掘。
6、对数据进行清洗、整理、去重及合并等工作。
任职资格:
1、大专以上学历,3年以上python/java或c#开发经验,熟悉一种开源爬虫系统实现或作为主力参与过一个完整的爬虫开发项目。
2、熟悉网页爬取原理及技术,熟悉深度抓取、动态网页抓取技术、熟悉请求伪装,模拟登陆,代理应用,爬虫和反爬技术。
3、精通正则表达式、javascript、json、http协议、html,善于从各种结构化和非结构化数据中抽取有用的信息。
4、熟练多线程技术、网络编程技术等相关优势经验者优先。
5、熟悉hadoop、hbase、zookeeper、spark、storm、solr、hive、kafka、redis、mongodb等相关技术者优先;具有验证码破解经验者优先。
岗位职责:
1、负责网络爬虫系统设计、开发。
2、完成带领团队完成数据采集爬取、解析提取、清洗入库等数据生产工作。
3、研究网页特点和规律,对网页信息进行分类、抽取、数据清洗、存储结构等研发和优化工作。
4、负责定向爬取视频资源及相关联信息。
5、负责领域知识的定向爬取、深度提取和挖掘。
6、对数据进行清洗、整理、去重及合并等工作。
任职资格:
1、大专以上学历,3年以上python/java或c#开发经验,熟悉一种开源爬虫系统实现或作为主力参与过一个完整的爬虫开发项目。
2、熟悉网页爬取原理及技术,熟悉深度抓取、动态网页抓取技术、熟悉请求伪装,模拟登陆,代理应用,爬虫和反爬技术。
3、精通正则表达式、javascript、json、http协议、html,善于从各种结构化和非结构化数据中抽取有用的信息。
4、熟练多线程技术、网络编程技术等相关优势经验者优先。
5、熟悉hadoop、hbase、zookeeper、spark、storm、solr、hive、kafka、redis、mongodb等相关技术者优先;具有验证码破解经验者优先。
工作地点
地址:深圳南山区深圳


职位发布者
HR
深圳市汇星数字技术有限公司

-
通信/电信/网络设备/增值服务
-
51-99人
-
公司性质未知
-
深圳市南山区高新科技园北区朗山路16号华瀚创新园d座503室