爬虫开发工程师

公司部门:同盾科技

工作地点:上海徐汇

发布日期:2019-01-30

招聘人数:1人

职位类型:计算机软件

职位描述:

1.负责设计和开发分布式网络爬虫系统,进行多平台信息的抓取和分析工作;

2.负责网页信息和APP数据抽取、清洗、去重等工作;

3.参与爬虫核心算法和策略优化,熟悉采集系统的调度策略;

4.实时监控爬虫的进度和警报反馈;

5.对爬取的数据进行分析,用分析的结论优化和开拓爬取项目;

6.爬虫数据表日常维护、爬虫数据处理。支持业务决策 ;

任职条件:

1. 全日制统招本科及以上,计算机基础知识扎实,包括不限定于操作系统、计算机网络、数据结构和算法;2年及以上java或python开发经验

2.熟悉Linux系统,掌握Java 、Python或Scala等至少一门语言,熟悉MQ、ZK等分布式的设计和应用;

3.精通SQL,精通redis、mongodb等,熟悉hive、spark;

4.了解多线程、多进程、协程、网络通信编程相关知识,有分布式爬虫架构,数据分析经验;

5.精通网页抓取原理及技术,精通正则表达式,可以从结构化的和非结构化的数据中获取信息;

6.对目前常见的反爬措施有应对的策略,包括但不限于使用代理IP、验证码破解、动态js数据解析、javascript加密数据破解等等;

7.熟悉APP模拟及接口验签破解技术,了解APP用户授权访问机制,掌握Selenium,APP破解技术优先;

8.有互联网反作弊、反欺诈、数据挖掘等工作经验者优先;

返回职位列表
Copyright @2016 同盾科技有限公司 版权所有    浙ICP备12036190号-1   组织机构代码:05368706-1    隐私政策 服务条款  Powered By OurATS