- 职位
开发
- 工作地点
西安
- 招聘人数
4
- 发布时间
2026-05-29 15:21:14
岗位职责
1.负责互联网公开数据的采集、清洗、结构化与入库,支撑AI应用、模型训练、知识库和数据分析业务。设计并开发高稳定性的爬虫系统,包括网页解析、动态页面采集、反爬策略应对、任务调度、代理管理和异常监控。
2.针对不同网站结构,构建可复用的数据抽取规则和自动化解析流程,提升采集效率和数据质量。
3.参与数据治理工作,包括去重、字段标准化、质量校验、数据溯源和更新机制设计。
4.与算法、产品和业务团队协作,理解AI场景下的数据需求,输出可用于RAG、训练、评测或业务分析的数据集。
5.跟踪大模型、Agent、智能解析、网页理解等技术,探索AI辅助爬虫和自动化数据采集方案。
6.遵守数据合规要求,确保采集范围、使用方式和存储流程符合相关法律法规及网站规则。
任职资格
1.统招本科及以上学历,3-5年级以上工作经验,计算机、软件工程、数据科学等相关专业优先。
2.熟练掌握 Python,熟悉Scrapy、Requests、BeautifulSoup、Playwright、 Selenium等爬虫和浏览器自动化工具。
3.熟悉HTML、CSS、JavaScript、网络协议、浏览器渲染机制,能独立分析网页结构和接口请求。
4.熟悉常见反爬机制及应对思路,如验证码、动态渲染、签名参数、频控、IP限制、登录态管理等。
5孰采Mv.SOIFlasticsparchRedis中至少一种数存储或检系统PnstareSOlMonaoDB
联系方式
18317038973