HopeRun | 润和软件-AI转型共建者 AI落地护航者 AI价值兑现者

1.负责互联网公开数据的采集、清洗、结构化与入库，支撑AI应用、模型训练、知识库和数据分析业务。设计并开发高稳定性的爬虫系统，包括网页解析、动态页面采集、反爬策略应对、任务调度、代理管理和异常监控。

2.针对不同网站结构，构建可复用的数据抽取规则和自动化解析流程，提升采集效率和数据质量。

3.参与数据治理工作，包括去重、字段标准化、质量校验、数据溯源和更新机制设计。

4.与算法、产品和业务团队协作，理解AI场景下的数据需求，输出可用于RAG、训练、评测或业务分析的数据集。

5.跟踪大模型、Agent、智能解析、网页理解等技术，探索AI辅助爬虫和自动化数据采集方案。

6.遵守数据合规要求，确保采集范围、使用方式和存储流程符合相关法律法规及网站规则。

1.统招本科及以上学历，3-5年级以上工作经验，计算机、软件工程、数据科学等相关专业优先。

2.熟练掌握 Python,熟悉Scrapy、Requests、BeautifulSoup、Playwright、 Selenium等爬虫和浏览器自动化工具。

3.熟悉HTML、CSS、JavaScript、网络协议、浏览器渲染机制,能独立分析网页结构和接口请求。

4.熟悉常见反爬机制及应对思路，如验证码、动态渲染、签名参数、频控、IP限制、登录态管理等。

5孰采Mv.SOIFlasticsparchRedis中至少一种数存储或检系统PnstareSOlMonaoDB

18317038973