HopeRun | 润和软件-AI转型共建者 AI落地护航者 AI价值兑现者

1.负责大模型评测体系的工程建设与日常运维，重点围绕代码能力评测和智能体能力评测，搭建稳定、可复现的评测运行环境。具体包括:

2.接入并适配主流开源评测集，完成数据解析、执行沙箱搭建及评分逻辑对齐。

3.针对代码类评测集，构建安全可控的代码执行环境，包括容器化沙箱、资源隔离、超时控制等，保障多语言代码编译与运行的正确性和安全性。

4.针对Agenic评测集，搭建端到端的Agent运行环境，包括模拟交互界面、文件系统、终端、浏览器等依赖组件，确保Agent能在真实或仿真场景中完成多步骤任务。

5.接入和适配Agent评测框架，实现评测流程的标准化和自动化调度。

6.设计并实现MCP工具层，为评测中的模型调用提供标准化的工具接口，支持工具注册、调用链路追踪和结果校验。7.维护评测基础设施的可观测性，建设评测结果的存储、对比与可视化看板，支撑研究团队的快速迭代需求。

1.学信网统招本科学历，扎实的计算机基础，熟悉Linux系统管理、容器技术及编排工具。

2.熟练掌握Python，具备良好的工程编码习惯，了解至少一种其他编程语言。

3.对大模型推理服务的调用链路有实际经验，了解OpenAIAPI兼容协议、流式输出处理等。

4.了解主流LLM评测方法论与常见评测集的设计思路，有实际跑通过至少一个代码或Agent评测集的经验优先。

5.了解MCP协议规范或有类似工具编排系统的开发经验。

6.具备CI/CD及自动化流水线搭建能力。

7.较强的文档能力和技术沟通能力，能与研究团队紧密协作，理解评测需求并转化为工程方案。

加分项：

1.有主流Agent评测开源项目的贡献或深度使用经验。

2.有构建多租户代码执行沙箱的经验。

18317038973