- 职位
开发
- 工作地点
北京
- 招聘人数
8
- 发布时间
2026-05-29 15:26:11
岗位职责
1.负责大模型评测体系的工程建设与日常运维,重点围绕代码能力评测和智能体能力评测,搭建稳定、可复现的评测运行环境。具体包括:
2.接入并适配主流开源评测集,完成数据解析、执行沙箱搭建及评分逻辑对齐。
3.针对代码类评测集,构建安全可控的代码执行环境,包括容器化沙箱、资源隔离、超时控制等,保障多语言代码编译与运行的正确性和安全性。
4.针对Agenic评测集,搭建端到端的Agent运行环境,包括模拟交互界面、文件系统、终端、浏览器等依赖组件,确保Agent能在真实或仿真场景中完成多步骤任务。
5.接入和适配Agent评测框架,实现评测流程的标准化和自动化调度。
6.设计并实现MCP工具层,为评测中的模型调用提供标准化的工具接口,支持工具注册、调用链路追踪和结果校验。7.维护评测基础设施的可观测性,建设评测结果的存储、对比与可视化看板,支撑研究团队的快速迭代需求。
任职资格
1.学信网统招本科学历,扎实的计算机基础,熟悉Linux系统管理、容器技术及编排工具。
2.熟练掌握Python,具备良好的工程编码习惯,了解至少一种其他编程语言。
3.对大模型推理服务的调用链路有实际经验,了解OpenAIAPI兼容协议、流式输出处理等。
4.了解主流LLM评测方法论与常见评测集的设计思路,有实际跑通过至少一个代码或Agent评测集的经验优先。
5.了解MCP协议规范或有类似工具编排系统的开发经验。
6.具备CI/CD及自动化流水线搭建能力。
7.较强的文档能力和技术沟通能力,能与研究团队紧密协作,理解评测需求并转化为工程方案。
加分项:
1.有主流Agent评测开源项目的贡献或深度使用经验。
2.有构建多租户代码执行沙箱的经验。
联系方式
18317038973