深圳九瓴科技有限公司是一家专注于海外市场的创新型 AI 互联网创业公司,成立于 2020 年初。 公司核心团队毕业于中山大学,并曾就职于国内外知名企业,具备丰富的行业经验与技术积累。 公司致力于通过自主研发和全球化运营,为全球用户提供领先的 AI 软件产品与服务。
岗位:Agent研发工程师(26届/评测方向)
一、岗位背景
我们正在构建面向 C 端用户的视频生成 Agent,从自然语言指令出发,完成理解→规划→执行→产出的完整链路。这个岗位的核心命题是:Agent 的每次迭代,究竟变好了多少?你将从零搭建覆盖规划层、执行层、产出层的三层评测体系,推动评测结论直接影响产品与模型迭代方向。
二、核心职责
1、设计并落地分层评测框架,覆盖指令理解、方案合理性、工具选择、自我纠错、视觉质量、语义一致性等 14 个评测维度;
2、构建 Benchmark 用例库,覆盖基础能力、规划能力、执行鲁棒性、美学创意五大类别;
设计并实现自动评测流水线;
3、建设多模态 LLM Judge 体系,设计评测 Prompt 与 few-shot 样本,验证评测可信度;
4、主导人工标注平台建设,特别针对美学等主观维度,持续校准自动评测与人类偏好的对齐;
5、与 Agent 研发团队协作制定埋点规范,监控必填字段填充率与枚举合规性,确保评测所需日志质量;
6、输出版本对比报告和因果归因分析,将评测洞察转化为可落地的迭代建议。
三、任职要求:
1、有 LLM 应用或 Agent 评测的实战经验,深刻理解 LLM as Judge 的局限性、Prompt 设计与一致性校准方法;
2、熟悉视频 / 图像质量评估指标(CLIPScore、光流分析、无参考图像质量评估),有多模态内容评测经验优先;
3、能独立设计评测数据集,对数据泄露与过拟合风险敏感;
4、扎实的工程能力:Python / TypeScript,熟悉数据管道、任务调度、评测平台工程化落地;
5、有从 0 到 1 建设评测或标注平台的经验;熟悉 Langfuse、Weights & Biases 等 LLM 可观测工具加分;
6、强数据思维,能用统计方法(Spearman 相关系数、线性回归)量化评测质量,驱动权重校准;
7、对 C 端产品有热情,能将用户真实偏好转化为可量化的评测信号,而不仅仅是追求自动指标的数字好看。
地址:广州市花都区学府路1号广州城市理工学院B6-312 电话:020-36903401 Email:zhuax@gcu.edu.cn
Copyright © 2007-2025 广州城市理工学院 机械工程学院/机器人工程学院 版权所有制作维护