深圳九瓴科技有限公司招聘信息

深圳九瓴科技有限公司是一家专注于海外市场的创新型 AI 互联网创业公司，成立于 2020 年初。公司核心团队毕业于中山大学，并曾就职于国内外知名企业，具备丰富的行业经验与技术积累。公司致力于通过自主研发和全球化运营，为全球用户提供领先的 AI 软件产品与服务。

岗位：Agent研发工程师（26届/评测方向）

一、岗位背景

我们正在构建面向 C 端用户的视频生成 Agent，从自然语言指令出发，完成理解→规划→执行→产出的完整链路。这个岗位的核心命题是：Agent 的每次迭代，究竟变好了多少？你将从零搭建覆盖规划层、执行层、产出层的三层评测体系，推动评测结论直接影响产品与模型迭代方向。

二、核心职责

1、设计并落地分层评测框架，覆盖指令理解、方案合理性、工具选择、自我纠错、视觉质量、语义一致性等 14 个评测维度；

2、构建 Benchmark 用例库，覆盖基础能力、规划能力、执行鲁棒性、美学创意五大类别；

设计并实现自动评测流水线；

3、建设多模态 LLM Judge 体系，设计评测 Prompt 与 few-shot 样本，验证评测可信度；

4、主导人工标注平台建设，特别针对美学等主观维度，持续校准自动评测与人类偏好的对齐；

5、与 Agent 研发团队协作制定埋点规范，监控必填字段填充率与枚举合规性，确保评测所需日志质量；

6、输出版本对比报告和因果归因分析，将评测洞察转化为可落地的迭代建议。

三、任职要求：

1、有 LLM 应用或 Agent 评测的实战经验，深刻理解 LLM as Judge 的局限性、Prompt 设计与一致性校准方法；

2、熟悉视频 / 图像质量评估指标（CLIPScore、光流分析、无参考图像质量评估），有多模态内容评测经验优先；

3、能独立设计评测数据集，对数据泄露与过拟合风险敏感；

4、扎实的工程能力：Python / TypeScript，熟悉数据管道、任务调度、评测平台工程化落地；

5、有从 0 到 1 建设评测或标注平台的经验；熟悉 Langfuse、Weights & Biases 等 LLM 可观测工具加分；

6、强数据思维，能用统计方法（Spearman 相关系数、线性回归）量化评测质量，驱动权重校准；

7、对 C 端产品有热情，能将用户真实偏好转化为可量化的评测信号，而不仅仅是追求自动指标的数字好看。