技术合伙人 / CTO / 首席科学家（强化学习、大模型方向）

Hong Kong Executive Search

Shanghai

Salary not disclosed

Posted Nov 10, 2025

Senior LevelFull Time

1 Positions

Available

Senior Level

Experience

On-site

Work Type

Job Description

岗位

技术合伙人 / CTO / 首席科学家（强化学习、大模型方向）

公司简介

一家以技术驱动增长的新创企业，致力于通过人工智能和数据技术帮助品牌实现可持续的复利增长。团队由来自顶尖互联网与科研机构的成员组成，融合了市场洞察、算法创新与工程落地的能力。“让所有好品牌好产品都能有平等机会被看见”。

工作地点

上海

工作概述

作为技术合伙人 / CTO / 首席科学家，您将全面负责公司在强化学习与大模型应用方向的技术体系建设。您不仅是算法与系统架构的核心设计者，更是推动技术落地与商业化的关键领导者。

该角色适合兼具科研深度与产品思维、能够在快速变化的创业环境中带领团队创新的技术领军者。

汇报对象

创始人

工作职责

强化学习体系设计：主导强化学习算法体系设计与优化，采用 PPO / DDPG / A3C 等策略梯度方法，对内容推荐率、排名率等指标进行持续优化，特别聚焦内容在大模型搜索与推荐中的抓取与曝光机制。 |

特征与奖励函数构建：基于平台推荐逻辑与行业特征，提炼关键“特征因子”，设计可被RL模型学习的奖励函数，实现内容在大模型搜索中的曝光率最大化。

系统工程与部署：搭建强化学习训练与仿真环境，具备A/B测试与线上部署经验；持续优化计算效率与样本利用率，确保系统稳定与高性能。

行业理解与业务协作：与市场、产品团队密切合作，将ROI、推荐率等商业目标抽象为可计算的奖励函数，推动算法与业务闭环融合。

团队领导与组织发展：组建并带领RL研究与工程团队，营造创新、开放的技术文化；推动算法从实验室走向生产环境，实现技术价值与商业成果。

任职要求

计算机科学、控制科学、人工智能、应用数学等硕士或博士学历；具备强化学习、博弈论或最优化研究经验。

精通强化学习算法（PPO > DDPG > SAC > A3C > QLearning），有实际项目实现经验；熟悉主流RL框架与分布式训练体系。

能独立搭建从环境模拟到策略更新的完整RL系统；具备高并发采样与分布式训练经验，能优化系统性能并推动工程落地。

理解AI推荐与内容分发生态，具备将算法指标转化为业务ROI的思维；有AI营销、SEO或内容推荐系统经验者优先。

优秀的沟通与协作能力，能跨部门协调资源；具备战略思维、创新意识与主人翁精神；能在快速发展的初创环境中带领团队成长。

#强化学习、#PPO、#策略优化、#分布式训练、#内容推荐、#AI营销、#GEO、#SEO、#量化优化、#创业领导力、#跨团队协作。

[]

full_time

技术合伙人 / CTO / 首席科学家（强化学习、大模型方向）