Careers at Hong Kong Executive Search

技术合伙人 / CTO / 首席科学家(强化学习、大模型方向)

Shanghai • Senior Level • Full Time

技术合伙人 / CTO / 首席科学家(强化学习、大模型方向)

Hong Kong Executive Search
Shanghai
Salary not disclosed
Posted Nov 10, 2025
Senior LevelFull Time
1 Positions
Available
Senior Level
Experience
On-site
Work Type

Job Description

岗位

技术合伙人 / CTO / 首席科学家(强化学习、大模型方向)

 

公司简介

一家以技术驱动增长的新创企业,致力于通过人工智能和数据技术帮助品牌实现可持续的复利增长。团队由来自顶尖互联网与科研机构的成员组成,融合了市场洞察、算法创新与工程落地的能力。“让所有好品牌好产品都能有平等机会被看见”。

 

工作地点

上海

 

工作概述

作为技术合伙人 / CTO / 首席科学家,您将全面负责公司在强化学习与大模型应用方向的技术体系建设。您不仅是算法与系统架构的核心设计者,更是推动技术落地与商业化的关键领导者。

该角色适合兼具科研深度与产品思维、能够在快速变化的创业环境中带领团队创新的技术领军者。

 

汇报对象

创始人

 

工作职责

Ÿ   强化学习体系设计:主导强化学习算法体系设计与优化,采用 PPO / DDPG / A3C 等策略梯度方法,对内容推荐率、排名率等指标进行持续优化,特别聚焦内容在大模型搜索与推荐中的抓取与曝光机制。 |

Ÿ   特征与奖励函数构建:基于平台推荐逻辑与行业特征,提炼关键“特征因子”,设计可被RL模型学习的奖励函数,实现内容在大模型搜索中的曝光率最大化。                             

Ÿ   系统工程与部署:搭建强化学习训练与仿真环境,具备A/B测试与线上部署经验;持续优化计算效率与样本利用率,确保系统稳定与高性能。                                  

Ÿ   行业理解与业务协作:与市场、产品团队密切合作,将ROI、推荐率等商业目标抽象为可计算的奖励函数,推动算法与业务闭环融合。                                       

Ÿ   团队领导与组织发展:组建并带领RL研究与工程团队,营造创新、开放的技术文化;推动算法从实验室走向生产环境,实现技术价值与商业成果。                                  

 

任职要求

Ÿ   计算机科学、控制科学、人工智能、应用数学等硕士或博士学历;具备强化学习、博弈论或最优化研究经验。

Ÿ   精通强化学习算法(PPO > DDPG > SAC > A3C > QLearning),有实际项目实现经验;熟悉主流RL框架与分布式训练体系。

Ÿ   能独立搭建从环境模拟到策略更新的完整RL系统;具备高并发采样与分布式训练经验,能优化系统性能并推动工程落地。

Ÿ   理解AI推荐与内容分发生态,具备将算法指标转化为业务ROI的思维;有AI营销、SEO或内容推荐系统经验者优先。

Ÿ   优秀的沟通与协作能力,能跨部门协调资源;具备战略思维、创新意识与主人翁精神;能在快速发展的初创环境中带领团队成长。

 

 

 

#强化学习、#PPO、#策略优化、#分布式训练、#内容推荐、#AI营销、#GEO、#SEO、#量化优化、#创业领导力、#跨团队协作。

 

 

Responsibilities

[]

Contract Details

full_time

Apply for this Position

技术合伙人 / CTO / 首席科学家(强化学习、大模型方向)

0/5000 characters

Upload your resume

Drag and drop or browse to upload

Supported formats: PDF, DOC, DOCX (Max 5MB)