
技术合伙人 / CTO / 首席科学家(强化学习、大模型方向)
Shanghai • Senior Level • Full Time
技术合伙人 / CTO / 首席科学家(强化学习、大模型方向)
Job Description
岗位
技术合伙人 / CTO / 首席科学家(强化学习、大模型方向)
公司简介
一家以技术驱动增长的新创企业,致力于通过人工智能和数据技术帮助品牌实现可持续的复利增长。团队由来自顶尖互联网与科研机构的成员组成,融合了市场洞察、算法创新与工程落地的能力。“让所有好品牌好产品都能有平等机会被看见”。
工作地点
上海
工作概述
作为技术合伙人 / CTO / 首席科学家,您将全面负责公司在强化学习与大模型应用方向的技术体系建设。您不仅是算法与系统架构的核心设计者,更是推动技术落地与商业化的关键领导者。
该角色适合兼具科研深度与产品思维、能够在快速变化的创业环境中带领团队创新的技术领军者。
汇报对象
创始人
工作职责
强化学习体系设计:主导强化学习算法体系设计与优化,采用 PPO / DDPG / A3C 等策略梯度方法,对内容推荐率、排名率等指标进行持续优化,特别聚焦内容在大模型搜索与推荐中的抓取与曝光机制。 |
特征与奖励函数构建:基于平台推荐逻辑与行业特征,提炼关键“特征因子”,设计可被RL模型学习的奖励函数,实现内容在大模型搜索中的曝光率最大化。
系统工程与部署:搭建强化学习训练与仿真环境,具备A/B测试与线上部署经验;持续优化计算效率与样本利用率,确保系统稳定与高性能。
行业理解与业务协作:与市场、产品团队密切合作,将ROI、推荐率等商业目标抽象为可计算的奖励函数,推动算法与业务闭环融合。
团队领导与组织发展:组建并带领RL研究与工程团队,营造创新、开放的技术文化;推动算法从实验室走向生产环境,实现技术价值与商业成果。
任职要求
计算机科学、控制科学、人工智能、应用数学等硕士或博士学历;具备强化学习、博弈论或最优化研究经验。
精通强化学习算法(PPO > DDPG > SAC > A3C > QLearning),有实际项目实现经验;熟悉主流RL框架与分布式训练体系。
能独立搭建从环境模拟到策略更新的完整RL系统;具备高并发采样与分布式训练经验,能优化系统性能并推动工程落地。
理解AI推荐与内容分发生态,具备将算法指标转化为业务ROI的思维;有AI营销、SEO或内容推荐系统经验者优先。
优秀的沟通与协作能力,能跨部门协调资源;具备战略思维、创新意识与主人翁精神;能在快速发展的初创环境中带领团队成长。
#强化学习、#PPO、#策略优化、#分布式训练、#内容推荐、#AI营销、#GEO、#SEO、#量化优化、#创业领导力、#跨团队协作。
Responsibilities
Contract Details
Apply for this Position
技术合伙人 / CTO / 首席科学家(强化学习、大模型方向)