HOT AI ROLES • ROADMAP • PROJECTS

TO DR 热门 AI / 人工智能岗位:推荐清单 + 技能路线图

现在是研一,仍有充分时间做方向切换与能力塑形。下面把岗位拆成两类: (1)短期可投:偏应用/数据/工程化(2)中期主攻:偏大模型/深度学习/算法

短期可投:AI 应用工程、数据分析/DS、AI 产品、接口/平台测试
中期主攻:LLM 应用(RAG/Agent)、NLP/多模态、推荐/搜索、ML 工程
关键思路:用 2–3 个可展示作品,证明“可交付 + 可评估 + 可复现”

岗位推荐(可筛选)

按岗位/技能搜索。匹配度:结合研一可准备的门槛与落地性给出优先级建议。

LLM 应用工程师(RAG / 工具调用 / 工作流)

当前热门且更“可项目化”:做一个带评测的 RAG 或 Agent Demo,比空谈模型更有说服力。

匹配度:高
核心:Python / API 调用 / 数据处理 核心:RAG(切分/向量检索/重排) 加分:LLM 评测(准确率/召回/幻觉) 加分:向量库(FAISS/Milvus) 边界:隐私/合规/安全
工作内容(做什么) 举例 + 关注点
  • 把业务问题转成可落地的 LLM 方案:确定输入/输出格式、失败兜底、成本与延迟约束。
  • 搭建 RAG:语料清洗→切分→向量化(embedding)→检索→(可选)重排(rerank)→生成回答,并做引用溯源。
  • 做评测与迭代:建立测试集、定义指标(准确/召回/幻觉率/满意度),对比不同提示词与检索策略。
  • 工程化交付:API/服务化(FastAPI)、缓存与限流、日志与可观测性(trace)、灰度发布。
例子:例如做一个“课程资料问答助手”:用户问“这门课的期末考点有哪些?”,系统先在资料库里检索相关讲义段落(RAG),再生成回答,并在末尾给出引用段落编号;每次更新语料后跑一遍回归评测,确保“引用正确率”和“关键点覆盖率”不下降。

AI Agent / 智能体工程(任务自动化)

偏工程化:关键在“任务分解 + 工具集成 + 可靠性”。适合把“应用”做得稳。

匹配度:中高
核心:工具调用 / 状态管理 / 失败兜底 核心:日志与可观测性(trace) 加分:结构化输出 / 约束解码思路 加分:评测集与回归测试 通用:后端基础(FastAPI)
工作内容(做什么) 举例 + 关注点
  • 把复杂任务拆成可执行步骤:规划(plan)→调用工具(tool)→检查结果→必要时重试/改写。
  • 接入外部工具:搜索、数据库、表格、邮件、日程、代码执行等,处理鉴权与权限边界。
  • 让系统“更可靠”:状态管理、超时/失败兜底、幂等、循环检测(避免无限自我调用)。
  • 可观测与调试:为每一步记录输入输出、token 消耗、失败原因,方便复盘与回归测试。
例子:例如做“周报自动生成”:Agent 读取本周任务列表→从 issue 系统拉取进度→生成结构化周报→输出为 Markdown/邮件;关键点是每一步都要可追踪,失败时能明确告诉你“卡在拉取数据/格式校验/权限不足”。

Prompt / LLM 解决方案(偏评测与落地)

“只会写提示词”不够,核心竞争力是:任务定义、数据集构建、指标与迭代闭环。

匹配度:中
核心:任务拆解 / 规范输出 / 失败案例库 核心:离线评测 + A/B 线上验证 加分:对齐与安全(敏感/越狱) 通用:文档表达
工作内容(做什么) 举例 + 关注点
  • 把需求写成“可验收任务”:定义正确输出的标准、边界条件、拒答规则与格式约束。
  • 构建数据集:收集真实样例、覆盖常见问题与难例(边界、歧义、对抗输入)。
  • 设计与迭代提示词:模板化(system/instructions)、few-shot 示例、结构化输出(JSON)。
  • 建立评测闭环:离线评测 + 线上 A/B(若有条件),跟踪准确率、稳定性与用户满意度。
例子:例如做“客服问答改写”:要求输出固定 JSON(字段:意图、关键信息、回复文本、风险提示),并把 200 条真实问答做成评测集;每次改提示词都跑评测,比较“字段完整率/事实一致率/违规率”。

机器学习 / 深度学习工程(研一主攻方向)

如果目标是“纯算法”,建议从 PyTorch + 经典任务入手,再过渡到微调与训练工程。

匹配度:中高
核心:PyTorch / 训练与调参 核心:数据集与实验复现 加分:LoRA/PEFT 微调 边界:算力/工程复杂度
工作内容(做什么) 举例 + 关注点
  • 负责模型训练与实验:数据预处理、训练循环、调参、对比基线、复现实验记录。
  • 把模型从“能跑”做到“可解释”:做误差分析(哪些类别/场景容易错,为什么错)。
  • 落地到线上或产品:导出推理模型、做性能优化(延迟/吞吐),并与工程团队对齐接口。
  • 跟进论文/开源:复现经典方法,逐步积累“可复现 + 可对比”的研究能力。
例子:例如做“文本分类”:先用 TF-IDF+LR 做基线,再用 BERT 微调;对比 F1 提升,并分析“否定词、长文本截断、类别不平衡”导致的错误样例;最后把模型封装成 /predict API。

NLP 工程 / 算法(文本分类、抽取、检索)

可用小项目快速起步:文本分类/实体抽取/检索重排,并做系统性评估。

匹配度:中
核心:Transformers 基础 加分:检索/重排(BM25 + Cross-Encoder) 加分:标注规范与一致性 通用:英语论文阅读
工作内容(做什么) 举例 + 关注点
  • 围绕文本任务做模型与数据:分类、实体抽取、相似度检索、问答等。
  • 建设检索链路:BM25/向量检索 + 重排(cross-encoder),提升召回与排序质量。
  • 数据标注与质量控制:标注规范、抽检一致性、难例维护(这点常被低估)。
  • 评估与上线:定义指标(F1/Recall@K/NDCG),持续迭代并做回归。
例子:例如做“课程搜索”:先用 BM25 召回候选课程,再用 cross-encoder 重排;指标用 Recall@K、NDCG;上线后重点看“搜索无结果率”和“点击转化率”。

多模态 / CV 应用(图文检索、识别、OCR 相关)

如果对图像更感兴趣:从 ViT/CLIP 等做应用型项目(检索/分类),再拓展到多模态。

匹配度:中
核心:PyTorch + 训练/评估 加分:CLIP/对比学习直觉 加分:向量检索/相似度搜索 边界:数据与标注成本

数据分析 / 数据科学(AI 相关团队常招)

更稳的“入口岗”:先进入 AI 团队做分析/实验/指标,后续转算法或 AI 产品。

匹配度:高
核心:SQL + 指标体系 核心:统计/实验(A/B) 加分:建模(LR/GBDT) 通用:报告表达
工作内容(做什么) 举例 + 关注点
  • 做图像/多模态任务:分类、检测、OCR、图文检索等,重点是数据与评估。
  • 利用预训练模型:ViT/CLIP 等,用少量数据做微调或做检索式应用。
  • 工程落地:推理速度、模型大小、设备适配(GPU/CPU/端侧)。
  • 构建数据闭环:收集失败样例、补充数据、迭代提升鲁棒性。
例子:例如做“图文检索”:用 CLIP 把图片和文本编码成向量,做相似度搜索;评估用 Recall@K;再加入重排提升精确度。
工作内容(做什么) 举例 + 关注点
  • 定义与维护指标:漏斗、留存、转化、满意度;把口径说清楚(避免“各说各的”)。
  • 做实验与因果:A/B 测试设计、样本量估计、显著性判断、结果解释。
  • 辅助模型与产品迭代:用数据定位问题段(例如检索召回不足、回答幻觉高发)。
  • 搭建看板与监控:异常报警、分组对比、版本前后效果对比。
例子:例如在 AI 助手项目里:建立“引用正确率、幻觉率、用户追问率、会话完成率”指标;上线新检索策略后做 A/B,对比指标变化,并定位具体失败类型。

MLOps / 模型工程(训练流水线 & 部署)

热门但门槛偏工程:适合愿意做“平台化与稳定性”的同学,作品要体现可观测与版本管理。

匹配度:中低
核心:Docker / Linux / CI 加分:模型版本/数据版本管理 加分:监控与回归评测

AI 产品经理(大模型/智能助手方向)

当前也很热门。核心是:把“模型能力”变成“可用功能”,并用指标与评测闭环迭代。

匹配度:高
核心:PRD/原型/验收标准 核心:评测与指标(准确/幻觉/满意度) 加分:RAG/Agent 基础概念 通用:跨团队推动
工作内容(做什么) 举例 + 关注点
  • 让训练与上线可规模化:训练流水线、数据版本、模型版本、实验记录与复现。
  • 模型部署与发布:容器化、灰度、回滚、接口契约、依赖管理。
  • 可观测与监控:延迟、吞吐、错误率、漂移监控;建立回归评测与报警。
  • 成本控制:算力/存储/调用成本评估与优化。
例子:例如把“文本分类模型”做成可持续迭代系统:训练脚本固定化 + 数据版本记录 + 自动评测 + Docker 部署;每次发布新版本先在灰度流量验证,再全量。
工作内容(做什么) 举例 + 关注点
  • 把“模型能力”翻译成“用户功能”:明确场景、用户目标、成功标准与失败兜底。
  • 写 PRD/原型:流程、异常、权限、提示与引用展示、成本与延迟约束。
  • 制定评测与指标:离线评测集(覆盖/难例)、线上指标(满意度、留存、转化)。
  • 推动跨团队落地:对齐研发/算法/测试/运营的交付物与验收口径。
例子:例如做“企业知识库问答”:产品侧必须定义——答案必须带引用;遇到不确定要拒答并提示补充;关键指标是“引用正确率”“回答可用率”“会话完成率”。

AI 质量/评测工程(LLM Eval / 回归测试)

很多团队在补“评测体系”。如果偏严谨细致,这个方向含金量高且缺口大。

匹配度:中高
核心:测试用例设计 + 回归 核心:评测集构建(覆盖/难例) 加分:自动化(Pytest) 边界:评测主观性控制
工作内容(做什么) 举例 + 关注点
  • 搭建 LLM 评测体系:评测集、指标、自动评分/人工抽检流程。
  • 维护回归用例:版本迭代时防止“修了 A 坏了 B”(尤其在提示词与检索策略迭代中)。
  • 对齐质量标准:覆盖率、难例分桶、违规/越狱/敏感内容拦截测试。
  • 输出可行动的结论:把问题归因到“检索、提示、模型、数据、工具调用”的哪一段。
例子:例如每周产出一份“质量周报”:新增难例 30 条,幻觉率从 8% 降到 5%;主要问题集中在“多文档冲突、日期/数值问答”;建议加入重排与数值校验规则。

AI 运营(增长/内容/社区,数据驱动)

适合对用户与内容敏感的人:用数据定位增长点,用实验做策略迭代。

匹配度:中
核心:增长指标/漏斗 核心:Excel/SQL 分析 加分:内容策略/活动策划 通用:沟通与复盘
工作内容(做什么) 举例 + 关注点
  • 用数据驱动增长:拉新-激活-留存-转化漏斗拆解,制定运营动作与触达策略。
  • 内容与活动:围绕用户问题产出内容(教程、模板、案例),用指标评估效果。
  • 用户分层:新手/活跃/高价值用户差异化运营;建立触达节奏与复盘机制。
  • 与产品/算法协作:反馈高频需求与失败案例,推动产品迭代。
例子:例如做“AI 助手新手引导”:设计 3 条任务型引导(上传资料→提问→生成摘要),并做 A/B 测试对比激活率;同时维护“高频问题模板库”,降低用户上手成本。
关键提醒
如果对毕业论文内容不擅长:不必强行“绑定论文方向”。简历可以换叙事: 研一能力建设 + 作品集 + 可复现实验。论文只保留为“完成过端到端数据任务”的证明即可。

研一准备路线(可执行)

建议先选 1 条主线(LLM 应用 / DL 算法 / AI 产品&评测),再用作品集证明能力。

通用底座(先补齐,再分支) 2–4 周打底
  • Python 工程:虚拟环境、依赖管理、日志、单元测试(pytest)。
  • 数据处理:Pandas/NumPy,基本可视化,数据清洗套路。
  • ML 基础:评估指标、过拟合/正则、交叉验证、误差分析。
  • 基础工具:Git、Linux、Docker(了解即可)。
路线 1:LLM 应用(RAG/Agent) 最容易做作品
  • 掌握:文本切分、向量检索、重排、引用/溯源、提示模板。
  • 重点:评测(准确、召回、幻觉、稳定性)与回归测试。
  • 产出:一个可运行 Demo(Web/CLI)+ 一份评测报告(含难例)。
路线 2:深度学习/算法(PyTorch) 更硬核、更慢热
  • 掌握:训练循环、优化器、学习率策略、可复现实验(seed/日志)。
  • 选择:NLP 或 CV 一个方向做 1–2 个任务跑通(并复现论文/开源)。
  • 产出:训练代码 + 实验表格 + 误差分析(不是只给准确率)。
路线 3:AI 产品 / AI 评测(更偏非纯技术) 就业面更广
  • 掌握:PRD/原型、验收标准、指标与埋点、A/B 测试。
  • 重点:把“模型能力”写成可验收功能(输入/输出/失败兜底/成本)。
  • 产出:PRD + 原型 + 评测集(或测试用例)+ 复盘报告。
如何快速定方向(建议 1 周内完成)
快速试错法:每条路线做一个 3–5 天的 mini-作品。做完后看哪条更愿意继续投入。 方向不是想出来的,是做出来的。
愿意持续做 = 更适合;只想完成任务 = 不适合

作品集建议(热门 AI 岗位更看重“作品 + 评测”)

下面给 6 个“可展示”的作品方向;每个都建议:代码仓库 + README + 截图/演示 + 评测表。

作品 A:RAG 问答(带引用与评测)

用一套固定语料(课程资料/论文/公司文档)做 RAG,必须输出引用;并做评测集与难例库。

输出:引用溯源 + 评测报告 加分:重排/多查询/去幻觉策略

作品 B:Agent 自动化(邮件/表格/网页任务)

做一个“工具调用工作流”:任务分解 → 调用工具 → 失败重试/回滚 → 生成结构化结果。

输出:可观测日志 + 回归用例 加分:权限/安全/成本控制

作品 C:LLM 评测小框架(最稀缺)

从 0 搭一个 eval:样本集、指标、自动评分/人工抽检、版本对比与回归报警。

输出:评测流水线 加分:难例分桶/误差归因

作品 D:文本分类/抽取(PyTorch/Transformers)

做一个严谨的小任务:数据处理、训练、调参、对比基线,重点写清“为什么提升”。

输出:对比实验 + 误差分析 适配:NLP/算法

作品 E:AI 产品 PRD(功能 + 成本 + 评测)

选一个“智能助手/搜索/总结”功能,写 PRD、原型、验收标准,并补一份评测与灰度方案。

输出:PRD + 原型 + 指标 加分:成本测算(token/调用)

作品 F:API 测试 + 自动化(为 AI 服务兜底)

为作品 A/B 做接口用例与回归脚本(含异常、限流、超时、幂等),输出测试报告模板。

输出:用例集 + Pytest 适配:测试/质量/平台
作品打分标准(面试官最常看)
可运行(能复现)有评测(能比较)有解释(能归因)能上线(有工程化)
只展示界面/只贴模型名,通常不够。

关键名词速查(看懂岗位 JD / 面试高频)

尽量用“是什么 + 为什么重要 + 一个例子”解释;读完后,岗位描述里的关键词基本能对上号。

LLM(大语言模型)

能生成/理解文本的模型。工作里更关注:能否稳定完成任务成本与延迟安全合规。例:写摘要、问答、结构化提取。

Prompt(提示词)

给模型的指令与上下文。好提示词通常包含:角色、任务、输出格式、约束、示例。例:要求输出固定 JSON,便于程序解析。

Token & 上下文窗口(Context Window)

token 可理解为模型处理的“文本粒度单位”。上下文窗口是一次能放进去的 token 上限。例:文档太长时需要切分/摘要/分段检索。

RAG(检索增强生成)

先检索资料再生成回答:检索提供证据,生成负责组织表达。关键是“引用/溯源”与“评测”。例:知识库问答。

Embedding(向量化)

把文本/图片映射成向量,用相似度做检索与匹配。例:把课程资料向量化后,用用户问题向量去找最相关段落。

向量数据库(Vector DB)

存向量并做相似度搜索的系统。常见能力:近邻搜索、过滤、分片。例:Milvus/FAISS(库/组件)。

Retriever & Reranker(召回与重排)

召回:快速找一批候选;重排:更“贵”但更准地重新排序。例:先向量检索取 top-50,再用 cross-encoder 选 top-5。

幻觉(Hallucination)

模型自信地编造内容。工程里常用手段:引用约束、拒答策略、事实校验、评测集回归。例:要求回答必须引用资料,否则拒答。

Agent(智能体)

让模型“会做事”:任务分解 + 工具调用 + 反馈修正。关键不是会说,而是能稳定把任务做完、失败可追踪。

Function Calling / 工具调用

模型输出结构化参数去调用外部函数(查库、发邮件、算数、检索)。例:把“查今天日程”转成对日历 API 的调用。

Eval(评测)与回归测试

评测:比较不同方案好坏;回归:版本迭代防止退化。例:改了切分策略,必须跑评测集对比“引用正确率”。

A/B 测试

线上随机分流对比方案效果。前提:指标口径一致、样本量足够、实验周期合理。例:比较“有重排 vs 无重排”对满意度的提升。

BM25 & Cross-Encoder

BM25:经典关键词检索;Cross-Encoder:把 query+doc 一起输入模型做精排(更准更慢)。常用于“检索 + 重排”。

LoRA / PEFT(高效微调)

在不全量更新大模型参数的情况下做微调,降低算力与存储成本。适合研一做“可跑通的微调项目”。

可观测性(Observability / Tracing)

让系统“出了问题能定位”:记录每一步输入输出、耗时、token、错误。Agent/RAG 工程里非常关键。

名词怎么用在简历里?
不要写“熟悉 RAG/Agent”,而是写:搭建 RAG(切分→向量检索→重排→引用溯源)并建立评测集;引用正确率 xx%,幻觉率下降 xx%