生成式预训练语言模型：理论与实战

从0到1构建自己的mini-ChatGPT

完整pytorch代码实操细讲，经典论文复现

NLP技术关键技术发展脉络精讲，注意力机制和Transformer架构全面剖析

讲师：黄佳

对课程有疑问？点击视频立即观看课程介绍！

课程服务

至少3个月

作业批改

助教1v1批改

课程有效期

365天

课程时长

0 h

¥649¥799.00

已报满

限时特价剩余名额：8个

课程介绍课程大纲学习服务售前疑问

¥649 ¥799.00

已报满

本课程包括：: 3个月群内答疑，讲师助教及时解答; 课程有效期为1年，建议合理规划学习; 课程配有作业练习，助教一对一批改; 班主任带班，严格督学，告别拖延; 根据学习情况颁发结业证书、优秀学员证书

黄佳

新加坡科技研究局人工智能高级研究员，主攻方向为NLP大模型的研发与应用、持续学习、AI in FinTech、AI in Spectrometry Data。曾著有《零基础学机器学习》、《数据分析咖哥十话》等多部畅销书籍，深耕数据科学领域多年，积累了丰富的科研项目和政府、银行、能源、医疗等领域AI项目落地实战经验。

随着ChatGPT的爆火，大语言模型(LLM)得到了空前的关注，各行各业的从业者开始应用ChatGPT提升日常工作效率。那么该如何构建属于自己的mini-ChatGPT？又需要掌握哪些核心技术呐？本课程会给你答案！课程会从语言模型的概念以及经典方案开始讲起，逐渐演进到ChatGPT中使用的基于Transformer的语言模型以及注意力（Attention）机制，并从思想层面透彻地解释Attention机制为什么有效，最后带着大家实现自己的mini-ChatGPT。在讲解原理的同时，课程非常注重代码实践，算法的代码实现穿插于每个算法理论之中。上述的课程设计，极大降低了课程学习门槛，相信每一位学习过Python以及概率论、线性代数的同学，都能够收获颇丰。

课程目标

透彻理解以ChatGPT为代表的生成式语言模型的原理以及代码实现
自主开发属于自己的ChatGPT

目标 O1

掌握语言模型的经典与主流算法，及其发展脉络

目标 O2

深刻理解ChatGPT的若干核心技术

目标 O3

动手实现mini版本的ChatGPT

课程脉络

从基础到进阶，从理论模型到实战剖析

01 基础概念 1
基础概念：ChatGPT属于大语言模型的一类，那么首先课程会通俗地讲解“什么是语言模型，什么是大语言模型”，在讲解语言模型时，会引出词向量、词嵌入等NLP领域几个最常用的概念，以及经典方法Word2Vec。
02 核心算法 2
核心算法：过去的十余年，语言模型的算法层出不穷，课程案例算法的演变脉络，精选了早期的N-gram以及基于浅层神经网络的NPLM进行详细讲解，并逐步过渡到基于深层网络的语言模型（生成式语言模型GPT）。GPT模型的深层网络不再采用CNN, RNN或者LSTM等结构，而是采用表达能力更强的Transformer，因此在讲解GPT模型时会细致讲解“Transformer的思想是什么，其核心组件有哪些，为什么其表达能力更强”。
03 综合实践 3
综合实践：每个核心算法的原理讲解，都会配套其代码实现，便于同学们学以致用。同时，课程也会带大家实现一个mini版本的ChatGPT：考虑到同学们算力资源有限，课程提供一个小型的数据集，将详细讲解如何准备数据、搭建模型架构、进行训练和评估，进而在该小型数据集上训练GPT模型。

课程大纲

第1章：从图灵测试到ChatGPT-NLP技术发展简史

本课梳理了NLP技术的发展进化过程的四阶段，分别是：起源、基于规则的方法、基于统计的语言模型、大数据驱动的深度学习模型。同时介绍了NLP演进过程中的各种关键技术，着重介绍了语言模型的原理。
第2章：语言模型的早期形式-N-gram实战

本课进一步诠释“语言模型的内涵是一种用于计算和预测自然语言序列概率分布的模型”，并通过N-gram模型来解释语言模型如何通过分析语言数据来建立数学模型，推断和预测下一个单词，并通过代码实践实现一个N-gram语言模型。
第3章：词的向量表示是如何习得的-Word2Vec实战

本课重点介绍词向量表示的概念和学习方法，以Word2Vec的Skip-Gram和CBOW算法为例，详细讲解其原理和实现。通过代码实践，学生将了解如何使用Word2Vec模型将词汇表达为词向量，以捕捉词汇之间的语义关系。
第4章：BERT，GPT等大模型的起点-神经概率语言模型NPLM

本课将介绍神经概率语言模型（NPLM）的基本原理和实现，学生将了解NPLM如何利用神经网络来学习语言表示，并为后续的各种深度学习语言模型的学习奠定基础。实践部分……

点击此处查看完整目录

项目实践

项目一：N-Gram构建

自然语言入门——统计式语言模型的构建，最早的语言模型通过统计语料库的词频，来计算下一个词生成的概率，在一个小型的语料库上，构建N-Gram模型。
项目二：Word2Vec构建

弥补独热编码来表示词的缺点，通过简单的神经网络构建自己的词特征向量从而实现词向量在特征空间上拥有更近的语义，提高计算效率。搭建自己的CBOW模型以及Skip - gram模型。
项目三：NPLM（Neural Probabilistic Language Model）构建

大语言模型的起点——神经概率语言模型，一种动态变化并且能根据上下文不断自适应改变的词向量表示的语言模型，通过学习文本数据的概率分布，能够预测下一个单词或字符的概率，从而生成连贯的语句或段落，在小型语料库上搭建首个生成式语言模型。
项目四：Seq2Seq架构

Transformer基础架构——Seq2Seq架构, 在一个8万个中英翻译的真实的平行语料库中，利用不同的时序模型以及框架完成一个机器翻译的任务，并且利用BLUE指标进行评价。
项目五：注意力机制

Transformer核心机制——注意力，从点积注意力入手，了解注意力以及自注意力中的QKV的区别，逐步实现多头缩放点积自注意力机制，加入注意力掩码，从而对前一节的Seq2Seq架构进行重构，实现多头自注意力的编解码器结构。
项目六：Transformer架构

大语言模型基石——Transformer, 从0到1逐个组件拆解Transformer架构，通过将Transformer结构拆解成多头自注意力，逐位置前馈网络，正弦位置编码表，填充位置掩码，编码器层，编码器，后续位置掩码，解码器层以及解码器，最终搭建自实现的Transformer，从而完成机器翻译任务。
项目七：WikiGPT

了解GPT（decoder-only）的基础原理，通过将GPT拆解成多头自注意力，逐位置前馈网络，正弦位置编码表，填充位置掩码，后续位置掩码，解码器层及解码器结构，从而实现一个小型的GPT结构并结合WikiText数据集训练自己的WikiGPT模型。
项目八：miniChatGPT

实战1：结合上一节的WikiGPT，加入Movie Dialog语料库对WikiGPT进行微调，使得其获得对话的能力从而得到minichatGPT 。
实战2：利用DeepSpeed框架训练一个开源的1.3Bchatgpt模型，深入了解GPT3 - GPT3.5 的训练机制改变，了解SFT（supervised fine tuning）, 奖励模型微调（RW）以及 PPO（Proximal Policy Optimization）算法以及RLHF（Reinforcement Learning Human Feedback）。
项目九：Prompt Engineering实战

通过调用一些OpenAI的API从而熟悉Prompt Engineering的过程，熟悉掌握few-shot以及COT的技巧，完成以下三个任务。
1.设定不同的角色带入回答
2.利用提示工程技巧减少模型的幻觉出现的频次
3.针对固定场景，让AI生成客服反馈