算丰学院-LLM的概念与实践-LLM:世界知识的无损压缩

算丰学院-LLM的概念与实践-LLM:世界知识的无损压缩

LM (language model)

统计语言模型(SLM)
Statistical language models

  • N 元模型

神经语言模型(NLM)
Neural language models

  • 前馈神经网络语言模型

    • 每个词用低维稠密向量表示,提升模型泛化能力。
      假定,测试集中有一句话”猫|在|厨房|吃|鱼”,训练集中没有出现过,但存在
      “狗|在|卧室|吃|肉”,由于{“猫”,”厨房”,”卧室”},{“鱼”,”肉”}语义相似
      模型可以推断”猫|在|厨房|吃|鱼”是一句话的概率很高。
  • 循环神经网络语言模型(RNNLM),引入循环结构,解决长序列依赖问题

预训练语言模型(PLM)
Pre-trained language models

大规模语言模型(LLM)
Large language models

LLM定义

LLM (Large Language Model)

LLM是一种基于深度学习的大型自然语言处理模型,通过大规模数据集的预训练和微调过程学习语言的模式和规律,具有强大的文本生成和理
解能力,广泛应用于文本生成,智能对话等多个领域。

Pre-train:

  • 从巨大的数据集中进行无监督训练
  • 学习一般的语言模式和表征

Fine-tune:
根据特定的任务和更小一点的数据集训练与微调

金融:情报分析,投资建议
教育:个性化学习,辅助教学
医疗:疾病诊断,药物研发
艺术:自动生成作品,创意支持

Transformer模型

3.1 Attention机制

传统RNN模型

LSTM (Long-Short Term Memory)长短期记忆

GRU(Gate Recurrent Unit)门控循环单元

缺陷

顺序计算,模型的并行能力较差

长期依赖问题

注意力机制(attention)

  • 神经网络中模仿人类认知注意力的技术
  • 灵活性
  • 可以从序列中任何先前点的状态中提取信息
  • attention机制与FNN前馈神经网络的结合

可以在运行时改变权重

对知识的无损压缩