180 / 2025-07-01 23:52:39
大模型基础架构与涌现机理解析
大模型;基础架构;关键技术;涌现能力;机理解析
全文录用
韩松岳 / 空军工程大学
万鹏飞 / 空军工程大学
李佳恒 / 空军工程大学
王明宇 / 空军工程大学
李东东 / 信息支援部队工程大学
本文系统研究了大规模语言模型(Large Language Models, LLMs)的基础架构及其涌现能力的形成机理。首先回顾了大模型发展历程和研究现状,分析了从Transformer架构到当前主流大模型的技术演进路径;其次深入探讨了大模型的基础架构,包括预训练-微调范式、注意力机制和深度学习优化技术等核心组件;随后从理论视角深入解析了大模型涌现能力的形成机理,通过建立数学模型分析了规模扩展与能力涌现的非线性关系、低阶特征到高阶能力的涌现转换过程以及任务泛化机制;最后对大模型未来发展进行了展望,提出了提升涌现能力的潜在技术路径。研究表明,涌现能力产生的关键在于大模型通过海量参数形成的高维表示空间,使其能够捕获数据分布中的潜在规律,并在足够大的规模下实现低阶特征到高阶认知能力的质变。这一理论框架为理解大模型能力边界和指导未来模型设计提供了重要参考。
重要日期
  • 会议日期

    08月02日

    2025

    08月04日

    2025

  • 07月07日 2025

    初稿截稿日期

主办单位
国防科技大学系统工程学院
联系方式
历届会议
移动端
在手机上打开
小程序
打开微信小程序
客服
扫码或点此咨询