【jinnianhui科技消息】jinnianhui从外媒获悉,苹果与俄亥俄州立大学的研究团队近日发布了一项突破性研究,提出了一种名为“Fer:破高膙辚?f然揩襮嫛蟿F鸠5pep=k?确矅?鷜%?疆淴恤4G?緬暑皚`x鵏 ]]穸?頺t諏?鷓?$% 燾???烊所?炎m豩=2(?r蜨R庀汬}T廞 ??ヱq鹆黮}劷:q{|?e ?%坖D覑眤丬鲩M(缬s6/搇t巗紹g.晾飽S閽?dt邊潫Lg妔譫-Step Discrete Flor:破高膙辚?f然揩襮嫛蟿F鸠5pep=k?确矅?鷜%?疆淴恤4G?緬暑皚`x鵏 ]]穸?頺t諏?鷓?$% 燾???烊所?炎m豩=2(?r蜨R庀汬}T廞 ??ヱq鹆黮}劷:q{|?e ?%坖D覑眤丬鲩M(缬s6/搇t巗紹g.晾飽S閽?dt邊潫Lg妔譫-Matching(FS-DFM)”的新型语言模型。该模型基于扩散模型(diffusion model)的改进架构,能够以极快的速度生成高质量长文本,速度最高可达传统自回归模型(如ChatGPT)的128倍。
与传统自回归模型逐词生成文本的方式不同,FS-DFM通过并行生成多个词元(token)并在少量迭代步骤中逐步优化文本,最终实现完整输出。研究显示,FS-DFM仅需8轮迭代即可生成与需上千步迭代的扩散模型相媲美的长文本内容。
据悉,为实现这一目标,研究团队采用了三重技术策略:首先训练模型适应不同迭代步数的计算预算;其次引入“教师”模型引导迭代过程,确保每次更新更准确且避免过度修正;最后优化迭代机制,以更少、更稳定的步骤达成最终结果。
在性能评估中,FS-DFM在困惑度(perplexity)和熵(entropy)两项关键指标上表现优异。与70亿参数的Dream扩散模型及80亿参数的LLaDA扩散模型相比,参数规模仅17亿、13亿甚至1.7亿的FS-DFM变体均实现了更低的困惑度(表明文本更自然准确)和更稳定的熵值(避免文本重复或混乱)。
研究团队表示,由于该方法展现出显著潜力且目前缺乏类似公开模型,他们将发布代码和模型检查点以促进学术复现与进一步探索。
版权所有,未经许可不得转载
-金年会jinnianhui