栏目分类
你的位置:开云「中国集团」Kaiyun·官方网站-登录入口 > 新闻 >
传统的假话语模子老师需要依赖"结拜数据"——那些经过仔细筛选、相宜圭臬语法且逻辑严实的文本。但如若这种严格的数据过滤,并不像咱们假想中那般紧迫呢?
这就像教孩子学话语:传统不雅点合计他们应该只听语法齐备的圭臬发音。但本质情况是,孩童恰正是在战斗俚语、语法失实和布景杂音的进程中,仍是大致掌捏话语工夫。
来自北大的接洽东谈主员通过在老师数据中刻意添加随即乱码进行考据。他们试图测试模子在性能受损前能承受些许"坏数据"。
实验收尾标明,即便濒临高达 20% 的"垃圾数据",老师仍是不错普通进行,且 Next-token Prediction ( NTP ) loss 受到的影响不及 1%!他们不仅揭示了噪声与模子性能的复杂关系,还淡薄了一种创新的"局部梯度匹配"圭表,让模子在噪声环境中仍是保持强劲发达。
是什么:随即杂音会有什么影响?
接洽者欺骗 OpenWebText 数据集,老师了多个 GPT-2 筹商架构和参数目的话语模子。他们领先生成了一串鸿沟在 0 到 50256(GPT-2 tokenizer 的大小)的整数,其中每个数齐驯服 0 到 50256 的均匀散布。这么是为了模拟由于解码失实或网页崩溃导致的随即乱码经过 tokenizer 之后的收尾。之后,接洽团队向 OpenWebText 中注入占比 1%-20% 的随即噪声,普通进行 Next-token Prediction 的预老师。
实验收尾揭示了一个反直观粗豪:尽管 NTP loss 受到杂音的影响有些微扶植,关联词加多幅度远小于杂音占比。即使 20% 的数据被欺压,模子的下一个词预测亏空仅飞腾约 1%。
更令东谈主骇怪的是,在 arXiv 和 Wikipedia 语料测试中,含噪模子以致展现出更低的 NTP loss。
这些反常粗豪的出现激发了接洽团队的想考。他们想要知谈这种粗豪出现的背后原因。
为什么:表面角度分析随即杂音
驯服之前的表面责任,接洽团队把 NTP 进程建模成在 ( 给定前缀 , 下一 token ) 的长入概率散布上的分类任务。用 P^c 默示干净散布,P^n 默示杂音散布,作家指出,咱们着实蔼然的不是模子在杂音 P^n 上的亏空,而是在杂音散布上老师出来的模子 h 与最优模子 h* 在干净散布 P^c 上的 NTP loss 差距。
为了给出讲明,接洽团队领先贵重到,在随即乱码中找到一段专诚想文本的概率极低。用数学话语来描摹,这意味着干净散布 P^c 和杂音散布 P^n 的赞成集(support set)的杂乱不错合计是空集。
基于这条假定,接洽团队告捷讲明,当杂音占比 α 饱和小时,P^n 的存在不改动 NTP loss 的全局最小值。哪怕 α 饱和大,杂音对亏空函数带来的影响也远小于其占比。
由于 Assumption 1 并不单在随即杂音时设置,因此论断不错执行到其他情况。最径直的场景就是多话语模子的老师。较着,在一种话语(英语)看来,另一种话语(汉语)就是随即乱码,他们之间的 token 互相是不重合的,两者对应的散布当然莫得杂乱,也就满足了 Assumption 1。因此,Proposition 1 标明,在多话语数据辘集进行预老师,单个话语的性能不会受到太大的影响。这就解释了多话语模子的告捷。此外,Proposition 1 还不错解释为什么在充满布景杂音的数据集上老师的音频模子不错告捷。
为了进一步测验上述表面,接洽团队还随即生成了先验散布死守高斯散布的随即杂音。由于高斯散布有限定可循,这种杂音对应的 NTP loss 更低。按照 Proposition 1 的论断,更低 NTP loss 的杂音 P^n 对模子性能的影响更小。实验收尾考据了这一预言,也就讲明了 Proposition 1 的正确性。
怎么作念:怎么弥补随即杂音的影响
尽管预老师亏空变化微弱,卑鄙任务却暴显现隐患。实验娇傲,在高斯杂音上老师的模子,尽管其比较随即杂音对应模子的 NTP loss 更低,但在文分内类卑鄙任务中的准确率却下落高达 1.5%。这种"亏空 - 性能解耦"粗豪标明,预老师策动 NTP loss 无法全面反应模子的实质工夫。接洽者指出,噪声会诬蔑特征空间的梯度散布,导致微调时模子对眇小扰动过于明锐。
针对这一挑战,团队淡薄了一种即插即用的处分有策动——局部梯度匹配亏空(LGM)。具体来说,由于鄙人游任务应用大模子时确实不会从新预老师,接洽团队在黑盒模子的假定下淡薄了 LGM 这一微调圭表。其无需造访模子参数,而是通过向特征添加高斯噪声并敛迹原始 / 扰动特征的梯度互异,径直增强分类头的抗噪工夫。其中枢想想在于:迫使模子在特征扰动下保持决策一致性,从而弥合噪声导致的特征偏移。对于黑盒模子提真金不怕火的特征 t,领先添加一定进程高斯扰动取得 hat{t},然后将分类头对于 t 和 hat{t} 的梯度差当作亏空函数
实验部分,团队在 8 个当然话语集结和 14 个视觉分类数据集上考据了模子性能。
对于受到杂音影响的模子,LGM 不错显耀增强性能。
出乎猜测的是,当把 LGM 用在干净模子(如 Llama-3、ViT-L)上时,卑鄙任务准确率仍可扶植 1%-3%。
为了解释 LGM 的告捷,接洽团队从 Sharpness-Aware Minimization 的角度,讲明了 LGM 损成仇亏空函数的光滑进程、对输入的明锐进程有精细关系:
启示与瞻望:数据清洗的新想考
这项接洽为大范畴预老师提供了全新视角:
恶果创新:贬抑保留随即噪声可裁汰数据清洗资本,尤其对资源有限的团队有趣紧要
表面延迟:表面框架可用于解释多话语模子的告捷,还可用于其他模态
数据增强:可控噪声注入或成新式正则化妙技,扶植模子泛化工夫
虽然,接洽也存在局限:实验仅基于 GPT-2 范畴模子,超大范畴模子(如 GPT-4)的噪声耐受性仍需考据。团队运筹帷幄进一步探索噪声类型与模子容量的动态关系,以及 LGM 在其他模态中的应用。
论文地址 :
https://arxiv.org/abs/2502.06604
— 完 —
学术投稿请于责任日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 名目主页贯串,以及相关形态哦
咱们会(尽量)实时修起你
一键关注 � � 点亮星标
科技前沿进展逐日见
一键三连「点赞」「转发」「预防心」
接待在驳斥区留住你的主义!开云「中国」Kaiyun·官方网站-登录入口
下一篇:没有了