爰唯侦察bt核工厂时隔6年BERT升级，仅编码器架构没被杀死，更快更准确更长高下文

你的位置：橾p在线 > 人妻 > 爰唯侦察bt核工厂时隔6年BERT升级，仅编码器架构没被杀死，更快更准确更长高下文

爰唯侦察bt核工厂时隔6年BERT升级，仅编码器架构没被杀死，更快更准确更长高下文

发布日期：2024-12-26 08:55 点击次数：141

时隔6年爰唯侦察bt核工厂，一度被觉得濒死的“BERT”杀回想了——

更当代的ModernBERT问世，更快、更准、高下文更长，发布即开源！

昨年一张“大谈话模子进化树”动图在学术圈疯转，decoder-only枝繁叶茂，而还是死灰复燃的encoder-only却似乎走向没落。

ModernBERT作家Jeremy Howard却说：

encoder-only被低估了。

他们最新拿出了参数诀别为139M（Base）、395M（Large）的两个模子，高下文长度为8192 token，相较于以BERT为首的大多量编码器，其长度是它们的16倍。

ModernBERT高出适用于信息检索（RAG）、分类、实体抽取等任务。

在检索、当然谈话知晓和代码检索测试中性能拿下SOTA：

效用也很高。

ModernBERT速率是DeBERTa的两倍；在更常见的输入长度羼杂的情况下，速率可达4倍；长高下文推理比其它模子快约3倍。

要津它所占的内存还不到DeBERTa的五分之一。

Jeremy Howard暗示，目下对于生成式模子的热议覆盖了encoder-only模子的作用。

像GPT-4这么大模子，太大、太慢、独到化、本钱悉力，对很多任务来说并不合乎，还有Llama 3.1，参数齐达到了405B。

这些模子运行迟缓，价钱悉力，况且不是你不错司法的。

GPT-4这么的生成模子还有一个限制：它们不成事前看到后头的token，只可基于之前已生成的或已知的信息来进行瞻望，即只可向后看。

而像BERT这么的仅编码器模子不错同期推敲前后文信息，上前向后看齐行。

ModernBERT的发布迷惑数十万网友在线围不雅点赞。

抱抱脸汇聚创举东谈主兼CEO Clem Delangue齐来讨好爰唯侦察bt核工厂，直呼“爱了！！”。

为什么ModernBERT冠以“当代”之名？相较于BERT作念了哪些升级？

杀不死的encoder-only

ModernBERT的当代体当今三个方面：

当代化的Transformer架构

高出矜恤效用

当代数据界限与起首

底下逐个来看。

最先，ModernBERT深受Transformer++（由Mamba定名）的启发，这种架构的初次应用是在Llama2系列模子上。

ModernBERT团队用其校正后的版块替换了旧的BERT-like构建块，主要包括以下校正：

用旋转位置镶嵌（RoPE）替换旧的位置编码，培育模子知晓词语之间相对位置关连的发扬，也故意于推广到更长的序列长度。

用GeGLU层替换旧的MLP层，校正了原始BERT的GeLU激活函数。

通过移除无用要的偏置项（bias terms）简化架构，由此不错更灵验地使用参数预算。

情色笑话

在镶嵌层之后添加一个疏淡的归一化层，有助于壮健磨真金不怕火。

接着，在培育速率/效用方面，ModernBERT驾驭了Flash Attention 2进行校正，依赖于三个要津组件：

一是使用瓜代驻守力（Alternating Attention），提高处理效用。

二是使用Unpadding和Sequence Packing，减少计议残害。

三是通过硬件感知模子联想（Hardware-Aware Model Design），最大化硬件驾驭率。

这里就不翔实张开了，感意思的童鞋不错自行查阅原论文。

最其后看磨真金不怕火和数据方面的校正。

团队觉得，encoders在磨真金不怕火数据方面的落伍，内容问题在于磨真金不怕火数据的种种性，即很多旧模子磨真金不怕火的语料库有限，频繁只包括维基百科和书本，这些数据只须单一的文本模态。

是以，ModernBERT在磨真金不怕火时使用了多种数据，包括网罗文档、编程代码和科学著述，覆盖了2万亿token，其中大部分是唯一无二的，而不是之前encoders中常见的20-40次的重迭数据。

磨真金不怕火经由，团队坚握使用原始BERT的磨真金不怕火配方，并作念了一些小升级，比如移除了下一句瞻望办法，因为有磋议标明这么的诞生加多了支出但莫得昭着的收益，还将掩码率从15%提高到30%。

具体来说，139M、395M两个规格的模子齐通过了三阶段磨真金不怕火。

最先第一阶段，在序列长度为1024的情况下磨真金不怕火1.7T tokens。然后是长高下文适合阶段，模子处理的序列长度加多到8192，磨真金不怕火数据量为250B tokens，同期通过缩短批量大小保握每批次处理的总tokens量苟简相易。终末，模子在500亿个高出采样的tokens上进行退火处理，免除ProLong强调的长高下文推广理思羼杂。

一番操作下来，模子在长高下文任务上发扬具有竞争力，且处理短高下文的材干不受损。

磨真金不怕火经由团队还对学习率进行了高出处理。在前两个阶段，模子使用恒定学习率，而在终末的500亿tokens的退火阶段，遴选了梯形学习率计谋（热身-壮健-衰减）。

团队还使用两个手段，加快模子的磨真金不怕火经由，一个是常见的batch-size warmup，另一个是受微软Phi系列模子启发，驾驭现存的性能考究的ModernBERT-base模子权重，通过将基础模子的权重“平铺”推广到更大的模子，提高权重运调治的后果。

作家流露将将公开checkpoints，以复旧后续磋议。

谁打造的？

前边提到的Jeremy Howard是这项使命的作家之一。

ModernBERT的三位中枢作家是：

Benjamin Warner、Antoine Chaffin、Benjamin ClaviéOn。

Jeremy Howard流露，神志领先是由Benjamin Clavié在七个月前启动的，随后Benjamin Warner、Antoine Chaffin加入共同成为神志雅致东谈主。

Benjamin ClaviéOn、Benjamin Warner，同Jeremy Howard相通，来自Answer.AI。Answer.AI打造了一款能AI解题、想法阐释、缅思和复盘测试的熟识应用，在北好意思较为流行。

Antoine Chaffin则来自LightOn，亦然一家作念生成式AI的公司。

团队暗示BERT诚然看起来宇宙褒贬的少了，但其实于今仍在被庸俗使用：

目下在HuggingFace平台上每月下载次数超6800万。恰是因为它的encoder-only架构十分合乎处罚浅显出现检索（举例用于RAG）、分类（举例内容审核）和实体索要任务。

Jeremy Howard暗示来岁将磨真金不怕火这个模子的更大版块。

相关资讯

热点资讯

友情链接：

爰唯侦察bt核工厂 时隔6年BERT升级，仅编码器架构没被杀死，更快更准确更长高下文

爰唯侦察bt核工厂时隔6年BERT升级，仅编码器架构没被杀死，更快更准确更长高下文