亚bo体育网更快、更准、凹凸文更长-亚博买球「中国」yabo官方网站-登录入口
西风 发自 凹非寺量子位 | 公众号 QbitAI
时隔6年,一度被以为濒死的“BERT”杀总结了——
更当代的ModernBERT问世,更快、更准、凹凸文更长,发布即开源!

客岁一张“假话语模子进化树”动图在学术圈疯转,decoder-only枝繁叶茂,而依然方兴未艾的encoder-only却似乎走向没落。
ModernBERT作家Jeremy Howard却说:
encoder-only被低估了。
他们最新拿出了参数远离为139M(Base)、395M(Large)的两个模子凹凸文长度为8192 token,相较于以BERT为首的大多量编码器,其长度是它们的16倍
ModernBERT终点适用于信息检索(RAG)、分类、实体抽取等任务。
在检索、天然话语认知和代码检索测试中性能拿下SOTA:

遵循也很高。
ModernBERT速率是DeBERTa的两倍;在更常见的输入长度混杂的情况下,速率可达4倍;长凹凸文推理比其它模子快约3倍。
要津它所占的内存还不到DeBERTa的五分之一。

Jeremy Howard示意,咫尺对于生成式模子的热议秘籍了encoder-only模子的作用。
像GPT-4这么大模子,太大、太慢、独到化、本钱昂然,对好多任务来说并不相宜,还有Llama 3.1,参数皆达到了405B。这些模子运行冉冉,价钱奥密,何况不是你不错规则的。

GPT-4这么的生成模子还有一个限制:它们不行事先看到背面的token,只可基于之前已生成的或已知的信息来进行瞻望,即只可向后看。
而像BERT这么的仅编码器模子不错同期琢磨前后文信息,上前向后看皆行。

ModernBERT的发布眩惑数十万网友在线围不雅点赞。
抱抱脸连系首创东谈主兼CEO Clem Delangue皆来阿谀,直呼“爱了!!”。

为什么ModernBERT冠以“当代”之名?相较于BERT作念了哪些升级?
杀不死的encoder-only
ModernBERT的当代体咫尺三个方面:
当代化的Transformer架构终点热心遵循当代数据边界与开首
底下逐个来看。
首先,ModernBERT深受Transformer++(由Mamba定名)的启发,这种架构的初度应用是在Llama2系列模子上。
ModernBERT团队用其纠正后的版块替换了旧的BERT-like构建块,主要包括以下纠正:
用旋转位置镶嵌(RoPE)替换旧的位置编码,升迁模子认知词语之间相对位置辩论的阐发,也成心于扩张到更长的序列长度。用GeGLU层替换旧的MLP层,纠正了原始BERT的GeLU激活函数。通过移除不消要的偏置项(bias terms)简化架构,由此不错更有用地使用参数预算。在镶嵌层之后添加一个稀奇的归一化层,有助于自由查考。
接着,在升迁速率/遵循方面,ModernBERT愚弄了Flash Attention 2进行纠正,依赖于三个要津组件:
一是使用轮流矜重力(Alternating Attention),提高处理遵循。

二是使用Unpadding和Sequence Packing,减少计较奢靡。

三是通过硬件感知模子蓄意(Hardware-Aware Model Design),最大化硬件愚弄率。

这里就省略备张开了,感酷好酷好的童鞋不错自行查阅原论文。
最其后看查考和数据方面的纠正。

团队以为,encoders在查考数据方面的过时,实质问题在于查考数据的各样性,即好多旧模子查考的语料库有限,常常只包括维基百科和竹素,这些数据唯有单一的文本模态。
是以,ModernBERT在查考时使用了多种数据,包括会聚文档、编程代码和科学著述,覆盖了2万亿token,其中大部分是唯一无二的,而不是之前encoders中常见的20-40次的重叠数据。
查考进程,团队坚执使用原始BERT的查考配方,并作念了一些小升级,比如移除了下一句瞻望主义,因为有辩论标明这么的缔造增多了支拨但莫得暴露的收益,还将掩码率从15%提高到30%。
具体来说,139M、395M两个规格的模子皆通过了三阶段查考。
首先第一阶段,在序列长度为1024的情况下查考1.7T tokens。然后是长凹凸文适合阶段,模子处理的序列长度增多到8192,查考数据量为250B tokens,同期通过缩短批量大小保执每批次处理的总tokens量粗造换取。终末,模子在500亿个终点采样的tokens上进行退火处理,罢职ProLong强调的长凹凸文扩张理念念混杂。
一番操作下来,模子在长凹凸文任务上阐发具有竞争力,且处理短凹凸文的能力不受损。
查考进程团队还对学习率进行了终点处理。在前两个阶段,模子使用恒定学习率,而在终末的500亿tokens的退火阶段,接受了梯形学习率战术(热身-自由-衰减)。
团队还使用两个妙技,加快模子的查考进程,一个是常见的batch-size warmup,另一个是受微软Phi系列模子启发,愚弄现存的性能致密的ModernBERT-base模子权重,通过将基础模子的权重“平铺”扩张到更大的模子,提高权重运滚动的成果。

作家露馅将将公开checkpoints,以支撑后续辩论。
谁打造的?
前边提到的Jeremy Howard是这项责任的作家之一。
ModernBERT的三位中枢作家是:
Benjamin Warner、Antoine Chaffin、Benjamin ClaviéOn。

Jeremy Howard露馅,口头领先是由Benjamin Clavié在七个月前启动的,随后Benjamin Warner、Antoine Chaffin加入共同成为口头谨慎东谈主。

Benjamin ClaviéOn、Benjamin Warner,同Jeremy Howard雷同,来自Answer.AI。Answer.AI打造了一款能AI解题、主见阐释、缅念念和复盘测试的教师应用,在北好意思较为流行。
Antoine Chaffin则来自LightOn,亦然一家作念生成式AI的公司。
团队示意BERT天然看起来全国批驳的少了,但其实于今仍在被正常使用:
咫尺在HuggingFace平台上每月下载次数超6800万。恰是因为它的encoder-only架构终点相宜处分日常出现检索(举例用于RAG)、分类(举例内容审核)和实体提真金不怕火任务。
Jeremy Howard示意来岁将查考这个模子的更大版块。

Blog:https://huggingface.co/blog/modernbertModernBERT-Base:https://huggingface.co/answerdotai/ModernBERT-baseModernBERT-Large:https://huggingface.co/answerdotai/ModernBERT-large论文:https://arxiv.org/pdf/2412.13663参考流畅:https://x.com/jeremyphoward/status/1869786023963832509
- 上一篇:体育游戏app平台到精装工法、科技系统的细节内测-亚博买球「中国」yabo官方网站-登录入口
- 下一篇:没有了