栏目分类

你的位置：亚博买球「中国」yabo官方网站-登录入口 > 新闻动态 > 亚bo体育网更快、更准、凹凸文更长-亚博买球「中国」yabo官方网站-登录入口

亚bo体育网更快、更准、凹凸文更长-亚博买球「中国」yabo官方网站-登录入口

时间：2025-06-22 07:49 点击：131 次

西风发自凹非寺量子位 | 公众号 QbitAI

时隔6年，一度被以为濒死的“BERT”杀总结了——

更当代的ModernBERT问世，更快、更准、凹凸文更长，发布即开源！

客岁一张“假话语模子进化树”动图在学术圈疯转，decoder-only枝繁叶茂，而依然方兴未艾的encoder-only却似乎走向没落。

ModernBERT作家Jeremy Howard却说：

encoder-only被低估了。

他们最新拿出了参数远离为139M（Base）、395M（Large）的两个模子凹凸文长度为8192 token，相较于以BERT为首的大多量编码器，其长度是它们的16倍

ModernBERT终点适用于信息检索（RAG）、分类、实体抽取等任务。

在检索、天然话语认知和代码检索测试中性能拿下SOTA：

遵循也很高。

ModernBERT速率是DeBERTa的两倍；在更常见的输入长度混杂的情况下，速率可达4倍；长凹凸文推理比其它模子快约3倍。

要津它所占的内存还不到DeBERTa的五分之一。

Jeremy Howard示意，咫尺对于生成式模子的热议秘籍了encoder-only模子的作用。

像GPT-4这么大模子，太大、太慢、独到化、本钱昂然，对好多任务来说并不相宜，还有Llama 3.1，参数皆达到了405B。这些模子运行冉冉，价钱奥密，何况不是你不错规则的。

GPT-4这么的生成模子还有一个限制：它们不行事先看到背面的token，只可基于之前已生成的或已知的信息来进行瞻望，即只可向后看。

而像BERT这么的仅编码器模子不错同期琢磨前后文信息，上前向后看皆行。

ModernBERT的发布眩惑数十万网友在线围不雅点赞。

抱抱脸连系首创东谈主兼CEO Clem Delangue皆来阿谀，直呼“爱了！！”。

为什么ModernBERT冠以“当代”之名？相较于BERT作念了哪些升级？

杀不死的encoder-only

ModernBERT的当代体咫尺三个方面：

当代化的Transformer架构终点热心遵循当代数据边界与开首

底下逐个来看。

首先，ModernBERT深受Transformer++（由Mamba定名）的启发，这种架构的初度应用是在Llama2系列模子上。

ModernBERT团队用其纠正后的版块替换了旧的BERT-like构建块，主要包括以下纠正：

用旋转位置镶嵌（RoPE）替换旧的位置编码，升迁模子认知词语之间相对位置辩论的阐发，也成心于扩张到更长的序列长度。用GeGLU层替换旧的MLP层，纠正了原始BERT的GeLU激活函数。通过移除不消要的偏置项（bias terms）简化架构，由此不错更有用地使用参数预算。在镶嵌层之后添加一个稀奇的归一化层，有助于自由查考。

接着，在升迁速率/遵循方面，ModernBERT愚弄了Flash Attention 2进行纠正，依赖于三个要津组件：

一是使用轮流矜重力（Alternating Attention），提高处理遵循。

二是使用Unpadding和Sequence Packing，减少计较奢靡。

三是通过硬件感知模子蓄意（Hardware-Aware Model Design），最大化硬件愚弄率。

这里就省略备张开了，感酷好酷好的童鞋不错自行查阅原论文。

最其后看查考和数据方面的纠正。

团队以为，encoders在查考数据方面的过时，实质问题在于查考数据的各样性，即好多旧模子查考的语料库有限，常常只包括维基百科和竹素，这些数据唯有单一的文本模态。

是以，ModernBERT在查考时使用了多种数据，包括会聚文档、编程代码和科学著述，覆盖了2万亿token，其中大部分是唯一无二的，而不是之前encoders中常见的20-40次的重叠数据。

查考进程，团队坚执使用原始BERT的查考配方，并作念了一些小升级，比如移除了下一句瞻望主义，因为有辩论标明这么的缔造增多了支拨但莫得暴露的收益，还将掩码率从15%提高到30%。

具体来说，139M、395M两个规格的模子皆通过了三阶段查考。

首先第一阶段，在序列长度为1024的情况下查考1.7T tokens。然后是长凹凸文适合阶段，模子处理的序列长度增多到8192，查考数据量为250B tokens，同期通过缩短批量大小保执每批次处理的总tokens量粗造换取。终末，模子在500亿个终点采样的tokens上进行退火处理，罢职ProLong强调的长凹凸文扩张理念念混杂。

一番操作下来，模子在长凹凸文任务上阐发具有竞争力，且处理短凹凸文的能力不受损。

查考进程团队还对学习率进行了终点处理。在前两个阶段，模子使用恒定学习率，而在终末的500亿tokens的退火阶段，接受了梯形学习率战术（热身-自由-衰减）。

团队还使用两个妙技，加快模子的查考进程，一个是常见的batch-size warmup，另一个是受微软Phi系列模子启发，愚弄现存的性能致密的ModernBERT-base模子权重，通过将基础模子的权重“平铺”扩张到更大的模子，提高权重运滚动的成果。

作家露馅将将公开checkpoints，以支撑后续辩论。

谁打造的？

前边提到的Jeremy Howard是这项责任的作家之一。

ModernBERT的三位中枢作家是：

Benjamin Warner、Antoine Chaffin、Benjamin ClaviéOn。

Jeremy Howard露馅，口头领先是由Benjamin Clavié在七个月前启动的，随后Benjamin Warner、Antoine Chaffin加入共同成为口头谨慎东谈主。

Benjamin ClaviéOn、Benjamin Warner，同Jeremy Howard雷同，来自Answer.AI。Answer.AI打造了一款能AI解题、主见阐释、缅念念和复盘测试的教师应用，在北好意思较为流行。

Antoine Chaffin则来自LightOn，亦然一家作念生成式AI的公司。

团队示意BERT天然看起来全国批驳的少了，但其实于今仍在被正常使用：

咫尺在HuggingFace平台上每月下载次数超6800万。恰是因为它的encoder-only架构终点相宜处分日常出现检索（举例用于RAG）、分类（举例内容审核）和实体提真金不怕火任务。

Jeremy Howard示意来岁将查考这个模子的更大版块。

Blog：https://huggingface.co/blog/modernbertModernBERT-Base：https://huggingface.co/answerdotai/ModernBERT-baseModernBERT-Large：https://huggingface.co/answerdotai/ModernBERT-large论文：https://arxiv.org/pdf/2412.13663参考流畅：https://x.com/jeremyphoward/status/1869786023963832509

上一篇：体育游戏app平台到精装工法、科技系统的细节内测-亚博买球「中国」yabo官方网站-登录入口
下一篇：没有了

服务热线: 官方网站：www.hrbclhj.com; 工作时间：周一至周六（09：00-18：00）

联系我们: QQ：14392339753; 邮箱：65f4c02d@outlook.com; 地址：新闻动态科技园3941号

关注公众号

友情链接：

亚博买球「中国」yabo官方网站-登录入口-亚bo体育网更快、更准、凹凸文更长-亚博买球「中国」yabo官方网站-登录入口

亚bo体育网更快、更准、凹凸文更长-亚博买球「中国」yabo官方网站-登录入口

亚bo体育网更快、更准、凹凸文更长-亚博买球「中国」yabo官方网站-登录入口

亚bo体育网种种革命创意的心灵火花精明连续-亚博买球「中国」yabo官方网站-登录入口

体育游戏app平台到精装工法、科技系统的细节内测-亚博买球「中国」yabo官方网站-登录入口

亚bo体育网即在疾病未发生之前采用顾惜设施-亚博买球「中国」yabo官方网站-登录入口

亚博买球 2014年10月28日-亚博买球「中国」yabo官方网站-登录入口

亚博体育 5.舛误问题关于类风湿舛误炎患者-亚博买球「中国」yabo官方网站-登录入口

欧洲杯体育套利空间马上压缩中好意思利差近期马上走阔-亚博买球「中国」yabo官方网站-登录入口

体育游戏app平台安克以半托管花样销售居品-亚博买球「中国」yabo官方网站-登录入口