Transformers

You are viewing v4.36.1 version. A newer version v4.56.2 is available.

Join the Hugging Face community

and get access to the augmented documentation experience

Collaborate on models, datasets and Spaces

Faster examples with accelerated inference

Switch between documentation themes

to get started

BORT

このモデルはメンテナンスモードのみであり、コードを変更する新しい PR は受け付けられません。

このモデルの実行中に問題が発生した場合は、このモデルをサポートしていた最後のバージョン (v4.30.0) を再インストールしてください。これを行うには、コマンド pip install -U Transformers==4.30.0 を実行します。

Overview

BORT モデルは、Optimal Subarchitecture Extraction for BERT で提案されました。 Adrian de Wynter and Daniel J. Perry.これは、BERT のアーキテクチャパラメータの最適なサブセットです。著者は「ボルト」と呼んでいます。

論文の要約は次のとおりです。

Devlin らから BERT アーキテクチャのアーキテクチャパラメータの最適なサブセットを抽出します。 (2018) ニューラルアーキテクチャ検索のアルゴリズムにおける最近の画期的な技術を適用します。この最適なサブセットを次のように呼びます。 “Bort” は明らかに小さく、有効 (つまり、埋め込み層を考慮しない) サイズは 5.5% です。オリジナルの BERT 大規模アーキテクチャ、およびネットサイズの 16%。 Bort は 288 GPU 時間で事前トレーニングすることもできます。最高パフォーマンスの BERT パラメトリックアーキテクチャバリアントである RoBERTa-large の事前トレーニングに必要な時間の 1.2% (Liu et al., 2019)、同じマシンで BERT-large をトレーニングするのに必要な GPU 時間の世界記録の約 33% ハードウェア。また、CPU 上で 7.9 倍高速であるだけでなく、他の圧縮バージョンよりもパフォーマンスが優れています。アーキテクチャ、および一部の非圧縮バリアント: 0.3% ～ 31% のパフォーマンス向上が得られます。 BERT-large に関して、複数の公開自然言語理解 (NLU) ベンチマークにおける絶対的な評価。

このモデルは stefan-it によって提供されました。元のコードはここにあります。

Usage tips

BORT のモデルアーキテクチャは BERT に基づいています。詳細については、BERT のドキュメントページを参照してください。モデルの API リファレンスと使用例。
BORT は BERT トークナイザーの代わりに RoBERTa トークナイザーを使用します。トークナイザーの API リファレンスと使用例については、RoBERTa のドキュメントページを参照してください。
BORT には、 Agora と呼ばれる特定の微調整アルゴリズムが必要です。残念ながらまだオープンソース化されていません。誰かが実装しようとすると、コミュニティにとって非常に役立ちます。 BORT の微調整を機能させるためのアルゴリズム。

←BLOOM ByT5→