BORT
このモデルはメンテナンス モードのみであり、コードを変更する新しい PR は受け付けられません。
このモデルの実行中に問題が発生した場合は、このモデルをサポートしていた最後のバージョン (v4.30.0) を再インストールしてください。
これを行うには、コマンド pip install -U Transformers==4.30.0
を実行します。
Overview
BORT モデルは、Optimal Subarchitecture Extraction for BERT で提案されました。 Adrian de Wynter and Daniel J. Perry.これは、BERT のアーキテクチャ パラメータの最適なサブセットです。 著者は「ボルト」と呼んでいます。
論文の要約は次のとおりです。
Devlin らから BERT アーキテクチャのアーキテクチャ パラメータの最適なサブセットを抽出します。 (2018) ニューラル アーキテクチャ検索のアルゴリズムにおける最近の画期的な技術を適用します。この最適なサブセットを次のように呼びます。 “Bort” は明らかに小さく、有効 (つまり、埋め込み層を考慮しない) サイズは 5.5% です。 オリジナルの BERT 大規模アーキテクチャ、およびネット サイズの 16%。 Bort は 288 GPU 時間で事前トレーニングすることもできます。 最高パフォーマンスの BERT パラメトリック アーキテクチャ バリアントである RoBERTa-large の事前トレーニングに必要な時間の 1.2% (Liu et al., 2019)、同じマシンで BERT-large をトレーニングするのに必要な GPU 時間の世界記録の約 33% ハードウェア。また、CPU 上で 7.9 倍高速であるだけでなく、他の圧縮バージョンよりもパフォーマンスが優れています。 アーキテクチャ、および一部の非圧縮バリアント: 0.3% ~ 31% のパフォーマンス向上が得られます。 BERT-large に関して、複数の公開自然言語理解 (NLU) ベンチマークにおける絶対的な評価。
このモデルは stefan-it によって提供されました。元のコードはここにあります。
Usage tips
- BORT のモデル アーキテクチャは BERT に基づいています。詳細については、BERT のドキュメント ページ を参照してください。 モデルの API リファレンスと使用例。
- BORT は BERT トークナイザーの代わりに RoBERTa トークナイザーを使用します。トークナイザーの API リファレンスと使用例については、RoBERTa のドキュメント ページ を参照してください。
- BORT には、 Agora と呼ばれる特定の微調整アルゴリズムが必要です。 残念ながらまだオープンソース化されていません。誰かが実装しようとすると、コミュニティにとって非常に役立ちます。 BORT の微調整を機能させるためのアルゴリズム。