Transformers

Join the Hugging Face community

and get access to the augmented documentation experience

Collaborate on models, datasets and Spaces

Faster examples with accelerated inference

Switch between documentation themes

to get started

DialoGPT

Overview

DialoGPT は、DialoGPT: Large-Scale Generative Pre-training for Conversational Response Generation で Yizhe Zhang, Siqi Sun, Michel Galley, Yen-Chun Chen, Chris Brockett, Xiang Gao, Jianfeng Gao, Jingjing Liu, Bill Dolan.これは、から抽出された 147M 万の会話のようなやりとりでトレーニングされた GPT2 モデルです。レディット。

論文の要約は次のとおりです。

私たちは、大規模で調整可能なニューラル会話応答生成モデル DialoGPT (対話生成事前トレーニング済み) を紹介します。変成器）。 Reddit のコメントチェーンから抽出された 1 億 4,700 万件の会話のようなやり取りを対象にトレーニングされました。 2005 年から 2017 年にかけて、DialoGPT は人間に近いパフォーマンスを達成するために Hugging Face PyTorch トランスフォーマーを拡張しました。シングルターンダイアログ設定における自動評価と人間による評価の両方。会話システムが DialoGPT を活用すると、強力なベースラインよりも関連性が高く、内容が充実し、コンテキストに一貫性のある応答が生成されます。システム。神経反応の研究を促進するために、事前トレーニングされたモデルとトレーニングパイプラインが公開されています。よりインテリジェントなオープンドメイン対話システムの生成と開発。

元のコードはここにあります。

Usage tips

DialoGPT は絶対位置埋め込みを備えたモデルであるため、通常は入力を右側にパディングすることをお勧めします。左よりも。
DialoGPT は、会話データの因果言語モデリング (CLM) 目標に基づいてトレーニングされているため、強力ですオープンドメイン対話システムにおける応答生成時。
DialoGPT を使用すると、DialoGPT’s model card に示されているように、ユーザーはわずか 10 行のコードでチャットボットを作成できます。

トレーニング：

DialoGPT をトレーニングまたは微調整するには、因果言語モデリングトレーニングを使用できます。公式論文を引用すると： *私たちは OpenAI GPT-2に従って、マルチターン対話セッションを長いテキストとしてモデル化し、生成タスクを言語としてフレーム化しますモデリング。まず、ダイアログセッション内のすべてのダイアログターンを長いテキスト x_1,…, x_N に連結します (N は

詳細については、元の論文を参照してください。

DialoGPT のアーキテクチャは GPT2 モデルに基づいています。API リファレンスと例については、GPT2 のドキュメントページを参照してください。

Update on GitHub

←DeBERTa-v2 BEiT→