GPT-2 Medium — генерация футбольных комментариев

Дообученная GPT-2 Medium (355M) на корпусе текстовых комментариев футбольных матчей. Модель продолжает любой промпт в стиле реальной ленты событий: «Attempt missed…», «Foul by…», «Goal! …», «Substitution…».

Код, ноутбук и отчёт: https://github.com/ovelsad/gpt2-medium-football-commentary

Использование

from transformers import GPT2LMHeadModel, GPT2Tokenizer

repo = "Mook21/gpt2-medium-football-commentary"
tok = GPT2Tokenizer.from_pretrained(repo)
model = GPT2LMHeadModel.from_pretrained(repo)

inputs = tok("In the 90th minute", return_tensors="pt")
out = model.generate(**inputs, max_new_tokens=80, do_sample=True,
                     temperature=0.9, top_p=0.95, top_k=50,
                     pad_token_id=tok.eos_token_id)
print(tok.decode(out[0], skip_special_tokens=True))

Метрики (валидация)

Метрика Базовая GPT-2 Medium Эта модель
Perplexity ↓ 6.41 1.57
BLEU ↑ 0.0187 0.6323
MOS (1..5) ↑ 2.91 4.48

Данные и обучение

  • Данные: Football Events — 941 009 событий из 9074 матчей топ-5 европейских лиг (2011–2017).
  • Корпус собран по матчам (заголовок + хронология событий + <|endoftext|>), токенизирован в поток и нарезан на блоки по 256.
  • Обучение: Causal LM, 3 эпохи, batch 8 × grad_accum 4, lr 5e-5, fp16, GPU Tesla T4.

Ограничения

  • Модель генерирует события внутри матча, но не моделирует структуру матча целиком.
  • В именах с диакритикой возможны единичные артефакты кодировки исходных данных (приведены к латинской транслитерации).
Downloads last month
17
Safetensors
Model size
0.4B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Mook21/gpt2-medium-football-commentary

Finetuned
(195)
this model