datasets >= 1.1.3
pytest
conllu
nltk
rouge-score
seqeval
tensorboard
evaluate >= 0.2.0