Nonsensical output?

#6
by saattrupdan - opened

I loaded the model with the sharded tag (PyTorch, before the Safetensors PR got merged in), for the purpose of evaluating it with ScandEval, and it's scoring basically random - so I'm guessing I'm using the model wrongly?

I also tried your online demo with the prompt:

Liste over de beste fotballagene i verden:\n\n1.

and it just outputted

??????????????????????????????????????????????????????????????????? 2.?????????????????????????????????????????????????????????????????????????????????????? 3.

So I'm a bit confused - how do you (successfully) use this model?

Case 2, also in your demo, this one from the NoReC corpus:

Input:

Følgende er anmeldelser og deres sentiment, som kan være 'positiv', 'nøytral' eller 'negativ'.

Anmeldelse: Hun er i det hele tatt en jevnt over menigsløs følgesvenn som fungerer til lite annet enn mottager av de platte kommentarene til Bryce .
Sentiment: negativ

Anmeldelse: I løpet av testperioden er dette en påstand som langt på vei later til å holde mål .
Sentiment: positiv

Anmeldelse: R&Boring
Sentiment: negativ

Anmeldelse: Ikke bare fordi de lar instrumentene rullere medlemmene mellom , men fordi de også har en stil og innlevelse som fenger og fanger .
Sentiment:

Output:

Følgende er anmeldelser og deres sentiment, som kan være 'positiv', 'nøytral' eller 'negativ'.

Anmeldelse: Hun er i det hele tatt en jevnt over menigsløs følgesvenn som fungerer til lite annet enn mottager av de platte kommentarene til Bryce . Sentiment: negativ>

Anmeldelse: I løpet av testperioden er dette en påstand som langt på vei later til å holde mål . Sentiment: positiv>

Anmeldelse: R&Boring Sentiment: negativ

Anmeldelse: Ikke bare fordi de lar instrumentene rullere medlemmene mellom , men fordi de også har en stil og innlevelse som fenger og fanger .

I.e., it just outputs the same as the input, but with some of the newlines collapsed and where without the last "Sentiment" is removed. No sentiment given to the last review.

Nasjonalbiblioteket AI Lab org

Hi,

The model is now by all means outdated and has seen quite a lot of noisy data, so today's default parameters for generation might not just work out of the box. For example, see the difference between changing temperature and the number of beams:

In [3]: pipe("Liste over de beste fotballagene i verden:\n\n1.")
Out[3]: [{'generated_text': "Liste over de beste fotballagene i verden:\n\n1. R U C M B E L L' - R U C M B E L L 1. F A R A G O L I S K A"}]

In [4]: pipe("Liste over de beste fotballagene i verden:\n\n1.")
Out[4]: [{'generated_text': 'Liste over de beste fotballagene i verden:\n\n1. Real Madrid - 87 o 2. Monaco - 86 o 3. Bayern München - 84 o 4. Barcelona - 83 o 5. Juventus - Buddy'}]

In [5]: pipe("Liste over de beste fotballagene i verden:\n\n1.")
Out[5]: [{'generated_text': 'Liste over de beste fotballagene i verden:\n\n1. Frankrike 2. Tyskland 3. Spania 4. Brasil 5.England 6. England 7. Italia 8. Portugal 9.'}]

In [6]: pipe("Liste over de beste fotballagene i verden:\n\n1.")
Out[6]: [{'generated_text': 'Liste over de beste fotballagene i verden:\n\n1. Norge = Best, ingen sjanser for nedrykk. Kultur forsvinner over natten? – Er lyden av'}]

And now setting non default values for temperature and num_beams:

In [7]: pipe("Liste over de beste fotballagene i verden:\n\n1.", temperature=0.9)
Out[7]: [{'generated_text': 'Liste over de beste fotballagene i verden:\n\n1. Barcelona 2. Manchester United 3. AC Milan 4. Real Madrid 5.'}]

In [8]: pipe("Liste over de beste fotballagene i verden:\n\n1.", temperature=0.9, num_beams=3)
Out[8]: [{'generated_text': 'Liste over de beste fotballagene i verden:\n\n1. Real Madrid 2. Barcelona 3. Manchester United 4. Juventus 5. AC Milan 6. Inter 7. Bayern München 8. Arsenal 9. Valencia'}]

Morever, in your second example, that's data the model has hardly ever seen, as those would conform better to instruction tuning sets. You might have better luck with the Alpaca version of it (albeit limited).
Output untuned (with max_new_tokens=10):

Følgende er anmeldelser og deres sentiment, som kan være 'positiv', 'nøytral' eller 'negativ'.

    Anmeldelse: Hun er i det hele tatt en jevnt over menigsløs følgesvenn som fungerer til lite annet enn mottager av de platte kommentarene til Bryce .
    Sentiment: negativ

    Anmeldelse: I løpet av testperioden er dette en påstand som langt på vei later til å holde mål .
    Sentiment: positiv

    Anmeldelse: R&Boring
    Sentiment: negativ

    Anmeldelse: Ikke bare fordi de lar instrumentene rullere medlemmene mellom , men fordi de også har en stil og innlevelse som fenger og fanger .
    Sentiment: ikke noen "wow"-komment

And with the Alpaca tuned:

### Instruksjon:

Følgende er anmeldelser og deres sentiment, som kan være 'positiv', 'nøytral' eller 'negativ'.

    Anmeldelse: Hun er i det hele tatt en jevnt over menigsløs følgesvenn som fungerer til lite annet enn mottager av de platte kommentarene til Bryce .
    Sentiment: negativ

    Anmeldelse: I løpet av testperioden er dette en påstand som langt på vei later til å holde mål .
    Sentiment: positiv

    Anmeldelse: R&Boring
    Sentiment: negativ

    Anmeldelse: Ikke bare fordi de lar instrumentene rullere medlemmene mellom , men fordi de også har en stil og innlevelse som fenger og fanger .
    Sentiment: 
### Respons:
Positive
Nasjonalbiblioteket AI Lab org
This comment has been hidden

Sign up or log in to comment