Why is it extracting a summary from longer texts?

#12
by martincpt - opened

I tried this model locally, but every time I give a longer text, it does not translate sentences one to one like Google Translate does, but translates an extracted summary instead.

For example:

m4t_predict "A magyar válogatott Kerkez Milos csapata, a Bournemouth 3–2-re nyert a walesi Swansea City vendégeként az angol labdarúgó Ligakupa második fordulójának keddi játéknapján.\n\n Az angol másodosztályban szereplő Swansea otthonában Kerkez a szünetben lépett pályára csereként. Egygólos győzelmével csapata a legjobb 32 közé került. \n\n Fotó: Getty Images Kerkez Milos \n\n Hegyi Krisztián végigvédte a Stevenage mérkőzését az ugyancsak harmadosztályú Exeter otthonában. A rendes játékidő 1–1-re végződött, a tizenegyespárbajt pedig a hazaiak nyerték 5–4-re, vagyis a West Ham Unitedtől idén nyáron kölcsönvett Hegyi együttese kiesett. \n\n A játéknap többi mérkőzésén a két élvonalbeli csapat, a Fulham és Tottenham csatájából előbbi került ki győztesen tizenegyespárbajt követően. Ange Postecoglu együttese ennek értelmében a Ligakupa korai szakaszában búcsúzott a sorozattól." t2tt eng --src_lang hun
2023-08-30 13:34:28,734 INFO -- m4t_scripts.predict.predict: Running inference on the CPU in torch.float32.
Using the cached checkpoint of the model 'seamlessM4T_large'. Set `force=True` to download again.
Using the cached tokenizer of the model 'seamlessM4T_large'. Set `force=True` to download again.
Using the cached checkpoint of the model 'vocoder_36langs'. Set `force=True` to download again.
2023-08-30 13:36:11,234 INFO -- m4t_scripts.predict.predict: Translated text in eng: Kerkez Milos's Hungarian team, Bournemouth, beat Swansea City 3-2 on Tuesday's second round of the English Football League Cup. Kerkez Milos came on as a substitute at Swansea's home ground in the English second division. With a one-goal victory, his team entered the round of 32.

Original hungarian text:

A magyar válogatott Kerkez Milos csapata, a Bournemouth 3–2-re nyert a walesi Swansea City vendégeként az angol labdarúgó Ligakupa második fordulójának keddi játéknapján.

Az angol másodosztályban szereplő Swansea otthonában Kerkez a szünetben lépett pályára csereként. Egygólos győzelmével csapata a legjobb 32 közé került.

Fotó: Getty Images Kerkez Milos

Hegyi Krisztián végigvédte a Stevenage mérkőzését az ugyancsak harmadosztályú Exeter otthonában. A rendes játékidő 1–1-re végződött, a tizenegyespárbajt pedig a hazaiak nyerték 5–4-re, vagyis a West Ham Unitedtől idén nyáron kölcsönvett Hegyi együttese kiesett.

A játéknap többi mérkőzésén a két élvonalbeli csapat, a Fulham és Tottenham csatájából előbbi került ki győztesen tizenegyespárbajt követően. Ange Postecoglu együttese ennek értelmében a Ligakupa korai szakaszában búcsúzott a sorozattól.

Translated english text:

Kerkez Milos's Hungarian team, Bournemouth, beat Swansea City 3-2 on Tuesday's second round of the English Football League Cup. Kerkez Milos came on as a substitute at Swansea's home ground in the English second division. With a one-goal victory, his team entered the round of 32.

Why behaves like this? Is there any way to get around this and get the "classic" way of translating?

AI at Meta org

The model behaves like this, because it was trained with single-sentence inputs and outputs. Thus, it is not supposed to accurately translate multiple-sentence texts.

Thus, to get the "classic" way of translating, you need to split the source text into sentences, translate them independently from each other, and concatenate the translations into the resulting text.

Please also see a related issue on Github: https://github.com/facebookresearch/seamless_communication/issues/174

Sign up or log in to comment