Spaces:
Restarting
Restarting
import pandas as pd | |
langs_id = [ | |
{ | |
"lang": "Afrikaans", | |
"dataset_id": "af", | |
"stopwords_id": "af", | |
"flagged_words_id": None, | |
"fasttext_id": "af", | |
"sentencepiece_id": "af", | |
"kenlm_id": "af", | |
}, | |
{ | |
"lang": "Arabic", | |
"dataset_id": "ar", | |
"stopwords_id": "ar", | |
"flagged_words_id": "ar", | |
"fasttext_id": "ar", | |
"sentencepiece_id": "ar", | |
"kenlm_id": "ar", | |
}, | |
{ | |
"lang": "Egyptian Arabic", | |
"dataset_id": "arz", | |
"stopwords_id": None, | |
"flagged_words_id": None, | |
"fasttext_id": "arz", | |
"sentencepiece_id": "arz", | |
"kenlm_id": "arz", | |
}, | |
{ | |
"lang": "Assamese", | |
"dataset_id": "as", | |
"stopwords_id": None, | |
"flagged_words_id": None, | |
"fasttext_id": "as", | |
"sentencepiece_id": "as", | |
"kenlm_id": "as", | |
}, | |
{ | |
"lang": "Bengali", | |
"dataset_id": "bn", | |
"stopwords_id": "bn", | |
"flagged_words_id": None, | |
"fasttext_id": "bn", | |
"sentencepiece_id": "bn", | |
"kenlm_id": "bn", | |
}, | |
{ | |
"lang": "Catalan", | |
"dataset_id": "ca", | |
"stopwords_id": "ca", | |
"flagged_words_id": "ca", | |
"fasttext_id": "ca", | |
"sentencepiece_id": "ca", | |
"kenlm_id": "ca", | |
}, | |
{ | |
"lang": "English", | |
"dataset_id": "en", | |
"stopwords_id": "en", | |
"flagged_words_id": "en", | |
"fasttext_id": "en", | |
"sentencepiece_id": "en", | |
"kenlm_id": "en", | |
}, | |
{ | |
"lang": "Spanish", | |
"dataset_id": "es", | |
"stopwords_id": "es", | |
"flagged_words_id": "es", | |
"fasttext_id": "es", | |
"sentencepiece_id": "es", | |
"kenlm_id": "es", | |
}, | |
{ | |
"lang": "Basque", | |
"dataset_id": "eu", | |
"stopwords_id": "eu", | |
"flagged_words_id": "eu", | |
"fasttext_id": "eu", | |
"sentencepiece_id": "eu", | |
"kenlm_id": "eu", | |
}, | |
{ | |
"lang": "French", | |
"dataset_id": "fr", | |
"stopwords_id": "fr", | |
"flagged_words_id": "fr", | |
"fasttext_id": "fr", | |
"sentencepiece_id": "fr", | |
"kenlm_id": "fr", | |
}, | |
{ | |
"lang": "Gujarati", | |
"dataset_id": "gu", | |
"stopwords_id": None, | |
"flagged_words_id": None, | |
"fasttext_id": "gu", | |
"sentencepiece_id": "gu", | |
"kenlm_id": "gu", | |
}, | |
{ | |
"lang": "Hindi", | |
"dataset_id": "hi", | |
"stopwords_id": "hi", | |
"flagged_words_id": "hi", | |
"fasttext_id": "hi", | |
"sentencepiece_id": "hi", | |
"kenlm_id": "hi", | |
}, | |
{ | |
"lang": "Indonesian", | |
"dataset_id": "id", | |
"stopwords_id": "id", | |
"flagged_words_id": "id", | |
"fasttext_id": "id", | |
"sentencepiece_id": "id", | |
"kenlm_id": "id", | |
}, | |
{ | |
"lang": "Kannada", | |
"dataset_id": "kn", | |
"stopwords_id": None, | |
"flagged_words_id": "kn", | |
"fasttext_id": "kn", | |
"sentencepiece_id": "kn", | |
"kenlm_id": "kn", | |
}, | |
{ | |
"lang": "Malayalam", | |
"dataset_id": "ml", | |
"stopwords_id": None, | |
"flagged_words_id": "ml", | |
"fasttext_id": "ml", | |
"sentencepiece_id": "ml", | |
"kenlm_id": "ml", | |
}, | |
{ | |
"lang": "Marathi", | |
"dataset_id": "mr", | |
"stopwords_id": "mr", | |
"flagged_words_id": "mr", | |
"fasttext_id": "mr", | |
"sentencepiece_id": "mr", | |
"kenlm_id": "mr", | |
}, | |
{ | |
"lang": "Portuguese", | |
"dataset_id": "pt", | |
"stopwords_id": "pt", | |
"flagged_words_id": "pt", | |
"fasttext_id": "pt", | |
"sentencepiece_id": "pt", | |
"kenlm_id": "pt", | |
}, | |
{ | |
"lang": "Swahili", | |
"dataset_id": "sw", | |
"stopwords_id": "sw", | |
"flagged_words_id": None, | |
"fasttext_id": "sw", | |
"sentencepiece_id": "sw", | |
"kenlm_id": "sw", | |
}, | |
{ | |
"lang": "Tamil", | |
"dataset_id": "ta", | |
"stopwords_id": None, | |
"flagged_words_id": "ta", | |
"fasttext_id": "ta", | |
"sentencepiece_id": "ta", | |
"kenlm_id": "ta", | |
}, | |
{ | |
"lang": "Telugu", | |
"dataset_id": "te", | |
"stopwords_id": None, | |
"flagged_words_id": "te", | |
"fasttext_id": "te", | |
"sentencepiece_id": "te", | |
"kenlm_id": "te", | |
}, | |
{ | |
"lang": "Urdu", | |
"dataset_id": "ur", | |
"stopwords_id": "ur", | |
"flagged_words_id": None, | |
"fasttext_id": "ur", | |
"sentencepiece_id": "ur", | |
"kenlm_id": "ur", | |
}, | |
{ | |
"lang": "Vietnamese", | |
"dataset_id": "vi", | |
"stopwords_id": "vi", | |
"flagged_words_id": "vi", | |
"fasttext_id": "vi", | |
"sentencepiece_id": "vi", | |
"kenlm_id": "vi", | |
}, | |
{ | |
"lang": "Yoruba", | |
"dataset_id": "yo", | |
"stopwords_id": "yo", | |
"flagged_words_id": None, | |
"fasttext_id": "yo", | |
"sentencepiece_id": "yo", | |
"kenlm_id": "yo", | |
}, | |
{ | |
"lang": "Chinese", | |
"dataset_id": "zh", | |
"stopwords_id": "zh", | |
"flagged_words_id": "zh", | |
"fasttext_id": "zh", | |
"sentencepiece_id": "zh", | |
"kenlm_id": "zh", | |
}, | |
] | |
langs_id = pd.DataFrame(langs_id) | |