HugoLaurencon HF staff commited on
Commit
2b811ac
1 Parent(s): ea01f38

update visu for Portuguese

Browse files
Files changed (9) hide show
  1. app.py +1 -1
  2. ar.arpa.bin +3 -0
  3. ar.sp.model +3 -0
  4. flagged_words.py +12 -161
  5. pt.arpa.bin +3 -0
  6. pt.sp.model +3 -0
  7. pt_examples_with_stats.json +3 -0
  8. vi.arpa.bin +3 -0
  9. vi.sp.model +3 -0
app.py CHANGED
@@ -909,7 +909,7 @@ param_visu_langs = {
909
  "path_sentencepiece_model": f"./{lang_dataset_id}.sp.model",
910
  "path_kenlm_model": f"./{lang_dataset_id}.arpa.bin",
911
  }
912
- for lang_dataset_id in ["eu", "ca", "zh", "en", "fr", "id", "es"]
913
  }
914
 
915
  visualization = Visualization(path_instructions, param_visu_langs)
909
  "path_sentencepiece_model": f"./{lang_dataset_id}.sp.model",
910
  "path_kenlm_model": f"./{lang_dataset_id}.arpa.bin",
911
  }
912
+ for lang_dataset_id in ["eu", "ca", "zh", "en", "fr", "id", "pt", "es"]
913
  }
914
 
915
  visualization = Visualization(path_instructions, param_visu_langs)
ar.arpa.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e5ad5fe3355e9775d0045ac38ee24ef585b373c99350bc612e5bda9cbdd701fe
3
+ size 2824717990
ar.sp.model ADDED
@@ -0,0 +1,3 @@
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:281e3d75365a1801a8fe5def0b89dd0e5bb73ac0a2451be8bc5a55495760e115
3
+ size 1070890
flagged_words.py CHANGED
@@ -778,145 +778,33 @@ flagged_words = {
778
  ],
779
  "pt": english_flagged_words
780
  + [
781
- "aborto",
782
- "amador",
783
- "anal",
784
- "aparafusar",
785
- "aranha",
786
- "ariano",
787
- "arrebatar",
788
- "ass-filho da puta",
789
- "asses",
790
  "balalao",
791
- "bastardo",
792
  "bate uma",
793
- "bellend",
794
- "bestial",
795
- "bestialidade",
796
- "bicha",
797
- "bichano",
798
- "bichanos",
799
- "bichas",
800
- "biscate",
801
- "bissexual",
802
  "boceta",
803
- "bolas",
804
- "bollok",
805
- "boob",
806
  "boquete",
807
- "bosta",
808
- "braulio de borracha",
809
  "buceta",
810
- "bumbum",
811
- "bunda",
812
- "burro",
813
- "cabrao",
814
- "cacete",
815
- "cadela",
816
- "cadelas",
817
- "cagando",
818
- "cagar",
819
- "calçado",
820
- "camisinha",
821
  "caralho",
822
- "cerveja",
823
  "chochota",
824
- "chupar",
825
- "cipa",
826
- "clitoris",
827
- "clitóris",
828
- "cobiçoso",
829
- "cocaína",
830
- "cocô",
831
  "coito",
832
- "colhoes",
833
- "com tesão",
834
- "comedor de tapetes",
835
- "comer",
836
  "cona",
837
  "consolo",
838
- "coon",
839
- "coragem",
840
  "corno",
841
  "cu",
842
- "cunillingus",
843
  "dar o rabo",
844
- "desgraçado",
845
  "dildo",
846
  "dildos",
847
- "dink",
848
- "dog-filho da puta",
849
- "droga",
850
- "duche",
851
- "dum raio",
852
- "ejacula",
853
- "ejaculado",
854
- "ejacular",
855
- "ejaculação",
856
- "empacotador de fudge",
857
- "escroto",
858
- "esporra",
859
- "estuprador",
860
- "estupro",
861
- "fagging",
862
- "fanny",
863
- "fecal",
864
  "felação",
865
- "felching",
866
- "fenda",
867
  "filho da puta",
868
  "filhos da puta",
869
- "foda",
870
- "foda-se",
871
- "fode",
872
- "foder",
873
- "fodido",
874
- "frango assado",
875
- "galo",
876
- "galos",
877
  "gozada",
878
- "gozar",
879
- "grelho",
880
- "heroína",
881
- "homoerótico",
882
- "homosexual",
883
- "hore",
884
- "idiota",
885
- "idiotas",
886
- "inferno",
887
- "kock",
888
- "lolita",
889
- "luxúria",
890
- "lábios",
891
- "lésbica",
892
- "maldito",
893
- "mama",
894
- "masoquista",
895
- "masturbar",
896
- "merda",
897
- "merdas",
898
- "mesa",
899
- "mijando",
900
- "mijar",
901
- "nazista",
902
- "negro",
903
- "niggers",
904
- "não me chateies",
905
- "orgasim",
906
- "orgasmo",
907
- "orgasmos",
908
- "otário",
909
- "paneleiro",
910
- "passar um cheque",
911
- "pau",
912
- "peidar",
913
- "peitos",
914
- "peituda",
915
  "pica",
916
- "picadas",
917
- "pinto",
918
- "pisser",
919
- "porcaria",
920
  "porno",
921
  "pornografia",
922
  "pornô",
@@ -924,55 +812,18 @@ flagged_words = {
924
  "prostituta",
925
  "pube",
926
  "punheta",
927
- "puta",
928
- "puta que pariu",
929
- "puta que te pariu",
930
  "putaria",
931
- "puto",
932
- "pênis",
933
  "queca",
934
- "retardar",
935
- "reto",
936
- "rimming",
937
- "sacanagem",
938
- "saco",
939
- "saco de bola",
940
- "sangrento",
941
- "sapatona",
942
  "sexo",
943
- "shite",
944
- "skank",
945
- "smegma",
946
- "spac",
947
- "sujeira",
948
- "sádico",
949
- "sêmen",
950
- "testículo",
951
- "tetas",
952
- "titt",
953
- "torneira",
954
- "transando",
955
- "transar",
956
- "transsexual",
957
  "trepada",
958
- "vadia",
959
- "vadias",
960
- "vagabunda",
961
- "vagabundo",
962
- "vagina",
963
- "vai tomar no cu",
964
- "vai-te foder",
965
- "veado",
966
- "viagra",
967
  "vibrador",
968
- "vulva",
969
- "wang",
970
- "x avaliado",
971
  "xana",
972
- "xixi",
973
  "xochota",
974
- "xxx",
975
- "ânus",
976
  ],
977
  "ta": english_flagged_words
978
  + [
778
  ],
779
  "pt": english_flagged_words
780
  + [
 
 
 
 
 
 
 
 
 
781
  "balalao",
 
782
  "bate uma",
783
+ "beijo grego",
 
 
 
 
 
 
 
 
784
  "boceta",
 
 
 
785
  "boquete",
 
 
786
  "buceta",
 
 
 
 
 
 
 
 
 
 
 
787
  "caralho",
 
788
  "chochota",
 
 
 
 
 
 
 
789
  "coito",
 
 
 
 
790
  "cona",
791
  "consolo",
 
 
792
  "corno",
793
  "cu",
794
+ "dar a bunda",
795
  "dar o rabo",
 
796
  "dildo",
797
  "dildos",
798
+ "esporrar",
799
+ "estrovenga",
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
800
  "felação",
 
 
801
  "filho da puta",
802
  "filhos da puta",
 
 
 
 
 
 
 
 
803
  "gozada",
804
+ "jeba",
805
+ "perereca",
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
806
  "pica",
807
+ "piru",
 
 
 
808
  "porno",
809
  "pornografia",
810
  "pornô",
812
  "prostituta",
813
  "pube",
814
  "punheta",
815
+ "punheteiro",
 
 
816
  "putaria",
 
 
817
  "queca",
 
 
 
 
 
 
 
 
818
  "sexo",
819
+ "siririca",
820
+ "tesão",
 
 
 
 
 
 
 
 
 
 
 
 
821
  "trepada",
822
+ "verga",
 
 
 
 
 
 
 
 
823
  "vibrador",
 
 
 
824
  "xana",
 
825
  "xochota",
826
+ "xoxota",
 
827
  ],
828
  "ta": english_flagged_words
829
  + [
pt.arpa.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ad7241c4b11d902fa092506b731f61e5f67177897c2598b750d1a2e519be87ad
3
+ size 3220168756
pt.sp.model ADDED
@@ -0,0 +1,3 @@
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1707a7517b61ca9d4d333dabcc5ec7024e44c6466ff6faea9ccc95a0f1b2737c
3
+ size 958101
pt_examples_with_stats.json ADDED
@@ -0,0 +1,3 @@
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:72a681cc82b2a0f9e11a8fa052143f7eaad5a67d31269bbd96653715e0ff776a
3
+ size 135498651
vi.arpa.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:983460dc00aaaec7325139cd87e89e937fcf5ac0cba4b16f23241fcc52d3c0ca
3
+ size 1414396214
vi.sp.model ADDED
@@ -0,0 +1,3 @@
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b1393f7ca703337a5b94f86ddb8e17e3171fc1ca388ca035942f594e0f0d958d
3
+ size 906762