diyclassics's picture
Update spaCy pipeline
d9b7e04 verified
[
"\t",
"\n",
" ",
" ",
"\"",
"'",
"''",
"'-(",
"'-)",
"(",
"(((",
"(*>",
"(*_*)",
"(-8",
"(-:",
"(-;",
"(-_-)",
"(-d",
"(._.)",
"(:",
"(;",
"(=",
"(>_<)",
"(^_^)",
"(o:",
"(x:",
"(x_x)",
"(\u00ac_\u00ac)",
"(\u0ca0_\u0ca0)",
"(\u256f\u00b0\u25a1\u00b0\uff09\u256f\ufe35\u253b\u2501\u253b",
")",
")))",
")-:",
")/\u00af",
"):",
"*",
"-",
"-((",
"-))",
"-/",
"-0",
"-3",
"-8",
"-D",
"-O",
"-P",
"-X",
"-_-",
"-__-",
"-d",
"-o",
"-p",
"-x",
"-|",
".",
".C.",
".D.",
".N.",
"._.",
".c.",
".d.",
".n.",
"/",
"/3",
"/d",
"0",
"0.0",
"0.o",
"0_0",
"0_o",
"1",
"3",
"33",
"333",
"8",
"8)",
"8-",
"8-)",
"8-D",
"8-d",
"8D",
"8d",
":",
":'(",
":')",
":'-(",
":'-)",
":(",
":((",
":(((",
":()",
":)",
":))",
":)))",
":*",
":-(",
":-((",
":-(((",
":-)",
":-))",
":-)))",
":-*",
":-/",
":-0",
":-3",
":->",
":-D",
":-O",
":-P",
":-X",
":-]",
":-d",
":-o",
":-p",
":-x",
":-|",
":-}",
":/",
":0",
":1",
":3",
":>",
":D",
":O",
":P",
":X",
":]",
":d",
":o",
":o)",
":p",
":x",
":x)",
":|",
":}",
":\u2019(",
":\u2019)",
":\u2019-(",
":\u2019-)",
";",
";)",
";-)",
";-D",
";-X",
";-d",
";D",
";X",
";_;",
";d",
"<",
"<.<",
"</3",
"</d",
"<3",
"<33",
"<333",
"<d",
"<dd",
"<ddd",
"<space>",
"<xxxx>",
"=",
"=(",
"=)",
"=/",
"=3",
"=D",
"=X",
"=[",
"=]",
"=d",
"=|",
">",
">.<",
">.>",
">:(",
">:o",
">:x",
"><(((*>",
"@",
"@_@",
"A",
"A.",
"A.D.",
"A.U.C.",
"AA",
"AA.",
"AAA",
"AAA.",
"ACC",
"ACC.",
"AES",
"AGR",
"AGR.",
"AI.",
"AL.",
"AM.",
"AN.",
"AP",
"AP.",
"APR",
"APR.",
"APRIL",
"APRIL.",
"AR.",
"ART",
"AT.",
"AUG",
"AUG.",
"AUL",
"Aa",
"Aa.",
"Aaa",
"Aaa.",
"Acc",
"Acc.",
"Agr",
"Agr.",
"Ap",
"Ap.",
"Apr",
"Apr.",
"April",
"April.",
"Aug",
"Aug.",
"BR.",
"C",
"C++",
"C.",
"CAES",
"CAES.",
"CAESS",
"CAESS.",
"CC",
"CC.",
"CN",
"CN.",
"COLL",
"COLL.",
"CONS",
"CONS.",
"CONSS",
"CONSS.",
"COS",
"COS.",
"COSS",
"COSS.",
"CR.",
"CT.",
"Caes",
"Caes.",
"Caess",
"Caess.",
"Cc",
"Cc.",
"Cn",
"Cn.",
"Coll",
"Coll.",
"Cons",
"Cons.",
"Conss",
"Conss.",
"Cos",
"Cos.",
"Coss",
"Coss.",
"D",
"D.",
"D.N.",
"DAT",
"DAT.",
"DD",
"DD.",
"DEC",
"DEC.",
"DECEMB",
"DECEMB.",
"DECEMBR",
"DECEMBR.",
"Dat",
"Dat.",
"Dd",
"Dd.",
"Dec",
"Dec.",
"Decemb",
"Decemb.",
"Decembr",
"Decembr.",
"EB.",
"EBR",
"EC.",
"ED.",
"EMB",
"EPT",
"ER.",
"ERT",
"ES.",
"ESS",
"ET.",
"EX.",
"EXT",
"F",
"F.",
"FEB",
"FEB.",
"FEBR",
"FEBR.",
"FEBRUAR",
"FEBRUAR.",
"FF.",
"Feb",
"Feb.",
"Febr",
"Febr.",
"Februar",
"Februar.",
"GR.",
"I",
"IAN",
"IAN.",
"IB.",
"ID.",
"IL.",
"IMP",
"IMP.",
"IMPP",
"IMPP.",
"IMPPP",
"IMPPP.",
"INT",
"IUL",
"IUL.",
"IUN",
"IUN.",
"Ian",
"Ian.",
"Id",
"Id.",
"Imp",
"Imp.",
"Impp",
"Impp.",
"Imppp",
"Imppp.",
"Iul",
"Iul.",
"Iun",
"Iun.",
"K",
"K.",
"KAL",
"KAL.",
"Kal",
"Kal.",
"L",
"L.",
"LL.",
"LUR",
"M",
"M'.",
"M.",
"MAI",
"MAI.",
"MAM",
"MAM.",
"MAR",
"MAR.",
"MART",
"MART.",
"MB.",
"MBR",
"MED",
"MED.",
"MP.",
"MPP",
"Mai",
"Mai.",
"Mam",
"Mam.",
"Mar",
"Mar.",
"Mart",
"Mart.",
"Med",
"Med.",
"M\u2019.",
"N",
"N.",
"NN",
"NN.",
"NOB",
"NOB.",
"NON",
"NON.",
"NOU",
"NOU.",
"NOUEMB",
"NOUEMB.",
"NOV",
"NOV.",
"NOVEMB",
"NOVEMB.",
"NS.",
"NSS",
"NT.",
"Nn",
"Nn.",
"Nob",
"Nob.",
"Non",
"Non.",
"Nou",
"Nou.",
"Nouemb",
"Nouemb.",
"Nov",
"Nov.",
"Novemb",
"Novemb.",
"O",
"O.O",
"O.o",
"OB.",
"OCT",
"OCT.",
"OCTOB",
"OCTOB.",
"OL.",
"OLL",
"ON.",
"ONS",
"OP.",
"OPET",
"OPET.",
"ORD",
"ORD.",
"OS.",
"OSS",
"OST",
"OU.",
"OV.",
"O_O",
"O_o",
"Oct",
"Oct.",
"Octob",
"Octob.",
"Opet",
"Opet.",
"Ord",
"Ord.",
"P",
"P.",
"PAUL",
"PAUL.",
"PET",
"PF",
"PF.",
"PL",
"PL.",
"PLUR",
"PLUR.",
"POST",
"POST.",
"PP",
"PP.",
"PPP",
"PR.",
"PRID",
"PRID.",
"PRO",
"PRO.",
"PROCOS",
"PROCOS.",
"PT.",
"Paul",
"Paul.",
"Pf",
"Pf.",
"Pl",
"Pl.",
"Plur",
"Plur.",
"Post",
"Post.",
"Pp",
"Pp.",
"Prid",
"Prid.",
"Pro",
"Pro.",
"Procos",
"Procos.",
"Q",
"Q.",
"QUINT",
"QUINT.",
"Quint",
"Quint.",
"RD.",
"RIB",
"RID",
"RIL",
"RO.",
"RT.",
"S",
"S.",
"S.C.",
"SCR",
"SCR.",
"SEPT",
"SEPT.",
"SEPTEMB",
"SEPTEMB.",
"SER",
"SER.",
"SERT",
"SERT.",
"SEX",
"SEX.",
"SEXT",
"SEXT.",
"SS.",
"ST",
"ST.",
"STA",
"STA.",
"SUFF",
"SUFF.",
"Scr",
"Scr.",
"Sept",
"Sept.",
"Septemb",
"Septemb.",
"Ser",
"Ser.",
"Sert",
"Sert.",
"Sex",
"Sex.",
"Sext",
"Sext.",
"St",
"St.",
"Sta",
"Sta.",
"Suff",
"Suff.",
"T",
"T.",
"TA.",
"TI",
"TI.",
"TOB",
"TRIB",
"TRIB.",
"Ti",
"Ti.",
"Trib",
"Trib.",
"U",
"U.",
"UAR",
"UFF",
"UG.",
"UL.",
"UN.",
"UOL",
"UOL.",
"UOP",
"UOP.",
"UR.",
"UU",
"UU.",
"Uol",
"Uol.",
"Uop",
"Uop.",
"Uu",
"Uu.",
"V",
"V.",
"V.V",
"VOL",
"VOL.",
"VOP",
"VOP.",
"VV",
"VV.",
"V_V",
"Vol",
"Vol.",
"Vop",
"Vop.",
"Vv",
"Vv.",
"X'.",
"X++",
"X.",
"X.X",
"X.X.",
"X.X.X.",
"X.x",
"XD",
"XDD",
"XT.",
"XX",
"XX.",
"XXX",
"XXX.",
"XXXX",
"XXXX.",
"X_X",
"X_x",
"Xx",
"Xx.",
"Xxx",
"Xxx.",
"Xxxx",
"Xxxx.",
"Xxxxx",
"Xxxxx.",
"X\u2019.",
"[",
"[-:",
"[:",
"[=",
"\\",
"\\\")",
"\\n",
"\\t",
"\\x",
"]",
"]=",
"^",
"^_^",
"^__^",
"^___^",
"_*)",
"_-)",
"_.)",
"_<)",
"_^)",
"__-",
"__^",
"_\u00ac)",
"_\u0ca0)",
"a",
"a.",
"a.d",
"a.d.",
"a.u.c",
"a.u.c.",
"aa",
"aa.",
"aaa",
"aaa.",
"acc",
"acc.",
"ace",
"aes",
"agr",
"agr.",
"ai.",
"al.",
"am.",
"an.",
"ap",
"ap.",
"apr",
"apr.",
"april",
"april.",
"ar.",
"art",
"at.",
"aug",
"aug.",
"aul",
"b",
"b.",
"bis",
"br.",
"c",
"c++",
"c.",
"caes",
"caes.",
"caess",
"caess.",
"cc.",
"ce>",
"cn",
"cn.",
"coll",
"coll.",
"cons",
"cons.",
"conss",
"conss.",
"cos",
"cos.",
"coss",
"coss.",
"cr.",
"ct.",
"cum",
"d",
"d)",
"d-",
"d-)",
"d-X",
"d.",
"d.N.",
"d.d",
"d.n",
"d.n.",
"d.x",
"dX",
"d_d",
"d_x",
"dat",
"dat.",
"dd",
"dd.",
"ddd",
"dec",
"dec.",
"decemb",
"decemb.",
"decembr",
"decembr.",
"e",
"e.",
"eb.",
"ebr",
"ec.",
"ed.",
"emb",
"ept",
"er.",
"ert",
"es.",
"ess",
"et.",
"ex.",
"ext",
"f",
"f.",
"feb",
"feb.",
"febr",
"febr.",
"februar",
"februar.",
"ff.",
"g",
"g.",
"gr.",
"h",
"h.",
"i",
"i.",
"ian",
"ian.",
"ib.",
"id",
"id.",
"il.",
"imp",
"imp.",
"impp",
"impp.",
"imppp",
"imppp.",
"int",
"iul",
"iul.",
"iun",
"iun.",
"j",
"j.",
"k",
"k.",
"kal",
"kal.",
"l",
"l.",
"la",
"ll.",
"lur",
"m",
"m'.",
"m.",
"mai",
"mai.",
"mam",
"mam.",
"mar",
"mar.",
"mart",
"mart.",
"mb.",
"mbr",
"me",
"med",
"med.",
"mp.",
"mpp",
"m\u2019.",
"n",
"n.",
"nn.",
"nob",
"nob.",
"nobis",
"non",
"non.",
"nou",
"nou.",
"nouemb",
"nouemb.",
"nov",
"nov.",
"novemb",
"novemb.",
"ns.",
"nss",
"nt.",
"o",
"o.",
"o.0",
"o.O",
"o.o",
"o_0",
"o_O",
"o_o",
"ob.",
"oct",
"oct.",
"octob",
"octob.",
"ol.",
"oll",
"on.",
"ons",
"op.",
"opet",
"opet.",
"ord",
"ord.",
"os.",
"oss",
"ost",
"ou.",
"ov.",
"p",
"p.",
"paul",
"paul.",
"pet",
"pf",
"pf.",
"pl",
"pl.",
"plur",
"plur.",
"post",
"post.",
"pp",
"pp.",
"ppp",
"pr.",
"prid",
"prid.",
"pro",
"pro.",
"procos",
"procos.",
"pt.",
"q",
"q.",
"quint",
"quint.",
"r",
"r.",
"rd.",
"rib",
"rid",
"ril",
"ro.",
"rt.",
"s",
"s.",
"s.c",
"s.c.",
"scr",
"scr.",
"sept",
"sept.",
"septemb",
"septemb.",
"ser",
"ser.",
"sert",
"sert.",
"sex",
"sex.",
"sext",
"sext.",
"space",
"ss.",
"st",
"st.",
"sta",
"sta.",
"suff",
"suff.",
"t",
"t.",
"ta.",
"te",
"ti",
"ti.",
"tob",
"trib",
"trib.",
"u",
"u.",
"u.c",
"uar",
"uff",
"ug.",
"ul.",
"un.",
"uobis",
"uol",
"uol.",
"uop",
"uop.",
"ur.",
"uu",
"uu.",
"v",
"v.",
"v.v",
"v_v",
"vobis",
"vol",
"vol.",
"vop",
"vop.",
"vv",
"vv.",
"w",
"w.",
"x",
"x'.",
"x.",
"x.X",
"x.X.",
"x.d",
"x.x",
"x.x.",
"x.x.x",
"x.x.x.",
"xD",
"xDD",
"xX",
"xXX",
"x_X",
"x_d",
"x_x",
"xd",
"xdd",
"xt.",
"xx",
"xx.",
"xxx",
"xxx.",
"xxxx",
"xxxx.",
"x\u2019.",
"x\ufe35x",
"y",
"y.",
"z",
"z.",
"|",
"}",
"\u00a0",
"\u00ac",
"\u00ac_\u00ac",
"\u00af",
"\u00af\\(x)/\u00af",
"\u00af\\(\u30c4)/\u00af",
"\u00b0",
"\u00b0C.",
"\u00b0F.",
"\u00b0K.",
"\u00b0X.",
"\u00b0c.",
"\u00b0f.",
"\u00b0k.",
"\u00b0x.",
"\u00e4",
"\u00e4.",
"\u00f6",
"\u00f6.",
"\u00fc",
"\u00fc.",
"\u0ca0",
"\u0ca0_\u0ca0",
"\u0ca0\ufe35\u0ca0",
"\u2014",
"\u2019",
"\u2019-(",
"\u2019-)",
"\u2019\u2019",
"\u2501",
"\u253b",
"\u253b\u2501\u253b",
"\u256f",
"\u25a1",
"\ufe35",
"\uff09"
]