Spaces:

bettystr
/

NerRoB-czech

Sleeping

App Files Files Community

AlzbetaStrompova commited on May 5

Commit

7e6964a

•

0 Parent(s):

Initial commit

Browse files

Files changed (13) hide show

.gitattributes +35 -0
.gitignore +162 -0
README.md +13 -0
app.py +23 -0
data_manipulation/create_gazetteers.py +218 -0
data_manipulation/dataset_funcions.py +458 -0
data_manipulation/preprocess_gazetteers.py +54 -0
extended_embeddings/__init__.py +0 -0
extended_embeddings/extended_embeddings_model.py +191 -0
extended_embeddings/token_classification.py +95 -0
gazz2.json +0 -0
upload_model.ipynb +3150 -0
website_script.py +47 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

.gitignore ADDED Viewed

	@@ -0,0 +1,162 @@

+.ruff_cache
+.idea
+# Byte-compiled / optimized / DLL files
+__pycache__/
+*.py[cod]
+*$py.class
+# C extensions
+*.so
+# Distribution / packaging
+.Python
+build/
+develop-eggs/
+dist/
+downloads/
+eggs/
+.eggs/
+lib/
+lib64/
+parts/
+sdist/
+var/
+wheels/
+share/python-wheels/
+*.egg-info/
+.installed.cfg
+*.egg
+MANIFEST
+# PyInstaller
+#  Usually these files are written by a python script from a template
+#  before PyInstaller builds the exe, so as to inject date/other infos into it.
+*.manifest
+*.spec
+# Installer logs
+pip-log.txt
+pip-delete-this-directory.txt
+# Unit test / coverage reports
+htmlcov/
+.tox/
+.nox/
+.coverage
+.coverage.*
+.cache
+nosetests.xml
+coverage.xml
+*.cover
+*.py,cover
+.hypothesis/
+.pytest_cache/
+cover/
+# Translations
+*.mo
+*.pot
+# Django stuff:
+*.log
+local_settings.py
+db.sqlite3
+db.sqlite3-journal
+# Flask stuff:
+instance/
+.webassets-cache
+# Scrapy stuff:
+.scrapy
+# Sphinx documentation
+docs/_build/
+# PyBuilder
+.pybuilder/
+target/
+# Jupyter Notebook
+.ipynb_checkpoints
+# IPython
+profile_default/
+ipython_config.py
+# pyenv
+#   For a library or package, you might want to ignore these files since the code is
+#   intended to run in multiple environments; otherwise, check them in:
+# .python-version
+# pipenv
+#   According to pypa/pipenv#598, it is recommended to include Pipfile.lock in version control.
+#   However, in case of collaboration, if having platform-specific dependencies or dependencies
+#   having no cross-platform support, pipenv may install dependencies that don't work, or not
+#   install all needed dependencies.
+#Pipfile.lock
+# poetry
+#   Similar to Pipfile.lock, it is generally recommended to include poetry.lock in version control.
+#   This is especially recommended for binary packages to ensure reproducibility, and is more
+#   commonly ignored for libraries.
+#   https://python-poetry.org/docs/basic-usage/#commit-your-poetrylock-file-to-version-control
+#poetry.lock
+# pdm
+#   Similar to Pipfile.lock, it is generally recommended to include pdm.lock in version control.
+#pdm.lock
+#   pdm stores project-wide configurations in .pdm.toml, but it is recommended to not include it
+#   in version control.
+#   https://pdm.fming.dev/#use-with-ide
+.pdm.toml
+# PEP 582; used by e.g. github.com/David-OConnor/pyflow and github.com/pdm-project/pdm
+__pypackages__/
+# Celery stuff
+celerybeat-schedule
+celerybeat.pid
+# SageMath parsed files
+*.sage.py
+# Environments
+.env
+.venv
+env/
+venv/
+ENV/
+env.bak/
+venv.bak/
+# Spyder project settings
+.spyderproject
+.spyproject
+# Rope project settings
+.ropeproject
+# mkdocs documentation
+/site
+# mypy
+.mypy_cache/
+.dmypy.json
+dmypy.json
+# Pyre type checker
+.pyre/
+# pytype static type analyzer
+.pytype/
+# Cython debug symbols
+cython_debug/
+# PyCharm
+#  JetBrains specific template is maintained in a separate JetBrains.gitignore that can
+#  be found at https://github.com/github/gitignore/blob/main/Global/JetBrains.gitignore
+#  and can be added to the global gitignore or merged into this file.  For a more nuclear
+#  option (not recommended) you can uncomment the following to ignore the entire idea folder.
+#.idea/

README.md ADDED Viewed

	@@ -0,0 +1,13 @@

+---
+title: NerRoB Czech
+emoji: 🌖
+colorFrom: purple
+colorTo: purple
+sdk: gradio
+sdk_version: 4.29.0
+app_file: app.py
+pinned: false
+license: apache-2.0
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py ADDED Viewed

	@@ -0,0 +1,23 @@

+import gradio as gr
+from website_script import load, run
+print("Loading model")
+tokenizer, model, gazetteers_for_matching = load()
+print("Loaded model")
+examples = [
+    "Masarykova univerzita",
+]
+def ner(text):
+    result = run(tokenizer, model, gazetteers_for_matching, text)
+    return result
+demo = gr.Interface(ner,
+             gr.Textbox(placeholder="Enter sentence here..."),
+             "textbox",
+             #gr.HighlightedText(), # TODO https://www.gradio.app/guides/named-entity-recognition
+             examples=examples)
+if __name__ == "__main__":
+    demo.launch()

data_manipulation/create_gazetteers.py ADDED Viewed

	@@ -0,0 +1,218 @@

+import os
+import pickle
+import itertools
+import pandas as pd
+from names_dataset import NameDataset
+def load_gazetteers(path):
+    """
+    Load gazetteers from a file
+    :param path: path to the gazetteer file
+    :return: a dict of gazetteers
+    """
+    with open(path, 'rb') as f:
+        gazetteers = pickle.load(f)
+    return gazetteers
+def save_gazetteers(gazetteers, path):
+    """
+    Save gazetteers to a file
+    :param path: path to the gazetteer file
+    :param gazetteers: a dict of gazetteers
+    """
+    with open(path, 'wb') as f:
+        pickle.dump(gazetteers, f)
+def load_gazetteers_from_paper(path="/home/xstromp/dp/data/gazetteers_data/paper/Locations.Cities.Europe"):
+    """
+    Load gazetteers from the paper
+    :param path: path to the gazetteer file
+    :return: a dict of gazetteers
+    """
+    with open(path, 'r') as f:
+        gazetteers = f.readlines()
+    gazetteers = {gazetteer.strip() for gazetteer in gazetteers}
+    return gazetteers
+def merge_gazetteers(*gazetteers):
+    # Initialize a new dictionary to store merged results
+    merged_gazetteers = {}
+    # Iterate over each dictionary provided
+    for gaz in gazetteers:
+        # Iterate over each key and set in the current dictionary
+        for key, value_set in gaz.items():
+            if key in merged_gazetteers:
+                # If the key already exists in the result, union the sets
+                merged_gazetteers[key] |= value_set
+            else:
+                # Otherwise, initialize the key with the set from the current dictionary
+                merged_gazetteers[key] = value_set.copy()  # Use copy to avoid mutating the original sets
+    return merged_gazetteers
+####################################################################################################
+### GENERATED LISTS ################################################################################
+####################################################################################################
+nationalities = [
+    "Čech", "Češka", "Češi",
+    "Slovák", "Slovenka", "Slováci",
+    "Němec", "Němka", "Němci",
+    "Polák", "Polka", "Poláci",
+    "Maďar", "Maďarka", "Maďaři",
+    "Rakušan", "Rakušanka", "Rakušané",
+    "Ukrajinec", "Ukrajinka", "Ukrajinci",
+    "Rus", "Ruska", "Rusové",
+    "Angličan", "Angličanka", "Angličané",
+    "Američan", "Američanka", "Američané",
+    "Francouz", "Francouzka", "Francouzi",
+    "Ital", "Italka", "Italové",
+    "Španěl", "Španělka", "Španělé",
+    "Portugalec", "Portugalka", "Portugalci",
+    "Řek", "Řekyně", "Řekové",
+    "Bulhar", "Bulharka", "Bulhaři",
+    "Rumun", "Rumunka", "Rumuni",
+    "Belgičan", "Belgičanka", "Belgičané",
+    "Holanďan", "Holanďanka", "Holandci",
+    "Švýcar", "Švýcarka", "Švýcaři",
+    "Slovinec", "Slovinka", "Slovinci",
+    "Chorvat", "Chorvatka", "Chorvaté",
+    "Srb", "Srbka", "Srbové",
+    "Bosňák", "Bosňačka", "Bosňáci",
+    "Černohorec", "Černohorka", "Černohorci",
+    "Makedonec", "Makedonka", "Makedonci",
+    "Albánec", "Albánka", "Albánci",
+    "Turek", "Turkyně", "Turci",
+    "Kanaďan", "Kanaďanka", "Kanaďané",
+    "Mexičan", "Mexičanka", "Mexičané",
+    "Brazilec", "Brazilka", "Brazilci",
+    "Argentinc", "Argentinka", "Argentinci",
+    "Chilan", "Chilanka", "Chilané",
+    "Australan", "Australanka", "Australané",
+    "Novozélanďan", "Novozélanďanka", "Novozélanďané",
+    "Číňan", "Číňanka", "Číňané",
+    "Japonec", "Japonka", "Japonci",
+    "Korejec", "Korejka", "Korejci",
+    "Vietnamec", "Vietnamka", "Vietnamci",
+    "Ind", "Indka", "Indové",
+    "Pákistánec", "Pákistánka", "Pákistánci",
+    "Iráčan", "Iráčanka", "Iráčané",
+    "Íránec", "Íránka", "Íránci",
+    "Syřan", "Syřanka", "Syrští",
+    "Izraelan", "Izraelanka", "Izraelci",
+    "Egyptan", "Egyptanka", "Egyptané",
+    "Súdánec", "Súdánka", "Súdánci",
+    "Maročan", "Maročanka", "Maročané",
+    "Alžířan", "Alžírka", "Alžířané",
+    "Libanonec", "Libanonka", "Libanonci",
+    "Jordánec", "Jordánka", "Jordánci",
+    "Kuvajťan", "Kuvajťanka", "Kuvajťané"
+]
+titles = "Bc., BcA., Ing., Ing. arch., MgA., Mgr., MBA, Ph.D., JuDr., PhDr., Th.D., MuDr., RNDr., MVDr., PharmDr., DrSc., MVDR., MDDr., CSc, DRSc., doc., RNDr., prof., PhMr., Akad. Mal., Bc. et Bc., Mgr. et Mgr.".split(", ")
+relig_myth = ["Bůh", "Ježíš Kristus", "Mojžíš", "Muhammad", "Buddha", "Krishna", "Thor", "Zeus",
+              "Odin", "Héraklés", "Anubis", "Osiris", "Izida", "Shiva", "Vishnu", "Ganesha",
+              "Athena", "Apolón", "Héra", "Artemis", "Dionýsos", "Quetzalcoatl", "Tezcatlipoca",
+              "Amaterasu", "Izanagi", "Izanami", "Freya", "Loki", "Baldur", "Saraswati", "Lakshmi",
+              "Hanuman", "Rama", "Sita", "Parvati", "Durga", "Kali", "Tara", "Vajrapani",
+              "Maitreya", "Avalokiteśvara"]
+####################################################################################################
+### WIKIANN GAZETTEERS #############################################################################
+####################################################################################################
+def determine_category(line):
+    categories = ["PER", "LOC", "ORG"]
+    for category in categories:
+        if category in line:
+            return category
+    return ""
+def load_document(file_name):
+    with open(file_name, 'r') as file:
+        lines = file.readlines()
+    categories = {"LOC": set(), "PER": set(), "ORG": set()}
+    current_text, current_category = "", ""
+    for line in lines:
+        category = determine_category(line)
+        if not category:
+            continue
+        parts = line.strip().split("\t")
+        tag, word = parts[1], parts[0].split(":")[1]
+        if tag.startswith("B-"):
+            if current_category:
+                categories[current_category].add(current_text.strip())
+            current_category = category
+            current_text = word
+        elif tag.startswith("I-") and current_category == category:
+            current_text += " " + word
+        else:
+            if current_category:
+                categories[current_category].add(current_text.strip())
+            current_category, current_text = "", ""
+    if current_category:
+        categories[current_category].add(current_text.strip())
+    return categories
+def load_gazetteers_from_wikiann(path="/home/xstromp/dp/data/wikiann/cs"):
+    gazetteers = {"LOC": set(), "PER": set(), "ORG": set()}
+    for data_split in ['train', 'extra', 'dev']:
+        additional_data = load_document(os.path.join(path, data_split))
+        for key, values in additional_data.items():
+            gazetteers[key].update(values)
+    return gazetteers
+####################################################################################################
+### GENERATION OF GAZETTEERS TO EXPAND TRAIN DATASET ###############################################
+####################################################################################################
+def get_complex_person():
+    pass
+####################################################################################################
+### GENERATION OF GAZETTEERS TO FIND MATCH FOR EXTENDED EMBEDDINGS #################################
+####################################################################################################
+def get_persons():
+    nd = NameDataset()
+    per = set()
+    # first names
+    first  = nd.get_top_names(n=10000, country_alpha2='CZ')
+    per.update(first["CZ"]["M"])
+    per.update(first["CZ"]["F"])
+    # surnames
+    surnames = nd.get_top_names(n=10000, use_first_names=False, country_alpha2='CZ')
+    per.update(surnames["CZ"])
+    # titles
+    per.update(titles)
+    # nationalities
+    per.update(nationalities)
+    return per
+def get_locations():
+    df = pd.read_csv("/home/xstromp/dp/data/gazetteers_data/LOC/world-data-2023.csv")
+    loc = {country for country in df['Country'].tolist()}
+    loc.update(["Asie", "Afrika", "Severní Amerika", "Jižní Amerika", "Antarktida", "Evropa", "Austrálie"])
+    with open("/home/xstromp/dp/data/gazetteers_data/LOC/data.json", 'rb') as handle:
+        loaded_dict = pickle.load(handle)
+    loc.update(list(itertools.chain.from_iterable([v for _, v in loaded_dict.items()])))
+    loc.update(load_gazetteers_from_paper())
+    return loc
+def get_organizations():
+    df = pd.read_csv("/home/xstromp/dp/data/gazetteers_data/ORG/Inc5000Eu-full.csv")
+    org = set(df['Company'].tolist())
+    df = pd.read_csv("/home/xstromp/dp/data/gazetteers_data/ORG/FirmyBrno.csv")
+    org.update(df['name'].tolist())
+    org.update(load_gazetteers_from_paper("/home/xstromp/dp/data/gazetteers_data/paper/Organizations"))
+    return org

data_manipulation/dataset_funcions.py ADDED Viewed

	@@ -0,0 +1,458 @@

+import os
+import re
+import json
+from tqdm import tqdm
+from datasets import Dataset, DatasetDict
+def load_gazetteers(path):
+    """
+    Load gazetteers from a file
+    :param path: path to the gazetteer file
+    :return: a dict of gazetteers
+    """
+    with open(path, 'r') as f:
+        gazetteers = json.load(f)
+    for k, v in gazetteers.items():
+        gazetteers[k] = set(v)
+    return gazetteers
+def create_dataset(label_mapper:dict, args):
+    if args.dataset == "cnec":
+        return create_cnec_dataset(label_mapper, args)
+    return load_wikiann_testing_dataset(args)
+####################################################################################################
+### GAZETTEERS EMBEDDINGS ##########################################################################
+####################################################################################################
+def find_multi_token_matches(tokens, looking_tokens, gazetteers, matches):
+    i = 0
+    n = len(tokens)
+    assert n == len(looking_tokens)
+    while i < n:
+        for length in range(min(5, n-i), 0, -1):  # Assuming maximum entity length is 5
+            phrase = ' '.join(looking_tokens[i:i+length])
+            for gazetteer in gazetteers:
+                if phrase in gazetteer:
+                    match_type = gazetteer[phrase]
+                    for index in range(i, i+length):
+                        matches.setdefault(tokens[index], []).append((phrase, match_type))
+        i += 1
+    return matches
+def find_single_token_matches(tokens, looking_tokens, gazetteers, matches):
+    return matches
+def find_combination_single_multi_token_matches(tokens, looking_tokens, gazetteers, matches):
+    return matches
+def gazetteer_matching(words, gazetteers_for_matching):
+    single_token_match = False
+    ending_ova = False
+    apply_lemmatizing = False
+    if single_token_match:
+        matches = {}
+    else:  # multi_token_match
+        matches = find_multi_token_matches(words, words, gazetteers_for_matching, {})
+        # if apply_lemmatizing: TODO
+        #     lemmatize_tokens = [lemmatizing(t) for t in words]
+        #     matches = find_multi_token_matches(words, lemmatize_tokens, gazetteers_for_matching, matches)
+    result = []
+    for word in words:
+        mid_res = sorted(matches.get(word, []), key=lambda x: x[0].count(" "), reverse=True)
+        per, org, loc = 0, 0, 0
+        for res in mid_res:
+            if mid_res[0][0].count(" ") == res[0].count(" "):
+                if res[1] == "per":
+                    per = 1
+                elif res[1] == "org":
+                    org = 1
+                elif res[1] == "loc":
+                    loc = 1
+        if ending_ova and word.endswith("ová") and word[0].isupper():
+            per = 1
+        result.append([per, org, loc])
+    return result
+####################################################################################################
+### GAZETTEERS EXPANSION TRAIN DATASET #############################################################
+####################################################################################################
+def expand_train_dataset_with_gazetteers(train, args):
+    if args.apply_extended_embeddings:
+        gazetteers_for_matching = load_gazetteers(args.extended_embeddings_gazetteers_path)
+    gazetteers = load_gazetteers(args.train_gazetteers_path)
+    count_gazetteers = {}
+    id_ = train[-1]["id"]
+    dataset = []
+    for row in train:
+        dataset.append({"id": row['id'], 'tokens': row['tokens'].copy(),
+                        'ner_tags': row['ner_tags'].copy(), 'gazetteers': row['gazetteers'].copy()})
+    for k in gazetteers.keys():
+        count_gazetteers[k] = 0
+    for index in range(args.gazetteers_counter):
+        for row in tqdm(train, desc=f"loop {index} from {args.gazetteers_counter}"):
+            i = 0
+            temp_1 = row["ner_tags"].copy()
+            temp_2 = row["tokens"].copy()
+            if temp_1.count(0) == len(temp_1):
+                continue
+            while i < len(temp_1):
+                tag = temp_1[i]
+                if tag % 2 == 1:
+                    tags = temp_1[:i]
+                    tokens = temp_2[:i]
+                    i += 1
+                    assert len(gazetteers[tag]) > count_gazetteers[tag]
+                    new = gazetteers[tag][count_gazetteers[tag]].split(" ")
+                    count_gazetteers[tag] += 1
+                    while i < len(temp_1):
+                        if temp_1[i] != tag + 1:
+                            break
+                        i += 1
+                    tags.append(tag)
+                    tags.extend([tag + 1] * (len(new) - 1))
+                    tags.extend(temp_1[i:])
+                    tokens.extend(new)
+                    tokens.extend(temp_2[i:])
+                    temp_1 = tags
+                    temp_2 = tokens
+                else:
+                    i += 1
+            id_ += 1
+            if args.apply_extended_embeddings:
+                matching = gazetteer_matching(temp_2, gazetteers_for_matching, args)
+                dataset.append({"id": id_, 'tokens': temp_2, 'ner_tags': temp_1, "gazetteers": matching})
+            dataset.append({"id": id_, 'tokens': temp_2, 'ner_tags': temp_1})
+    return dataset
+####################################################################################################
+### CNEC DATASET ###################################################################################
+####################################################################################################
+def get_dataset_from_cnec(label_mapper:dict, xml_file_path, args):
+    """
+    label_mapper: cnec labels to int
+    """
+    # Open and read the XML file as plain text
+    assert os.path.isfile(xml_file_path)
+    id_ = 0
+    with open(xml_file_path, "r", encoding="utf-8") as xml_file:
+        plain_text = xml_file.read()
+    plain_text = plain_text[5:-5]  # remove unnessery characters
+    plain_text = re.sub(r'([a-zA-Z.])<ne', r'\1 <ne', plain_text)
+    plain_text = re.sub(r'</ne>([a-zA-Z.])', r'</ne> \1', plain_text)
+    plain_text = re.sub(r'[ ]+', ' ', plain_text)
+    sentences = plain_text.split("\n")
+    ne_pattern = r'<ne type="([a-zA-Z?_-]{1,5})">([^<]+)</ne>'
+    data = []
+    if args.apply_extended_embeddings:
+        gazetteers_for_matching = load_gazetteers(args.extended_embeddings_gazetteers_path)
+        from data_manipulation.preprocess_gazetteers import build_reverse_dictionary
+        temp = []
+        for i in gazetteers_for_matching.keys():
+            temp.append(build_reverse_dictionary({i: gazetteers_for_matching[i]}))
+        gazetteers_for_matching = temp
+    for sentence in tqdm(sentences):
+        entity_mapping = []
+        while "<ne type=" in sentence:  # while because there are nested entities
+            nes = re.findall(ne_pattern, sentence)
+            for label, entity in nes:
+                pattern = f'<ne type="{label}">{entity}</ne>'
+                index = sentence.index(pattern)
+                temp_index = index
+                sentence = sentence.replace(pattern, entity, 1)
+                temp_index -= sum([len(f'<ne type="{tag}">') for tag in re.findall(r'<ne type="([a-zA-Z?_-]{1,5})">', sentence[:index])])
+                temp_index -= sentence[:index].count("</ne>") * len("</ne>")
+                temp_index -= (re.sub(r'<ne type="([a-zA-Z?_-]{1,5})">', "", sentence[:index]).replace("</ne>", "")).count("  ")
+                index = temp_index
+                entity_mapping.append((entity, label, index, index + len(entity)))
+        entities = []
+        for entity, label, start, end in entity_mapping:
+            for tag in label_mapper.keys():
+                if label.lower().startswith(tag):
+                    entities.append((label_mapper[tag], entity, start, end))
+                    break
+        entities.sort(key=lambda x: len(x[1]), reverse=True)
+        words = re.split(r'\s+', sentence)
+        tags_per_word = []
+        sentence_counter = -1
+        for word in words:
+            sentence_counter += len(word) + 1
+            if len(entities) == 0:
+                tags_per_word.append(0)  # tag representing no label for no word
+            for index_entity in range(len(entities)):
+                if not(sentence_counter - len(word) >= entities[index_entity][2] and
+                       sentence_counter <= entities[index_entity][3] and
+                       word in entities[index_entity][1]):
+                    if index_entity == len(entities) - 1:
+                        tags_per_word.append(0)  # tag representing no label for word
+                    continue
+                if args.division_to_BI_tags:
+                    if sentence_counter - len(word) == entities[index_entity][2]:
+                        tags_per_word.append(entities[index_entity][0] * 2 - 1) # beggining of entity
+                    else:
+                        tags_per_word.append(entities[index_entity][0] * 2)  # inside of entity
+                else:
+                    tags_per_word.append(entities[index_entity][0])
+                break
+        if args.contain_only_label_sentences and tags_per_word.count(0) == len(tags_per_word):
+            continue
+        if tags_per_word == [] or tags_per_word == [0]:
+            continue
+        if args.apply_extended_embeddings:
+            matching = gazetteer_matching(words, gazetteers_for_matching)
+            data.append({"id": id_, 'tokens': words, 'ner_tags': tags_per_word,
+                         "sentence": " ".join(words), "gazetteers": matching})
+        else:
+            data.append({"id": id_, 'tokens': words, 'ner_tags': tags_per_word, "sentence": " ".join(words)})
+        id_ += 1
+    return data
+def create_dataset2(label_mapper:dict, gazetteers_path):
+    path = "/nlp/projekty/gazetteer_ner/cnec2.0/data/xml"
+    dataset = DatasetDict()
+    for part, file_name in zip(["train", "validation", "test"],["named_ent_train.xml", "named_ent_etest.xml", "named_ent_dtest.xml"]):
+        file_path = os.path.join(path, file_name)
+        ##
+        id_ = 0
+        with open(file_path, "r", encoding="utf-8") as xml_file:
+            plain_text = xml_file.read()
+        plain_text = plain_text[5:-5]  # remove unnessery characters
+        plain_text = re.sub(r'([a-zA-Z.])<ne', r'\1 <ne', plain_text)
+        plain_text = re.sub(r'</ne>([a-zA-Z.])', r'</ne> \1', plain_text)
+        plain_text = re.sub(r'[ ]+', ' ', plain_text)
+        sentences = plain_text.split("\n")
+        ne_pattern = r'<ne type="([a-zA-Z?_-]{1,5})">([^<]+)</ne>'
+        data = []
+        if True:
+            gazetteers_for_matching = load_gazetteers(gazetteers_path)
+            from data_manipulation.preprocess_gazetteers import build_reverse_dictionary
+            temp = []
+            for i in gazetteers_for_matching.keys():
+                temp.append(build_reverse_dictionary({i: gazetteers_for_matching[i]}))
+            gazetteers_for_matching = temp
+        for sentence in tqdm(sentences):
+            entity_mapping = []
+            while "<ne type=" in sentence:  # while because there are nested entities
+                nes = re.findall(ne_pattern, sentence)
+                for label, entity in nes:
+                    pattern = f'<ne type="{label}">{entity}</ne>'
+                    index = sentence.index(pattern)
+                    temp_index = index
+                    sentence = sentence.replace(pattern, entity, 1)
+                    temp_index -= sum([len(f'<ne type="{tag}">') for tag in re.findall(r'<ne type="([a-zA-Z?_-]{1,5})">', sentence[:index])])
+                    temp_index -= sentence[:index].count("</ne>") * len("</ne>")
+                    temp_index -= (re.sub(r'<ne type="([a-zA-Z?_-]{1,5})">', "", sentence[:index]).replace("</ne>", "")).count("  ")
+                    index = temp_index
+                    entity_mapping.append((entity, label, index, index + len(entity)))
+            entities = []
+            for entity, label, start, end in entity_mapping:
+                for tag in label_mapper.keys():
+                    if label.lower().startswith(tag):
+                        entities.append((label_mapper[tag], entity, start, end))
+                        break
+            entities.sort(key=lambda x: len(x[1]), reverse=True)
+            words = re.split(r'\s+', sentence)
+            tags_per_word = []
+            sentence_counter = -1
+            for word in words:
+                sentence_counter += len(word) + 1
+                if len(entities) == 0:
+                    tags_per_word.append(0)  # tag representing no label for no word
+                for index_entity in range(len(entities)):
+                    if not(sentence_counter - len(word) >= entities[index_entity][2] and
+                        sentence_counter <= entities[index_entity][3] and
+                        word in entities[index_entity][1]):
+                        if index_entity == len(entities) - 1:
+                            tags_per_word.append(0)  # tag representing no label for word
+                        continue
+                    if True:
+                        if sentence_counter - len(word) == entities[index_entity][2]:
+                            tags_per_word.append(entities[index_entity][0] * 2 - 1) # beggining of entity
+                        else:
+                            tags_per_word.append(entities[index_entity][0] * 2)  # inside of entity
+                    else:
+                        tags_per_word.append(entities[index_entity][0])
+                    break
+            if tags_per_word == [] or tags_per_word == [0]:
+                continue
+            if True:
+                matching = gazetteer_matching(words, gazetteers_for_matching)
+                data.append({"id": id_, 'tokens': words, 'ner_tags': tags_per_word,
+                            "sentence": " ".join(words), "gazetteers": matching})
+            else:
+                data.append({"id": id_, 'tokens': words, 'ner_tags': tags_per_word, "sentence": " ".join(words)})
+            id_ += 1
+        ##
+        dataset[part] = Dataset.from_list(data)
+    return dataset
+def create_cnec_dataset(label_mapper:dict, args):
+    assert os.path.isdir(args.cnec_dataset_dir_path)
+    dataset = DatasetDict()
+    for part, file_name in zip(["train", "validation", "test"],["named_ent_train.xml", "named_ent_etest.xml", "named_ent_dtest.xml"]):
+        file_path = os.path.join(args.cnec_dataset_dir_path, file_name)
+        assert os.path.isfile(file_path)
+        temp_dataset = get_dataset_from_cnec(label_mapper, file_path, args)
+        if args.expand_train_data:
+            temp_dataset = expand_train_dataset_with_gazetteers(temp_dataset, args)
+        dataset[part] = Dataset.from_list(temp_dataset)
+    return dataset
+####################################################################################################
+### WIKIANN DATASET ################################################################################
+####################################################################################################
+def load_wikiann_testing_dataset(args):
+    if args.apply_gazetteers_info:
+        gazetteers_for_matching = load_gazetteers(args.extended_embeddings_gazetteers_path)
+    assert os.path.isfile(args.wikiann_dataset_path)
+    dataset = []
+    index = 0
+    sentences = load_tagged_sentences(args.wikiann_dataset_path)
+    for sentence in sentences:
+        words = [word for word, _ in sentence]
+        tags = [tag for _, tag in sentence]
+        if args.apply_gazetteers_info:
+            matching = gazetteer_matching(words, gazetteers_for_matching, args)
+            dataset.append({"id": index, 'tokens': words, 'ner_tags': tags, "gazetteers": matching})
+        else:
+            dataset.append({"id": index, 'tokens': words, 'ner_tags': tags})
+        index += 1
+    test = Dataset.from_list(dataset)
+    # dataset = DatasetDict({"train": Dataset.from_list([{"id": 1, 'tokens': [], 'ner_tags': [], "gazetteers": []}]),
+    #                        "validation": Dataset.from_list([{"id": 1, 'tokens': [], 'ner_tags': [], "gazetteers": []}]), "test": test})
+    dataset = DatasetDict({"test": test})
+    return dataset
+def load_tagged_sentences(file_path):
+    sentences = []  # List to hold all sentences
+    current_sentence = []  # List to hold current sentence tokens and tags
+    with open(file_path, 'r', encoding='utf-8') as file:
+        for line in file:
+            line = line.strip()  # Remove any extra whitespace from the line
+            if line:
+                # Split the line into token and tag
+                token_tag_pair = line.split()
+                if len(token_tag_pair) == 2:
+                    # Add the token and tag tuple to the current sentence
+                    current_sentence.append((token_tag_pair[0].split(':')[1], token_tag_pair[1]))
+            else:
+                # If line is empty and current sentence is not, add it to sentences
+                if current_sentence:
+                    sentences.append(current_sentence)
+                    current_sentence = []  # Reset for the next sentence
+        # Add the last sentence if the file doesn't end with a blank line
+        if current_sentence:
+            sentences.append(current_sentence)
+    return sentences
+####################################################################################################
+### TOKENIZE DATASET ###############################################################################
+####################################################################################################
+def align_labels_with_tokens(labels, word_ids):
+    new_labels = []
+    current_word = None
+    for word_id in word_ids:
+        if word_id != current_word:
+            # Start of a new word!
+            current_word = word_id
+            label = -100 if word_id is None else labels[word_id]
+            new_labels.append(label)
+        elif word_id is None:
+            # Special token
+            new_labels.append(-100)
+        else:
+            # Same word as previous token
+            label = labels[word_id]
+            # If the label is B-XXX we change it to I-XXX
+            if label % 2 == 1:
+                label += 1
+            new_labels.append(label)
+    return new_labels
+def align_gazetteers_with_tokens(gazetteers, word_ids):
+    new_g = []
+    current_word = None
+    for word_id in word_ids:
+        if word_id != current_word:
+            # Start of a new word!
+            current_word = word_id
+            gazetteer = [0,0,0] if word_id is None else gazetteers[word_id]
+            new_g.append(gazetteer)
+        elif word_id is None:
+            # Special token
+            new_g.append([0,0,0])
+        else:
+            # Same word as previous token
+            gazetteer = gazetteers[word_id]
+            # # If the label is B-XXX we change it to I-XXX
+            # if gazetteer % 2 == 1:
+            #     gazetteer += 1
+            new_g.append(gazetteer)
+    return new_g
+def create_tokenized_dataset(raw_dataset, tokenizer, apply_extended_embeddings=True):
+    def tokenize_and_align_labels(examples):
+        tokenized_inputs = tokenizer(
+            examples["tokens"], truncation=True, is_split_into_words=True
+        )
+        all_labels = examples["ner_tags"]
+        new_labels = []
+        for i, labels in enumerate(all_labels):
+            word_ids = tokenized_inputs.word_ids(i)
+            new_labels.append(align_labels_with_tokens(labels, word_ids))
+        tokenized_inputs["labels"] = new_labels
+        if apply_extended_embeddings:
+            g = examples["gazetteers"]
+            new_g = []
+            for i, g in enumerate(g):
+                word_ids = tokenized_inputs.word_ids(i)
+                new_g.append(align_gazetteers_with_tokens(g, word_ids))
+            p, o, l = [], [], []
+            for i in new_g:
+                p.append([x[0] for x in i])
+                o.append([x[1] for x in i])
+                l.append([x[2] for x in i])
+            tokenized_inputs["per"] = p
+            tokenized_inputs["org"] = o
+            tokenized_inputs["loc"] = l
+        return tokenized_inputs
+    dataset = raw_dataset.map(
+        tokenize_and_align_labels,
+        batched=True,
+        remove_columns=raw_dataset["train"].column_names,
+    )
+    return dataset

data_manipulation/preprocess_gazetteers.py ADDED Viewed

	@@ -0,0 +1,54 @@

+import re
+from simplemma import lemmatize
+def flatten(xss):
+    return [x for xs in xss for x in xs]
+def remove_all_brackets(text):
+    return re.sub(r'[\(\{\[].*?[\)\}\]]', '', text)
+def lemmatizing(x):
+    if x == "":
+        return ""
+    return lemmatize(x, lang="cs")
+def build_reverse_dictionary(dictionary, apply_lemmatizing=False):
+    reverse_dictionary = {}
+    for key, values in dictionary.items():
+        for value in values:
+            reverse_dictionary[value] = key
+            if apply_lemmatizing:
+                temp = lemmatizing(value)
+                if temp != value:
+                    reverse_dictionary[temp] = key
+    return reverse_dictionary
+def split_gazetteers_for_single_token_match(gazetteers):
+    result = {}
+    for k, v in gazetteers.items():
+        result[k] = set(flatten([vv.split(" ") for vv in v]))
+        result[k] = {x for x in result[k] if len(x) > 2}
+    return result
+def preprocess_gazetteers(gazetteers, config):
+    if config["split_person"]:
+        gazetteers["PER"].update(set([x for x in flatten([v.split(" ") for v in gazetteers["PER"]]) if len(x) > 2]))
+    if config["lemmatize"]:
+        for k, v in gazetteers.items():
+            gazetteers[k] = set(flatten([(vv, lemmatizing(vv)) for vv in v if len(vv) > 2]))
+    if config["remove_brackets"]:
+        for k, v in gazetteers.items():
+            gazetteers[k] = {remove_all_brackets(vv).strip() for vv in v if len(remove_all_brackets(vv).strip()) > 2}
+    if config["remove_numeric"]:
+        for k, v in gazetteers.items():
+            gazetteers[k] = {vv for vv in v if not vv.isnumeric()}
+    if config["techniq_for_matching"] != "single":
+        gazetteers = split_gazetteers_for_single_token_match(gazetteers)
+    return gazetteers

extended_embeddings/__init__.py ADDED Viewed

File without changes

extended_embeddings/extended_embeddings_model.py ADDED Viewed

	@@ -0,0 +1,191 @@

+from transformers.models.roberta.modeling_roberta import RobertaModel, RobertaEncoder, RobertaEmbeddings
+from transformers.modeling_outputs import BaseModelOutputWithPoolingAndCrossAttentions
+from typing import List, Optional, Tuple, Union
+import torch
+from torch.nn import functional as F
+from torch import nn
+# Copied from transformers.models.bert.modeling_bert.BertPooler
+class ExtendedEmbeddigsRobertaPooler(nn.Module):
+    def __init__(self, config):
+        super().__init__()
+        size_of_gazetters_part = int((len(config.id2label.keys()) - 1) // 2)
+        self.dense = nn.Linear(config.hidden_size + size_of_gazetters_part, config.hidden_size + size_of_gazetters_part)
+        self.activation = nn.Tanh()
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        # We "pool" the model by simply taking the hidden state corresponding
+        # to the first token.
+        first_token_tensor = hidden_states[:, 0]
+        pooled_output = self.dense(first_token_tensor)
+        pooled_output = self.activation(pooled_output)
+        return pooled_output
+class ExtendedEmbeddigsRobertaModel(RobertaModel):
+    """
+    The model can behave as an encoder (with only self-attention) as well as a decoder, in which case a layer of
+    cross-attention is added between the self-attention layers, following the architecture described in *Attention is
+    all you need*_ by Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz
+    Kaiser and Illia Polosukhin.
+    To behave as an decoder the model needs to be initialized with the `is_decoder` argument of the configuration set
+    to `True`. To be used in a Seq2Seq model, the model needs to initialized with both `is_decoder` argument and
+    `add_cross_attention` set to `True`; an `encoder_hidden_states` is then expected as an input to the forward pass.
+    .. _*Attention is all you need*: https://arxiv.org/abs/1706.03762
+    """
+    # Copied from transformers.models.bert.modeling_bert.BertModel.__init__ with Bert->Roberta
+    def __init__(self, config, add_pooling_layer=True):
+        super().__init__(config)
+        self.config = config
+        self.embeddings = RobertaEmbeddings(config)
+        self.encoder = RobertaEncoder(config)
+    #     self.gazetteers = GazetteersNetwork()  # change
+        self.pooler = ExtendedEmbeddigsRobertaPooler(config)
+        # Initialize weights and apply final processing
+        self.post_init()
+    def forward(
+        self,
+        input_ids: Optional[torch.Tensor] = None,
+        attention_mask: Optional[torch.Tensor] = None,
+        token_type_ids: Optional[torch.Tensor] = None,
+        position_ids: Optional[torch.Tensor] = None,
+     #   gazetteers_ids: Optional[torch.Tensor] = None,  # change
+        per: Optional[torch.Tensor] = None,  # change
+        org: Optional[torch.Tensor] = None,  # change
+        loc: Optional[torch.Tensor] = None,  # change
+        head_mask: Optional[torch.Tensor] = None,
+        inputs_embeds: Optional[torch.Tensor] = None,
+        encoder_hidden_states: Optional[torch.Tensor] = None,
+        encoder_attention_mask: Optional[torch.Tensor] = None,
+        past_key_values: Optional[List[torch.FloatTensor]] = None,
+        use_cache: Optional[bool] = None,
+        output_attentions: Optional[bool] = None,
+        output_hidden_states: Optional[bool] = None,
+        return_dict: Optional[bool] = None,
+    ) -> Union[Tuple[torch.Tensor], BaseModelOutputWithPoolingAndCrossAttentions]:
+        r"""
+        encoder_hidden_states  (`torch.FloatTensor` of shape `(batch_size, sequence_length, hidden_size)`, *optional*):
+            Sequence of hidden-states at the output of the last layer of the encoder. Used in the cross-attention if
+            the model is configured as a decoder.
+        encoder_attention_mask (`torch.FloatTensor` of shape `(batch_size, sequence_length)`, *optional*):
+            Mask to avoid performing attention on the padding token indices of the encoder input. This mask is used in
+            the cross-attention if the model is configured as a decoder. Mask values selected in `[0, 1]`:
+            - 1 for tokens that are **not masked**,
+            - 0 for tokens that are **masked**.
+        past_key_values (`tuple(tuple(torch.FloatTensor))` of length `config.n_layers` with each tuple having 4 tensors of shape `(batch_size, num_heads, sequence_length - 1, embed_size_per_head)`):
+            Contains precomputed key and value hidden states of the attention blocks. Can be used to speed up decoding.
+            If `past_key_values` are used, the user can optionally input only the last `decoder_input_ids` (those that
+            don't have their past key value states given to this model) of shape `(batch_size, 1)` instead of all
+            `decoder_input_ids` of shape `(batch_size, sequence_length)`.
+        use_cache (`bool`, *optional*):
+            If set to `True`, `past_key_values` key value states are returned and can be used to speed up decoding (see
+            `past_key_values`).
+        """
+        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions
+        output_hidden_states = (
+            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states
+        )
+        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+        if self.config.is_decoder:
+            use_cache = use_cache if use_cache is not None else self.config.use_cache
+        else:
+            use_cache = False
+        if input_ids is not None and inputs_embeds is not None:
+            raise ValueError("You cannot specify both input_ids and inputs_embeds at the same time")
+        elif input_ids is not None:
+            # self.warn_if_padding_and_no_attention_mask(input_ids, attention_mask)
+            input_shape = input_ids.size()
+        elif inputs_embeds is not None:
+            input_shape = inputs_embeds.size()[:-1]
+        else:
+            raise ValueError("You have to specify either input_ids or inputs_embeds")
+        batch_size, seq_length = input_shape
+        device = input_ids.device if input_ids is not None else inputs_embeds.device
+        # past_key_values_length
+        past_key_values_length = past_key_values[0][0].shape[2] if past_key_values is not None else 0
+        if attention_mask is None:
+            attention_mask = torch.ones(((batch_size, seq_length + past_key_values_length)), device=device)
+        if token_type_ids is None:
+            if hasattr(self.embeddings, "token_type_ids"):
+                buffered_token_type_ids = self.embeddings.token_type_ids[:, :seq_length]
+                buffered_token_type_ids_expanded = buffered_token_type_ids.expand(batch_size, seq_length)
+                token_type_ids = buffered_token_type_ids_expanded
+            else:
+                token_type_ids = torch.zeros(input_shape, dtype=torch.long, device=device)
+        # We can provide a self-attention mask of dimensions [batch_size, from_seq_length, to_seq_length]
+        # ourselves in which case we just need to make it broadcastable to all heads.
+        extended_attention_mask: torch.Tensor = self.get_extended_attention_mask(attention_mask, input_shape)
+        # If a 2D or 3D attention mask is provided for the cross-attention
+        # we need to make broadcastable to [batch_size, num_heads, seq_length, seq_length]
+        if self.config.is_decoder and encoder_hidden_states is not None:
+            encoder_batch_size, encoder_sequence_length, _ = encoder_hidden_states.size()
+            encoder_hidden_shape = (encoder_batch_size, encoder_sequence_length)
+            if encoder_attention_mask is None:
+                encoder_attention_mask = torch.ones(encoder_hidden_shape, device=device)
+            encoder_extended_attention_mask = self.invert_attention_mask(encoder_attention_mask)
+        else:
+            encoder_extended_attention_mask = None
+        # Prepare head mask if needed
+        # 1.0 in head_mask indicate we keep the head
+        # attention_probs has shape bsz x n_heads x N x N
+        # input head_mask has shape [num_heads] or [num_hidden_layers x num_heads]
+        # and head_mask is converted to shape [num_hidden_layers x batch x num_heads x seq_length x seq_length]
+        head_mask = self.get_head_mask(head_mask, self.config.num_hidden_layers)
+        embedding_output = self.embeddings(
+            input_ids=input_ids,
+            position_ids=position_ids,
+            token_type_ids=token_type_ids,
+            inputs_embeds=inputs_embeds,
+            past_key_values_length=past_key_values_length,
+        )
+        encoder_outputs = self.encoder(
+            embedding_output,
+            attention_mask=extended_attention_mask,
+            head_mask=head_mask,
+            encoder_hidden_states=encoder_hidden_states,
+            encoder_attention_mask=encoder_extended_attention_mask,
+            past_key_values=past_key_values,
+            use_cache=use_cache,
+            output_attentions=output_attentions,
+            output_hidden_states=output_hidden_states,
+            return_dict=return_dict,
+        )
+        sequence_output = encoder_outputs[0]
+        sequence_output = torch.cat((sequence_output, per.unsqueeze(2), org.unsqueeze(2), loc.unsqueeze(2)), dim=2)  # change
+        pooled_output = self.pooler(sequence_output) if self.pooler is not None else None
+        if not return_dict:
+            return (sequence_output, pooled_output) + encoder_outputs[1:]
+        return BaseModelOutputWithPoolingAndCrossAttentions(
+            last_hidden_state=sequence_output,
+            pooler_output=pooled_output,
+            past_key_values=encoder_outputs.past_key_values,
+            hidden_states=encoder_outputs.hidden_states,
+            attentions=encoder_outputs.attentions,
+            cross_attentions=encoder_outputs.cross_attentions,
+        )

extended_embeddings/token_classification.py ADDED Viewed

	@@ -0,0 +1,95 @@

+from typing import List, Optional, Tuple, Union
+import torch
+from torch import nn
+from transformers.modeling_outputs import TokenClassifierOutput
+from transformers.models.roberta.modeling_roberta import RobertaForTokenClassification
+from transformers.models.roberta.modeling_roberta import ROBERTA_INPUTS_DOCSTRING, add_start_docstrings_to_model_forward, add_code_sample_docstrings
+from extended_embeddings.extended_embeddings_model import ExtendedEmbeddigsRobertaModel
+_CONFIG_FOR_DOC = "RobertaConfig"
+class ExtendedEmbeddigsRobertaForTokenClassification(RobertaForTokenClassification):
+    def __init__(self, config):
+        super().__init__(config)
+        self.num_labels = config.num_labels
+        self.roberta = ExtendedEmbeddigsRobertaModel(config, add_pooling_layer=False)
+        classifier_dropout = (
+            config.classifier_dropout if config.classifier_dropout is not None else config.hidden_dropout_prob
+        )
+        self.dropout = nn.Dropout(classifier_dropout)
+        self.classifier = nn.Linear(config.hidden_size + 3, config.num_labels)
+        # Initialize weights and apply final processing
+        self.post_init()
+    @add_start_docstrings_to_model_forward(ROBERTA_INPUTS_DOCSTRING.format("batch_size, sequence_length"))
+    @add_code_sample_docstrings(
+        checkpoint="Jean-Baptiste/roberta-large-ner-english",
+        output_type=TokenClassifierOutput,
+        config_class=_CONFIG_FOR_DOC,
+        expected_output="['O', 'ORG', 'ORG', 'O', 'O', 'O', 'O', 'O', 'LOC', 'O', 'LOC', 'LOC']",
+        expected_loss=0.01,
+    )
+    def forward(
+        self,
+        input_ids: Optional[torch.LongTensor] = None,
+        attention_mask: Optional[torch.FloatTensor] = None,
+        token_type_ids: Optional[torch.LongTensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        per: Optional[torch.Tensor] = None,
+        org: Optional[torch.Tensor] = None,
+        loc: Optional[torch.Tensor] = None,
+        head_mask: Optional[torch.FloatTensor] = None,
+        inputs_embeds: Optional[torch.FloatTensor] = None,
+        labels: Optional[torch.LongTensor] = None,
+        output_attentions: Optional[bool] = None,
+        output_hidden_states: Optional[bool] = None,
+        return_dict: Optional[bool] = None,
+    ) -> Union[Tuple[torch.Tensor], TokenClassifierOutput]:
+        r"""
+        labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
+            Labels for computing the token classification loss. Indices should be in `[0, ..., config.num_labels - 1]`.
+        """
+        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+        outputs = self.roberta(
+            input_ids,
+            attention_mask=attention_mask,
+            token_type_ids=token_type_ids,
+            position_ids=position_ids,
+            per=per,
+            org=org,
+            loc=loc,
+            head_mask=head_mask,
+            inputs_embeds=inputs_embeds,
+            output_attentions=output_attentions,
+            output_hidden_states=output_hidden_states,
+            return_dict=return_dict,
+        )
+        sequence_output = outputs[0]
+        sequence_output = self.dropout(sequence_output)
+        logits = self.classifier(sequence_output)
+        loss = None
+        if labels is not None:
+            # move labels to correct device to enable model parallelism
+            labels = labels.to(logits.device)
+            loss_fct = nn.CrossEntropyLoss()
+            loss = loss_fct(logits.view(-1, self.num_labels), labels.view(-1))
+        if not return_dict:
+            output = (logits,) + outputs[2:]
+            return ((loss,) + output) if loss is not None else output
+        return TokenClassifierOutput(
+            loss=loss,
+            logits=logits,
+            hidden_states=outputs.hidden_states,
+            attentions=outputs.attentions,
+        )

gazz2.json ADDED Viewed

The diff for this file is too large to render. See raw diff

upload_model.ipynb ADDED Viewed

	@@ -0,0 +1,3150 @@

+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "application/vnd.jupyter.widget-view+json": {
+       "model_id": "65fea98bf7924f4fb4947d8e2dda2f4d",
+       "version_major": 2,
+       "version_minor": 0
+      },
+      "text/plain": [
+       "VBox(children=(HTML(value='<center> <img\\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    }
+   ],
+   "source": [
+    "from huggingface_hub import notebook_login\n",
+    "\n",
+    "notebook_login()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/home/betty/miniconda3/envs/DP/lib/python3.10/site-packages/huggingface_hub/file_download.py:1132: FutureWarning: `resume_download` is deprecated and will be removed in version 1.0.0. Downloads always resume when possible. If you want to force a new download, use `force_download=True`.\n",
+      "  warnings.warn(\n"
+     ]
+    }
+   ],
+   "source": [
+    "from website_script import load\n",
+    "tokenizer, model, gazetteers_for_matching = load()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 4,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "application/vnd.jupyter.widget-view+json": {
+       "model_id": "c1ee9dbfcb694b968d85152542356298",
+       "version_major": 2,
+       "version_minor": 0
+      },
+      "text/plain": [
+       "pytorch_model.bin:   0%|          | 0.00/504M [00:00<?, ?B/s]"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    },
+    {
+     "data": {
+      "text/plain": [
+       "CommitInfo(commit_url='https://huggingface.co/bettystr/NerRoB-czech/commit/7e120317ea2a9500929d09ef9f55b5eff8640d0b', commit_message='Upload ExtendedEmbeddigsRobertaForTokenClassification', commit_description='', oid='7e120317ea2a9500929d09ef9f55b5eff8640d0b', pr_url=None, pr_revision=None, pr_num=None)"
+      ]
+     },
+     "execution_count": 4,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "model.push_to_hub(\"bettystr/NerRoB-czech\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "{'PER': {'Peta',\n",
+       "  'Ind',\n",
+       "  'Ilona',\n",
+       "  'Blazenka',\n",
+       "  'Kotrbová',\n",
+       "  'Otradovec',\n",
+       "  'Chocholouš',\n",
+       "  'Kovář',\n",
+       "  'Galerie',\n",
+       "  'Váňa',\n",
+       "  'Krkoška',\n",
+       "  'Kvėta',\n",
+       "  'Braník',\n",
+       "  'Rýpar',\n",
+       "  'Vykydal',\n",
+       "  'Tomča',\n",
+       "  'Nína',\n",
+       "  'Evca',\n",
+       "  'Hozová',\n",
+       "  'Zacharova',\n",
+       "  'Vlasto',\n",
+       "  'Luckyn',\n",
+       "  'Andělka',\n",
+       "  'Srba',\n",
+       "  'Dýdžej',\n",
+       "  'Ířij',\n",
+       "  'Brutální',\n",
+       "  'Jackob',\n",
+       "  'Kozler',\n",
+       "  'Jerguš',\n",
+       "  'Krysa',\n",
+       "  'Helenie',\n",
+       "  'Sramek',\n",
+       "  'Simonova',\n",
+       "  'Bošková',\n",
+       "  'Macinka',\n",
+       "  'Šich',\n",
+       "  'Renata-Dita',\n",
+       "  'Holaňová',\n",
+       "  'Obermajerová',\n",
+       "  'Míšák',\n",
+       "  'Holický',\n",
+       "  'Pepina',\n",
+       "  'Debí',\n",
+       "  'Půlpán',\n",
+       "  'Faktorová',\n",
+       "  'Jirouch',\n",
+       "  'Rákos',\n",
+       "  'Andreyka',\n",
+       "  'Kiš',\n",
+       "  'Kuntová',\n",
+       "  'Papírníková',\n",
+       "  'Evza',\n",
+       "  'Vajdíková',\n",
+       "  'Agama',\n",
+       "  'Zralý',\n",
+       "  'Bubnová',\n",
+       "  'Keprt',\n",
+       "  'Leňa',\n",
+       "  'Sekyrová',\n",
+       "  'Miklíková',\n",
+       "  'Corso',\n",
+       "  'Vondruška',\n",
+       "  'Heluš',\n",
+       "  'Детелина',\n",
+       "  'Bartůněk',\n",
+       "  'Hajda',\n",
+       "  'Bartoníček',\n",
+       "  'Rumanová',\n",
+       "  'Izabela',\n",
+       "  'Kamasová',\n",
+       "  'Volenec',\n",
+       "  'Duchoslavová',\n",
+       "  'Tynulinka',\n",
+       "  'Skokan',\n",
+       "  'Стьопа',\n",
+       "  'Mandarinka',\n",
+       "  'Brázdová',\n",
+       "  'Haňula',\n",
+       "  'Bubela',\n",
+       "  'Anný',\n",
+       "  'Bohatý',\n",
+       "  'Lucinečka',\n",
+       "  'Švestková',\n",
+       "  'Vaďurová',\n",
+       "  'Ленка',\n",
+       "  'Docent',\n",
+       "  'Slaby',\n",
+       "  'Zuzička',\n",
+       "  'Ditunka',\n",
+       "  'Sjůů',\n",
+       "  'Nepovímová',\n",
+       "  'Raichlová',\n",
+       "  'Panuška',\n",
+       "  'Malinovský',\n",
+       "  'Szabo',\n",
+       "  'Zouhar',\n",
+       "  'Holanová',\n",
+       "  'Šťastňoučká',\n",
+       "  'Světlana',\n",
+       "  'Vaňousová',\n",
+       "  'Prucek',\n",
+       "  'Kopencová',\n",
+       "  'Zábojník',\n",
+       "  'Čepová',\n",
+       "  'Rydlo',\n",
+       "  'Koutná',\n",
+       "  'Snopek',\n",
+       "  'Majkl',\n",
+       "  'Kameníková',\n",
+       "  'Berenica',\n",
+       "  'Hlavatý',\n",
+       "  'Taekyo',\n",
+       "  'Tokar',\n",
+       "  'Balaš',\n",
+       "  'Lukasova',\n",
+       "  'Rokosová',\n",
+       "  'Smrckova',\n",
+       "  'Spáčilová',\n",
+       "  'Gruntová',\n",
+       "  'Haňulka',\n",
+       "  'Starek',\n",
+       "  'Cupalová',\n",
+       "  'Sabulina',\n",
+       "  'Celkem',\n",
+       "  'Hamplova',\n",
+       "  'Výmolová',\n",
+       "  'Polaskova',\n",
+       "  'Krizova',\n",
+       "  'Hanzl',\n",
+       "  'Vojtková',\n",
+       "  'Valja',\n",
+       "  'Pavelcová',\n",
+       "  'Ilianski',\n",
+       "  'Chromcová',\n",
+       "  'Strnadlová',\n",
+       "  'Takáč',\n",
+       "  'Macíček',\n",
+       "  'Burianek',\n",
+       "  'Ondík',\n",
+       "  'Mařen',\n",
+       "  'Denule',\n",
+       "  'Kroulík',\n",
+       "  'Hozman',\n",
+       "  'Honzas',\n",
+       "  'Přibáň',\n",
+       "  'Hladíková',\n",
+       "  'Štědroň',\n",
+       "  'Racing',\n",
+       "  'Lenla',\n",
+       "  'Trnkova',\n",
+       "  'Businský',\n",
+       "  'Šikulová',\n",
+       "  'Mišanek',\n",
+       "  'Ratajová',\n",
+       "  'Naďežda',\n",
+       "  'Šimonková',\n",
+       "  'Vard',\n",
+       "  'Paollo',\n",
+       "  'Jandera',\n",
+       "  'Lucias',\n",
+       "  'Páája',\n",
+       "  'Gemmax',\n",
+       "  'Matulu',\n",
+       "  'Rychly',\n",
+       "  'Ryslan',\n",
+       "  'Kristína',\n",
+       "  'Terézie',\n",
+       "  'Stibůrek',\n",
+       "  'Sherbek',\n",
+       "  'Makynka',\n",
+       "  'Rychnovská',\n",
+       "  'Bajger',\n",
+       "  'Dupaux',\n",
+       "  'Kovačíková',\n",
+       "  'Tomešková',\n",
+       "  'Culková',\n",
+       "  'Bušová',\n",
+       "  'Jabub',\n",
+       "  'Štechová',\n",
+       "  'Houdek',\n",
+       "  'Kreisinger',\n",
+       "  'Potměšilová',\n",
+       "  'Poskočilová',\n",
+       "  'Dugy',\n",
+       "  'Paťan',\n",
+       "  'Vágnerová',\n",
+       "  'Pacltová',\n",
+       "  'Blažej',\n",
+       "  'Jarino',\n",
+       "  'Pixa',\n",
+       "  'Strach',\n",
+       "  'Vyhnánek',\n",
+       "  'Semerád',\n",
+       "  'Pudilová',\n",
+       "  'Rozka',\n",
+       "  'Lýdie',\n",
+       "  'Vávrová',\n",
+       "  'Matrik',\n",
+       "  'Madbear',\n",
+       "  'Chrobáková',\n",
+       "  'Kotalíková',\n",
+       "  'Střílková',\n",
+       "  'Urbanx',\n",
+       "  'Zora',\n",
+       "  'Zavázalová',\n",
+       "  'Emilka',\n",
+       "  'Łukas',\n",
+       "  'Jindŕich',\n",
+       "  'Hanik',\n",
+       "  'Iwe',\n",
+       "  'Lasáková',\n",
+       "  'Mařáková',\n",
+       "  'Šťastný',\n",
+       "  'Sajmonka',\n",
+       "  'Kánský',\n",
+       "  'Dolfi',\n",
+       "  'Američané',\n",
+       "  'Urban',\n",
+       "  'Samik',\n",
+       "  'Ouředník',\n",
+       "  'Виорика',\n",
+       "  'Vyhul',\n",
+       "  'Madr',\n",
+       "  'Šilhová',\n",
+       "  'Stefaniya',\n",
+       "  'Radomír',\n",
+       "  'Taxibila',\n",
+       "  'Exnerová',\n",
+       "  'Jíříček',\n",
+       "  'Emik',\n",
+       "  'Vrtiška',\n",
+       "  'Stána',\n",
+       "  'Soxib',\n",
+       "  'Buresova',\n",
+       "  'Jarous',\n",
+       "  'Chmelik',\n",
+       "  'Ládin',\n",
+       "  'Absolon',\n",
+       "  'Bohuňková',\n",
+       "  'Rybníček',\n",
+       "  'Cairoli',\n",
+       "  'Kurečka',\n",
+       "  'Slabý',\n",
+       "  'Jevhenija',\n",
+       "  'Jajin',\n",
+       "  'Eego',\n",
+       "  'Bárka',\n",
+       "  'Lentilka',\n",
+       "  'Čert',\n",
+       "  'Teri',\n",
+       "  'Crhová',\n",
+       "  'Korcová',\n",
+       "  'Vlastníková',\n",
+       "  'Elča',\n",
+       "  'Koutecká',\n",
+       "  'Pavlicová',\n",
+       "  'Choze',\n",
+       "  'Bronča',\n",
+       "  'Burza',\n",
+       "  'Zemanec',\n",
+       "  'Anetqa',\n",
+       "  'Černíková',\n",
+       "  'Certice',\n",
+       "  'Mašus',\n",
+       "  'Šilerová',\n",
+       "  'Lesia',\n",
+       "  'Majkyna',\n",
+       "  'Адлы',\n",
+       "  'Trener',\n",
+       "  'Stara',\n",
+       "  'Zámečníková',\n",
+       "  'Rostja',\n",
+       "  'Szabó',\n",
+       "  'Mateej',\n",
+       "  'Wlada',\n",
+       "  'Pafča',\n",
+       "  'Stočková',\n",
+       "  'Šustová',\n",
+       "  'Frýdová',\n",
+       "  'Žofia',\n",
+       "  'Faltejsková',\n",
+       "  'Maruškaa',\n",
+       "  'Editka',\n",
+       "  'Otradovcová',\n",
+       "  'Vejvoda',\n",
+       "  'Neuwirthová',\n",
+       "  'Ráda',\n",
+       "  'Macháčková',\n",
+       "  'Vičarová',\n",
+       "  'Julinka',\n",
+       "  'Hranická',\n",
+       "  'Satanas',\n",
+       "  'Pfeffer',\n",
+       "  'Hádková',\n",
+       "  'Lianochka',\n",
+       "  'Ngoc',\n",
+       "  'Šáruš',\n",
+       "  'Terynka',\n",
+       "  'Євген',\n",
+       "  'Štefánek',\n",
+       "  'Kristinka',\n",
+       "  'Zittová',\n",
+       "  'Švub',\n",
+       "  'Pavlíková',\n",
+       "  'Nikiška',\n",
+       "  'Kováčik',\n",
+       "  'Sedli',\n",
+       "  'Honziik',\n",
+       "  'Barunečka',\n",
+       "  'Žatečková',\n",
+       "  'Zvoněnka',\n",
+       "  'Přibilová',\n",
+       "  'Mišel',\n",
+       "  'Adamčíková',\n",
+       "  'Jiricek',\n",
+       "  'Strnad',\n",
+       "  'Svrčina',\n",
+       "  'Horyna',\n",
+       "  'Claudinka',\n",
+       "  'Tisoň',\n",
+       "  'Kučová',\n",
+       "  'Ranch',\n",
+       "  'Obchod',\n",
+       "  'Romca',\n",
+       "  'Kalenský',\n",
+       "  'Nell',\n",
+       "  'Krumlová',\n",
+       "  'Kvasnicová',\n",
+       "  'Klementýna',\n",
+       "  'Drahokoupilová',\n",
+       "  'Míja',\n",
+       "  'Франта',\n",
+       "  'Alexandrova',\n",
+       "  'Cervenkova',\n",
+       "  'Rottová',\n",
+       "  'Radim',\n",
+       "  'Věkoslav',\n",
+       "  'Weissová',\n",
+       "  'Peťulíí',\n",
+       "  'Fiserova',\n",
+       "  'Juras',\n",
+       "  'Macík',\n",
+       "  'Pavluska',\n",
+       "  'Thi',\n",
+       "  'Adell',\n",
+       "  'Cvíčo',\n",
+       "  'Žílová',\n",
+       "  'Šimi',\n",
+       "  'Jsna',\n",
+       "  'Natalli',\n",
+       "  'Lenorka',\n",
+       "  'Rambod',\n",
+       "  'Stanislava',\n",
+       "  'Vencl',\n",
+       "  'Mudr',\n",
+       "  'Dámské',\n",
+       "  'Faktor',\n",
+       "  'Patrk',\n",
+       "  'Efik',\n",
+       "  'Tvaruzka',\n",
+       "  'Lukee',\n",
+       "  'Frsntisek',\n",
+       "  'Hofmannová',\n",
+       "  'Páv',\n",
+       "  'Jacha',\n",
+       "  'Martinaa',\n",
+       "  'Balda',\n",
+       "  'Mishelin',\n",
+       "  'Brouček',\n",
+       "  'Chloupková',\n",
+       "  'Divad',\n",
+       "  'Bubáček',\n",
+       "  'Stehno',\n",
+       "  'Holinka',\n",
+       "  'Ardeb',\n",
+       "  'Sovička',\n",
+       "  'Stavinoha',\n",
+       "  'Kvetiny',\n",
+       "  'Hrabulata',\n",
+       "  'Motyli',\n",
+       "  'Hubová',\n",
+       "  'Burianová',\n",
+       "  'Pluhařová',\n",
+       "  'Tauchman',\n",
+       "  'Petka',\n",
+       "  'Lubošek',\n",
+       "  'Havrilová',\n",
+       "  'Philippos',\n",
+       "  'Kaleja',\n",
+       "  'Dvorackova',\n",
+       "  'Šebíková',\n",
+       "  'Kulio',\n",
+       "  'Sýkorová',\n",
+       "  'Peřinka',\n",
+       "  'Lukyy',\n",
+       "  'Zprava',\n",
+       "  'Sviatlana',\n",
+       "  'Pawson',\n",
+       "  'Sláma',\n",
+       "  'Šubertová',\n",
+       "  'Kaločová',\n",
+       "  'Janáček',\n",
+       "  'Voltr',\n",
+       "  'Lubík',\n",
+       "  'Kosmetický',\n",
+       "  'Mícheál',\n",
+       "  'Šnoblová',\n",
+       "  'Janouš',\n",
+       "  'Ondrejka',\n",
+       "  'Romanka',\n",
+       "  'Picek',\n",
+       "  'Henychová',\n",
+       "  'Vondracek',\n",
+       "  'Verýsek',\n",
+       "  'Machovec',\n",
+       "  'Jeníková',\n",
+       "  'Jejda',\n",
+       "  'Luk',\n",
+       "  'Fousová',\n",
+       "  'Ený',\n",
+       "  'Jindriska',\n",
+       "  'Aknelka',\n",
+       "  'Dubnová',\n",
+       "  'Minařík',\n",
+       "  'Limetka',\n",
+       "  'Houmr',\n",
+       "  'Šedová',\n",
+       "  'Balounová',\n",
+       "  'Krakonoš',\n",
+       "  'Darča',\n",
+       "  'Snizhanna',\n",
+       "  'Kateřin',\n",
+       "  'Köhler',\n",
+       "  'Wilém',\n",
+       "  'Kubánková',\n",
+       "  'Petrak',\n",
+       "  'Weja',\n",
+       "  'Veronička',\n",
+       "  'Flieger',\n",
+       "  'Drozd',\n",
+       "  'Lení',\n",
+       "  'Bělohradská',\n",
+       "  'Accademia',\n",
+       "  'Lavicka',\n",
+       "  'Talinka',\n",
+       "  'Chudoba',\n",
+       "  'Brožíková',\n",
+       "  'Tomeš',\n",
+       "  'Hanushka',\n",
+       "  'Hradcová',\n",
+       "  'Heďa',\n",
+       "  'Lidunqa',\n",
+       "  'Holek',\n",
+       "  'Zelinkova',\n",
+       "  'Đavid',\n",
+       "  'Milfaitová',\n",
+       "  'Chci',\n",
+       "  'Jiříčková',\n",
+       "  'Buchar',\n",
+       "  'Luciána',\n",
+       "  'Łukyn',\n",
+       "  'Adriána',\n",
+       "  'Lešáková',\n",
+       "  'Kopová',\n",
+       "  'Ordinace',\n",
+       "  'Radislava',\n",
+       "  'Handlová',\n",
+       "  'Pečenková',\n",
+       "  'Gejbina',\n",
+       "  'Čenda',\n",
+       "  'Holušová',\n",
+       "  'Konečny',\n",
+       "  'Drechsler',\n",
+       "  'Pivoňková',\n",
+       "  'Markovič',\n",
+       "  'Ráchel',\n",
+       "  'Šimicová',\n",
+       "  'Raduška',\n",
+       "  'Hrdá',\n",
+       "  'Hron',\n",
+       "  'Atletka',\n",
+       "  'Véja',\n",
+       "  'Adelká',\n",
+       "  'Proky',\n",
+       "  'Hladiš',\n",
+       "  'Velek',\n",
+       "  'Barbora',\n",
+       "  'Glaserová',\n",
+       "  'Nesládková',\n",
+       "  'Lubomír',\n",
+       "  'Skluzan',\n",
+       "  'Jajda',\n",
+       "  'Komrska',\n",
+       "  'Minarčíková',\n",
+       "  'Podešva',\n",
+       "  'Necas',\n",
+       "  'Vacek',\n",
+       "  'Ifét',\n",
+       "  'Myshka',\n",
+       "  'Chrástek',\n",
+       "  'Brousilová',\n",
+       "  'Luciik',\n",
+       "  'Nehasilová',\n",
+       "  'Petrek',\n",
+       "  'Burianova',\n",
+       "  'Jindřiška',\n",
+       "  'Sehnal',\n",
+       "  'Танька',\n",
+       "  'Žaba',\n",
+       "  'Tyfus',\n",
+       "  'Tvrdík',\n",
+       "  'Lucin',\n",
+       "  'Domína',\n",
+       "  'Kropáč',\n",
+       "  'Masáková',\n",
+       "  'Cepková',\n",
+       "  'Bobik',\n",
+       "  'Jičínská',\n",
+       "  'Kubko',\n",
+       "  'Tihelka',\n",
+       "  'Janiina',\n",
+       "  'Viták',\n",
+       "  'Cze',\n",
+       "  'Karhanová',\n",
+       "  'Далибор',\n",
+       "  'Mexičanka',\n",
+       "  'Hronova',\n",
+       "  'Armini',\n",
+       "  'Ulč',\n",
+       "  'Hajnová',\n",
+       "  'Pevný',\n",
+       "  'Dycky',\n",
+       "  'Zdislava',\n",
+       "  'Bohus',\n",
+       "  'Иванна',\n",
+       "  'Chomát',\n",
+       "  'Grulich',\n",
+       "  'Hradecká',\n",
+       "  'Medunová',\n",
+       "  'Stehlík',\n",
+       "  'Juda',\n",
+       "  'Keclík',\n",
+       "  'Balšánková',\n",
+       "  'Liscová',\n",
+       "  'Pittner',\n",
+       "  'Smigl',\n",
+       "  'Jenky',\n",
+       "  'Sailerová',\n",
+       "  'Klausová',\n",
+       "  'Hercik',\n",
+       "  'Obst',\n",
+       "  'Iluška',\n",
+       "  'Janotová',\n",
+       "  'Mládková',\n",
+       "  'Brejcha',\n",
+       "  'Kutlák',\n",
+       "  'Janíí',\n",
+       "  'Viťezslav',\n",
+       "  'Michková',\n",
+       "  'Mattes',\n",
+       "  'Režný',\n",
+       "  'Mihalik',\n",
+       "  'Simir',\n",
+       "  'Vyhnal',\n",
+       "  'Tauchmanová',\n",
+       "  'Domčáá',\n",
+       "  'Paia',\n",
+       "  'Klapka',\n",
+       "  'Frantysek',\n",
+       "  'Kohútová',\n",
+       "  'Ilii',\n",
+       "  'Czesław',\n",
+       "  'Pastorová',\n",
+       "  'Autonečy',\n",
+       "  'Jurko',\n",
+       "  'Koordinátor',\n",
+       "  'Blazkova',\n",
+       "  'Kaštánek',\n",
+       "  'Kyso',\n",
+       "  'Bouchal',\n",
+       "  'Lýda',\n",
+       "  'Bourbon',\n",
+       "  'Radoslav',\n",
+       "  'Константин',\n",
+       "  'Valtr',\n",
+       "  'Jarek',\n",
+       "  'Barushe',\n",
+       "  'Zetocha',\n",
+       "  'Ferry',\n",
+       "  'Sońa',\n",
+       "  'Volf',\n",
+       "  'Profi',\n",
+       "  'Tomášš',\n",
+       "  'Doubková',\n",
+       "  'Adissek',\n",
+       "  'Voloďa',\n",
+       "  'Čížková',\n",
+       "  'Mišalka',\n",
+       "  'Tezz',\n",
+       "  'Uhlíková',\n",
+       "  'Lánský',\n",
+       "  'Pítrs',\n",
+       "  'Mocek',\n",
+       "  'Geryk',\n",
+       "  'Radecek',\n",
+       "  'Andr',\n",
+       "  'Ivush',\n",
+       "  'Pelikán',\n",
+       "  'Kutějová',\n",
+       "  'Šárkys',\n",
+       "  'Řeznictví',\n",
+       "  'Vencovská',\n",
+       "  'Hubálková',\n",
+       "  'Rákosová',\n",
+       "  'Sapex',\n",
+       "  'Moudrý',\n",
+       "  'Mikulec',\n",
+       "  'Valesova',\n",
+       "  'Wojta',\n",
+       "  'Květoslav',\n",
+       "  'Bubeník',\n",
+       "  'Robenek',\n",
+       "  'Kvetus',\n",
+       "  'Masaryk',\n",
+       "  'Vavrová',\n",
+       "  'Špalková',\n",
+       "  'Lapík',\n",
+       "  'Chačik',\n",
+       "  'Siegl',\n",
+       "  'Jarolímek',\n",
+       "  'Aulická',\n",
+       "  'Kostka',\n",
+       "  'Уляна',\n",
+       "  'Konrád',\n",
+       "  'Smutny',\n",
+       "  'Patchwork',\n",
+       "  'Klán',\n",
+       "  'Peťule',\n",
+       "  'Ottova',\n",
+       "  'Ptak',\n",
+       "  'Martíínka',\n",
+       "  'Nicolie',\n",
+       "  'Gročová',\n",
+       "  'Čepičková',\n",
+       "  'Kubex',\n",
+       "  'Zvonková',\n",
+       "  'Hofer',\n",
+       "  'Nekvapil',\n",
+       "  'Majerová',\n",
+       "  'Josef',\n",
+       "  'Matějovská',\n",
+       "  'Dablik',\n",
+       "  'Suková',\n",
+       "  'Thành',\n",
+       "  'Šefčík',\n",
+       "  'Sáva',\n",
+       "  'Balcarová',\n",
+       "  'Vaclav',\n",
+       "  'Monila',\n",
+       "  'Teréz',\n",
+       "  'Matějíček',\n",
+       "  'Ífka',\n",
+       "  'Rigo',\n",
+       "  'Drobek',\n",
+       "  'Harvánková',\n",
+       "  'Jozko',\n",
+       "  'Ihar',\n",
+       "  'Denča',\n",
+       "  'Julie',\n",
+       "  'Řehulka',\n",
+       "  'Kulicka',\n",
+       "  'Rákosník',\n",
+       "  'Ewík',\n",
+       "  'Trojáková',\n",
+       "  'Šlegrová',\n",
+       "  'Fritschová',\n",
+       "  'Tadeker',\n",
+       "  'Pelán',\n",
+       "  'Ivulka',\n",
+       "  'Doskočilová',\n",
+       "  'Klacková',\n",
+       "  'Dilina',\n",
+       "  'Kacula',\n",
+       "  'Dobrovolna',\n",
+       "  'Wláďa',\n",
+       "  'Juřička',\n",
+       "  'Kvardová',\n",
+       "  'Moonika',\n",
+       "  'Drahunka',\n",
+       "  'Terí',\n",
+       "  'Laduška',\n",
+       "  'Janků',\n",
+       "  'Ureš',\n",
+       "  'Štourač',\n",
+       "  'Sotona',\n",
+       "  'Kubes',\n",
+       "  'Černovská',\n",
+       "  'Strmiska',\n",
+       "  'Terenc',\n",
+       "  'Niki',\n",
+       "  'Vovsová',\n",
+       "  'Zubek',\n",
+       "  'Náčelník',\n",
+       "  'Nella',\n",
+       "  'Klaruše',\n",
+       "  'Wiesner',\n",
+       "  'Václava',\n",
+       "  'Tresky',\n",
+       "  'Čáslava',\n",
+       "  'Vojtaa',\n",
+       "  'Bicková',\n",
+       "  'Hanez',\n",
+       "  'Vejražka',\n",
+       "  'Karlička',\n",
+       "  'Duchoň',\n",
+       "  'Slivka',\n",
+       "  'Milovník',\n",
+       "  'Košátková',\n",
+       "  'Hurníková',\n",
+       "  'Slušný',\n",
+       "  'Holý',\n",
+       "  'Cikánová',\n",
+       "  'Smokehouse',\n",
+       "  'Zdislav',\n",
+       "  'Pazderova',\n",
+       "  'Šádková',\n",
+       "  'Taťka',\n",
+       "  'Zděnda',\n",
+       "  'Tynulka',\n",
+       "  'Kubíík',\n",
+       "  'Seterm',\n",
+       "  'Miloň',\n",
+       "  'Krupková',\n",
+       "  'Budíková',\n",
+       "  'Nika',\n",
+       "  'Korous',\n",
+       "  'Šmejkal',\n",
+       "  'Harazimová',\n",
+       "  'Марянка',\n",
+       "  'Štemberk',\n",
+       "  'Honzik',\n",
+       "  'Serza',\n",
+       "  'Nekola',\n",
+       "  'Bayerova',\n",
+       "  'Jardys',\n",
+       "  'Nikysek',\n",
+       "  'Pavl',\n",
+       "  'Mackova',\n",
+       "  'Wojnarová',\n",
+       "  'Markýz',\n",
+       "  'Zabak',\n",
+       "  'Vystrčil',\n",
+       "  'Hanusova',\n",
+       "  'Lejsek',\n",
+       "  'Brixi',\n",
+       "  'Katchka',\n",
+       "  'Řádková',\n",
+       "  'Mykhaylo',\n",
+       "  'Břetis',\n",
+       "  'Rccg',\n",
+       "  'Blaho',\n",
+       "  'Berka',\n",
+       "  'Fajtová',\n",
+       "  'Sanča',\n",
+       "  'Koudelova',\n",
+       "  'Blažkova',\n",
+       "  'Lukášková',\n",
+       "  'Janderová',\n",
+       "  'Treml',\n",
+       "  'Opravář',\n",
+       "  'Zikánová',\n",
+       "  'Kropáčková',\n",
+       "  'Pertlová',\n",
+       "  'Kalíšek',\n",
+       "  'Halda',\n",
+       "  'Stáza',\n",
+       "  'Vosmík',\n",
+       "  'Mullerová',\n",
+       "  'Ládyn',\n",
+       "  'Kracíková',\n",
+       "  'Andrej',\n",
+       "  'Pfeiferová',\n",
+       "  'Bulínová',\n",
+       "  'Hiếu',\n",
+       "  'Náplavová',\n",
+       "  'Dudl',\n",
+       "  'Džany',\n",
+       "  'Valasek',\n",
+       "  'Kubíno',\n",
+       "  'Samko',\n",
+       "  'Horák',\n",
+       "  'Břicháček',\n",
+       "  'Fotopasti',\n",
+       "  'Ulrichová',\n",
+       "  'Tonislav',\n",
+       "  'Wendys',\n",
+       "  'Evica',\n",
+       "  'Zuzule',\n",
+       "  'Konopová',\n",
+       "  'Pečený',\n",
+       "  'Dynda',\n",
+       "  'Vlaďula',\n",
+       "  'Terézia',\n",
+       "  'Zapletal',\n",
+       "  'Cicko',\n",
+       "  'Zrzka',\n",
+       "  'Nikoolka',\n",
+       "  'Kucmochtová',\n",
+       "  'Zavřel',\n",
+       "  'Krajíček',\n",
+       "  'Simína',\n",
+       "  'Grace',\n",
+       "  'Buchtová',\n",
+       "  'Pečinka',\n",
+       "  'Terca',\n",
+       "  'Miretchek',\n",
+       "  'Sarlota',\n",
+       "  'Čonkova',\n",
+       "  'Zoufalá',\n",
+       "  'Zdisa',\n",
+       "  'Tygřík',\n",
+       "  'Mirek',\n",
+       "  'Христина',\n",
+       "  'Pavlína',\n",
+       "  'Brunnerová',\n",
+       "  'Danielka',\n",
+       "  'Nasťa',\n",
+       "  'Baronka',\n",
+       "  'Baštová',\n",
+       "  'Prroky',\n",
+       "  'Gertruda',\n",
+       "  'Wenca',\n",
+       "  'Hanz',\n",
+       "  'Safranek',\n",
+       "  'Votava',\n",
+       "  'Matoulek',\n",
+       "  'Barbarka',\n",
+       "  'Vydra',\n",
+       "  'Černohlávek',\n",
+       "  'Jeřábek',\n",
+       "  'Pešáková',\n",
+       "  'Fuxová',\n",
+       "  'Kvarda',\n",
+       "  'Milius',\n",
+       "  'Sirůčková',\n",
+       "  'Zko',\n",
+       "  'Jiřína',\n",
+       "  'Grimová',\n",
+       "  'Fotografka',\n",
+       "  'Владислава',\n",
+       "  'Pavlikova',\n",
+       "  'Košnarová',\n",
+       "  'Miris',\n",
+       "  'Danč',\n",
+       "  'Ležáková',\n",
+       "  'Češi',\n",
+       "  'Kvasnica',\n",
+       "  'Barták',\n",
+       "  'Klaruska',\n",
+       "  'Abraka',\n",
+       "  'Vojín',\n",
+       "  'Jenda',\n",
+       "  'Lenka',\n",
+       "  'Bárbra',\n",
+       "  'Husaberg',\n",
+       "  'Ondro',\n",
+       "  'Stanouš',\n",
+       "  'Pytrs',\n",
+       "  'Lektorka',\n",
+       "  'Bělohradský',\n",
+       "  'Dvorska',\n",
+       "  'Svab',\n",
+       "  'Šanda',\n",
+       "  'Toufarová',\n",
+       "  'Čestmír',\n",
+       "  'Pavlínečka',\n",
+       "  'Dudis',\n",
+       "  'Dadka',\n",
+       "  'Rychlík',\n",
+       "  'Fajkus',\n",
+       "  'Tennisa',\n",
+       "  'Maixnerová',\n",
+       "  'Hejčová',\n",
+       "  'Molnárová',\n",
+       "  'Talašová',\n",
+       "  'Janickova',\n",
+       "  'Peterková',\n",
+       "  'Kalčík',\n",
+       "  'Simik',\n",
+       "  'Oksi',\n",
+       "  'Korandová',\n",
+       "  'Filus',\n",
+       "  'Šinágl',\n",
+       "  'Peroutka',\n",
+       "  'Kluci',\n",
+       "  'Røman',\n",
+       "  'Mischak',\n",
+       "  'Kavalír',\n",
+       "  'Qnko',\n",
+       "  'Vičar',\n",
+       "  'Ninuš',\n",
+       "  'Český',\n",
+       "  'Autolakovna',\n",
+       "  'Ehrenbergerová',\n",
+       "  'Kopáč',\n",
+       "  'Štěpis',\n",
+       "  'Nosál',\n",
+       "  'Hornof',\n",
+       "  'Draci',\n",
+       "  'Lindička',\n",
+       "  'Hrabáková',\n",
+       "  'Zlatnictví',\n",
+       "  'Oluša',\n",
+       "  'Sbor',\n",
+       "  'Pjotr',\n",
+       "  'Kleri',\n",
+       "  'Gerenzel',\n",
+       "  'Justýna',\n",
+       "  'Анастасія',\n",
+       "  'Dostálková',\n",
+       "  'Pestra',\n",
+       "  'Penziony',\n",
+       "  'Lenii',\n",
+       "  'Štefinka',\n",
+       "  'Vales',\n",
+       "  'Pegyna',\n",
+       "  'Иван',\n",
+       "  'Dzon',\n",
+       "  'Tessinka',\n",
+       "  'Dandý',\n",
+       "  'Radek',\n",
+       "  'Vodak',\n",
+       "  'Berinka',\n",
+       "  'Matys',\n",
+       "  'Mergl',\n",
+       "  'Славка',\n",
+       "  'Horkel',\n",
+       "  'Biodanza',\n",
+       "  'Kudelová',\n",
+       "  'Matees',\n",
+       "  'Viktora',\n",
+       "  'Lepka',\n",
+       "  'Moňásek',\n",
+       "  'Léňa',\n",
+       "  'Míšinka',\n",
+       "  'Kapek',\n",
+       "  'Zeithamlová',\n",
+       "  'Juklová',\n",
+       "  'Lipták',\n",
+       "  'Lucci',\n",
+       "  'Evelýna',\n",
+       "  'Pouzar',\n",
+       "  'Grisa',\n",
+       "  'Trubač',\n",
+       "  'Zítová',\n",
+       "  'Hujová',\n",
+       "  'Dědina',\n",
+       "  'Běloušková',\n",
+       "  'Lankaš',\n",
+       "  'Kubr',\n",
+       "  'Brodský',\n",
+       "  'Hanys',\n",
+       "  'Kohout',\n",
+       "  'Spacek',\n",
+       "  'Touš',\n",
+       "  'Gejza',\n",
+       "  'Bezděk',\n",
+       "  'Stratil',\n",
+       "  'Hruskova',\n",
+       "  'Libus',\n",
+       "  'Čalounictví',\n",
+       "  'Leunka',\n",
+       "  'Nehtů',\n",
+       "  'Tymofij',\n",
+       "  'Suchánek',\n",
+       "  'Vojťech',\n",
+       "  'Háša',\n",
+       "  'Matusko',\n",
+       "  'Jasanský',\n",
+       "  'Kawulok',\n",
+       "  'Boudová',\n",
+       "  'Janíčková',\n",
+       "  'Netušil',\n",
+       "  'Jánský',\n",
+       "  'Kutil',\n",
+       "  'Zdenča',\n",
+       "  'Šelmek',\n",
+       "  'Kubi',\n",
+       "  'Geržová',\n",
+       "  'Mirdos',\n",
+       "  'Vendelin',\n",
+       "  'Lidunka',\n",
+       "  'Pipik',\n",
+       "  'Klarki',\n",
+       "  'Vyoralová',\n",
+       "  'Baťa',\n",
+       "  'Vodicka',\n",
+       "  'Trávník',\n",
+       "  'Kolařík',\n",
+       "  ...},\n",
+       " 'ORG': {'Goldwater',\n",
+       "  'Madrone',\n",
+       "  'Duryea',\n",
+       "  'Lumière',\n",
+       "  'Hønsvald',\n",
+       "  'University-South',\n",
+       "  'Sinhgad',\n",
+       "  'Isak',\n",
+       "  'Chyron',\n",
+       "  'Itman',\n",
+       "  'Safi',\n",
+       "  'Backhouse',\n",
+       "  'Liquid',\n",
+       "  'Bucharest',\n",
+       "  'Nautronix',\n",
+       "  'PEQAB',\n",
+       "  'Thessaloniki',\n",
+       "  'OSHCA',\n",
+       "  'reseller',\n",
+       "  'Bernois',\n",
+       "  'Metalurg',\n",
+       "  'Avnet',\n",
+       "  'Kimep',\n",
+       "  'Muitalægje',\n",
+       "  'Occupied',\n",
+       "  'Nogometni',\n",
+       "  'Diaraf',\n",
+       "  'Tufik',\n",
+       "  'Doukkali',\n",
+       "  'Lighting,',\n",
+       "  'AETNA,',\n",
+       "  'Oundle',\n",
+       "  'ShroudFilm',\n",
+       "  'Vývoj',\n",
+       "  'Moment',\n",
+       "  'R.H.',\n",
+       "  'Hightower',\n",
+       "  'Barberton',\n",
+       "  'Curtiss',\n",
+       "  'Cardiff',\n",
+       "  '4-5-6',\n",
+       "  'Sturm,',\n",
+       "  'Hizb-an-Nusra',\n",
+       "  'Ogranichennoi',\n",
+       "  'Murray',\n",
+       "  'Transformator',\n",
+       "  'Views',\n",
+       "  'Fighting',\n",
+       "  'Ashton',\n",
+       "  \"'umeke\",\n",
+       "  'Vale',\n",
+       "  'Daang',\n",
+       "  'Energomontaj',\n",
+       "  'Sedbergh',\n",
+       "  'Auchmuty',\n",
+       "  'Ovrya',\n",
+       "  'Christophers',\n",
+       "  'Leister',\n",
+       "  'Pai',\n",
+       "  'Cordium',\n",
+       "  'Guion',\n",
+       "  'Agora',\n",
+       "  'Nambassa',\n",
+       "  'Buddha',\n",
+       "  'Peacebuilding',\n",
+       "  'Adesh',\n",
+       "  'Blulita',\n",
+       "  'WellSpan',\n",
+       "  'Marini',\n",
+       "  '378',\n",
+       "  'Sevigne',\n",
+       "  'Biab',\n",
+       "  'marine',\n",
+       "  'Amerasian',\n",
+       "  'TS&W/Claymore',\n",
+       "  'Defensor',\n",
+       "  'Trud',\n",
+       "  'Flugstoðir',\n",
+       "  'Flash',\n",
+       "  'Asherton',\n",
+       "  '1990s',\n",
+       "  'Suksa',\n",
+       "  'KKS',\n",
+       "  'Marchant',\n",
+       "  'Assestment',\n",
+       "  'Bougainville',\n",
+       "  'RFID',\n",
+       "  'Zhoghov',\n",
+       "  'Bhoomaraddi',\n",
+       "  'Fulham',\n",
+       "  'Sch/Armstrong',\n",
+       "  'Méhaignerie',\n",
+       "  'Karakola',\n",
+       "  'Century',\n",
+       "  'Perfecto',\n",
+       "  'Funny',\n",
+       "  'Redbrick',\n",
+       "  'LKiNG',\n",
+       "  'Explosives',\n",
+       "  'Winnipeg',\n",
+       "  'Wallmann',\n",
+       "  'Tapachula',\n",
+       "  'Architel',\n",
+       "  'Ahed',\n",
+       "  'Strojírenský',\n",
+       "  'Isbister',\n",
+       "  'Tele',\n",
+       "  'Bihać',\n",
+       "  'Hosack',\n",
+       "  'Use',\n",
+       "  'Daeyeon',\n",
+       "  'Silveyville',\n",
+       "  'NEW',\n",
+       "  'Barnegat',\n",
+       "  'Goujon',\n",
+       "  'Minjok',\n",
+       "  'Druge',\n",
+       "  'NORAZ',\n",
+       "  'Kwik-Fit',\n",
+       "  'Cameroons',\n",
+       "  'Sybertooth',\n",
+       "  'Adista',\n",
+       "  'Olivero',\n",
+       "  'Hangchow',\n",
+       "  'JAM',\n",
+       "  'Thulinverken',\n",
+       "  'Myrkdalen',\n",
+       "  'Glenstal',\n",
+       "  'Envision',\n",
+       "  'Tollcross',\n",
+       "  'Kinnard',\n",
+       "  'Yonggi',\n",
+       "  'Tormod',\n",
+       "  'Sopoćani',\n",
+       "  'Template:Richmond',\n",
+       "  'Bluebox',\n",
+       "  'Mother-one',\n",
+       "  'Kidapawan',\n",
+       "  'Tacloban',\n",
+       "  'Fosston',\n",
+       "  'Marghiloman',\n",
+       "  'School-Freshman',\n",
+       "  'Superintendent',\n",
+       "  'Flowertown',\n",
+       "  'Nefesh',\n",
+       "  'Haluxvill',\n",
+       "  'Carrfield',\n",
+       "  'Lucentum',\n",
+       "  'Yearling',\n",
+       "  'Javelinas',\n",
+       "  'Assistants-McAllen',\n",
+       "  'Trendmasters',\n",
+       "  'Albritton',\n",
+       "  'Zora',\n",
+       "  'Merdeka',\n",
+       "  'Bema',\n",
+       "  'Momišići',\n",
+       "  'NATICC',\n",
+       "  'Holdheim',\n",
+       "  'Moneybarn',\n",
+       "  'Batten',\n",
+       "  'Izol,',\n",
+       "  'Karpaty-2',\n",
+       "  'Clown',\n",
+       "  'Rayne',\n",
+       "  'Souls',\n",
+       "  'Krag-Juel-Vind-Frijs',\n",
+       "  'solidarity',\n",
+       "  'Hines-Caldwell',\n",
+       "  'Jonub',\n",
+       "  'Blata',\n",
+       "  'partneři,',\n",
+       "  'ministry',\n",
+       "  'agronomiques',\n",
+       "  'affairs',\n",
+       "  'Cancer,',\n",
+       "  'Balıkesirspor',\n",
+       "  'NYLXS',\n",
+       "  'Ruhrah',\n",
+       "  'Satchel',\n",
+       "  'Eclectic',\n",
+       "  'Qeren',\n",
+       "  'Xiniya',\n",
+       "  'Mendes-France',\n",
+       "  'Jugoslovenska',\n",
+       "  'Spellacy',\n",
+       "  'Pixmania',\n",
+       "  'Yea',\n",
+       "  'Omaga',\n",
+       "  'Glenlara',\n",
+       "  'ASME',\n",
+       "  'HUB',\n",
+       "  'Faye',\n",
+       "  'Toroa',\n",
+       "  'School-Somersworth',\n",
+       "  'Staines',\n",
+       "  'MISC',\n",
+       "  'Intermarket',\n",
+       "  'Chevalier',\n",
+       "  'Bahnpolizei',\n",
+       "  'Marple',\n",
+       "  'Portlethen',\n",
+       "  'McDeere',\n",
+       "  \"Zita's\",\n",
+       "  'Telesforo',\n",
+       "  'Leptondale',\n",
+       "  'Desmond',\n",
+       "  'Asu',\n",
+       "  'Slana',\n",
+       "  'Stila',\n",
+       "  'Stara',\n",
+       "  'Newham',\n",
+       "  'Zakynthos',\n",
+       "  'Hospitallers',\n",
+       "  'Besiana',\n",
+       "  'VVV-Venlo',\n",
+       "  'Wessobrunn',\n",
+       "  'Clareification',\n",
+       "  'Manitex',\n",
+       "  'Macks',\n",
+       "  'départements',\n",
+       "  'Oluwatomisin',\n",
+       "  'Gépgyár',\n",
+       "  'Cardinale',\n",
+       "  'Latil',\n",
+       "  'Seasonings',\n",
+       "  'Åhléns',\n",
+       "  'BANRO',\n",
+       "  'John/Endicott',\n",
+       "  'Cuatiá',\n",
+       "  'Margai',\n",
+       "  'Seanergy',\n",
+       "  'Hanho',\n",
+       "  'Tory',\n",
+       "  'Psychotherapy',\n",
+       "  'Plymouth-Canton',\n",
+       "  'Hoefler',\n",
+       "  'Vinton',\n",
+       "  'Rabel',\n",
+       "  'Mandaue',\n",
+       "  'Shengkai',\n",
+       "  'Adrien',\n",
+       "  'Prospective',\n",
+       "  'FERN',\n",
+       "  'Velyka',\n",
+       "  'Roke',\n",
+       "  'TARBS',\n",
+       "  'Infirm',\n",
+       "  'Stono',\n",
+       "  'Matapeake',\n",
+       "  'Radim',\n",
+       "  'Point-Rtc',\n",
+       "  'Sagesse',\n",
+       "  'Dur-O-Lite',\n",
+       "  'Patricians',\n",
+       "  'Sagle',\n",
+       "  'Juras',\n",
+       "  'Hamed',\n",
+       "  'Liberty-Eylau',\n",
+       "  'Plans',\n",
+       "  'Padmaja',\n",
+       "  'Fredon',\n",
+       "  'Reproductions',\n",
+       "  'Gensler',\n",
+       "  'Salthill',\n",
+       "  'Faktor',\n",
+       "  'Earley',\n",
+       "  'Waresboro',\n",
+       "  'Sanitas',\n",
+       "  'Trufab',\n",
+       "  'MGR-Janaki',\n",
+       "  'Fiske',\n",
+       "  'Mavis',\n",
+       "  'Dřevoeuro,',\n",
+       "  'Organizations/Format',\n",
+       "  'Boulin',\n",
+       "  'Netopia',\n",
+       "  'Basie',\n",
+       "  'Kuraray',\n",
+       "  'Seguin',\n",
+       "  'Mossley',\n",
+       "  'Dyer',\n",
+       "  'Lawsuit',\n",
+       "  'Omer,',\n",
+       "  'Zemun',\n",
+       "  'AuthenTec',\n",
+       "  'Miryang',\n",
+       "  'Academy-Edison',\n",
+       "  'Academy-Onalaska',\n",
+       "  'Post-Crescent',\n",
+       "  'Forestview',\n",
+       "  'Beaty',\n",
+       "  'Goodwood',\n",
+       "  'Martuni',\n",
+       "  'Kilpauk',\n",
+       "  'Mazon-Verona-Kinsman',\n",
+       "  'Litana',\n",
+       "  'Capoeira',\n",
+       "  'Srinivas',\n",
+       "  'NCB',\n",
+       "  'Stoychev',\n",
+       "  'Metroline',\n",
+       "  'Corsair',\n",
+       "  'IDBM',\n",
+       "  'Gibbsboro',\n",
+       "  'Speiderforbund',\n",
+       "  'Vamida,',\n",
+       "  \"Shoney's\",\n",
+       "  'Grewenow',\n",
+       "  'Kingswinford',\n",
+       "  'Ammons',\n",
+       "  'Aught',\n",
+       "  'thermique',\n",
+       "  'GoYin',\n",
+       "  '282',\n",
+       "  'Fouad',\n",
+       "  'Čerpání',\n",
+       "  'Clip',\n",
+       "  'Chechnya',\n",
+       "  'Hansa',\n",
+       "  'Campobasso',\n",
+       "  'Dandenong',\n",
+       "  'Morigeau',\n",
+       "  'Todos',\n",
+       "  'Cibibon',\n",
+       "  'Ayre',\n",
+       "  'Monon',\n",
+       "  'Proizvodnja,',\n",
+       "  'Ericsson',\n",
+       "  'Holek',\n",
+       "  'Bentonit',\n",
+       "  'Thurrock',\n",
+       "  'NEI',\n",
+       "  'Grownupgreen',\n",
+       "  'estate,',\n",
+       "  'guards',\n",
+       "  'Tydfil',\n",
+       "  'Shechen',\n",
+       "  'Adami',\n",
+       "  'Oley',\n",
+       "  'Lineville-Clio',\n",
+       "  'Pascagoula',\n",
+       "  'Supertec',\n",
+       "  'JKT',\n",
+       "  'Lemont',\n",
+       "  'Kingsbury',\n",
+       "  'GIVE',\n",
+       "  'Stor-Elvdal',\n",
+       "  'Greynium',\n",
+       "  'Bundoora',\n",
+       "  'Bodhi',\n",
+       "  'Biocountry',\n",
+       "  'Reklamugynokseg',\n",
+       "  'Waqaea',\n",
+       "  'Hewan',\n",
+       "  'Bodin',\n",
+       "  'Ferndale',\n",
+       "  'Eckhart',\n",
+       "  'Electronique',\n",
+       "  'Lumea',\n",
+       "  'Nizamia',\n",
+       "  'McNally',\n",
+       "  'Hadnot',\n",
+       "  'Possum',\n",
+       "  'Ovarense',\n",
+       "  'CIBC',\n",
+       "  'AFA',\n",
+       "  'Ungana-Afrika',\n",
+       "  'Manatau',\n",
+       "  'Cherokees',\n",
+       "  'Graf-Munster-Gymnasium',\n",
+       "  'Hogges',\n",
+       "  'MacEachen',\n",
+       "  'Weighted',\n",
+       "  'Kennerly',\n",
+       "  'Renner',\n",
+       "  'V.I.S.A.',\n",
+       "  'Distillaries',\n",
+       "  'Transmountain',\n",
+       "  'Tapia',\n",
+       "  'Feromat',\n",
+       "  'Hutsonville',\n",
+       "  'Steinadler',\n",
+       "  'Rehan',\n",
+       "  \"Macy's,\",\n",
+       "  'Debartolo',\n",
+       "  'Scotts',\n",
+       "  'TRANSEARCH',\n",
+       "  'Sagebrush',\n",
+       "  'GASAG',\n",
+       "  'Nicktoons',\n",
+       "  'Maudrey',\n",
+       "  'Frontrunners',\n",
+       "  'Butterley',\n",
+       "  'SAIC',\n",
+       "  'Ruhani',\n",
+       "  'Celerity',\n",
+       "  'Soddo',\n",
+       "  'Odee',\n",
+       "  'Oklee',\n",
+       "  'Maidstone',\n",
+       "  '46-Charles',\n",
+       "  'Face',\n",
+       "  'Macatawa',\n",
+       "  'Ritar',\n",
+       "  'Pleşu',\n",
+       "  'Harrisonburg',\n",
+       "  'Jayewardenepura',\n",
+       "  'Cramer',\n",
+       "  'Družstvo',\n",
+       "  'Estância',\n",
+       "  'Job',\n",
+       "  'Zanardelli',\n",
+       "  'Hevia',\n",
+       "  'Manhasset',\n",
+       "  'Cyberjaya',\n",
+       "  'Elphick',\n",
+       "  'Kratzert',\n",
+       "  'Paso-Gridley',\n",
+       "  'Harrassowitz',\n",
+       "  'Záchranáři,',\n",
+       "  'Brunton,',\n",
+       "  'Semiconductor',\n",
+       "  'Saddlers',\n",
+       "  'Marcia',\n",
+       "  'Template:Atlanta',\n",
+       "  'Gend',\n",
+       "  'Smit',\n",
+       "  'Agogo',\n",
+       "  'Kasthuri',\n",
+       "  'Brewood',\n",
+       "  'Lampre',\n",
+       "  'Luffenham',\n",
+       "  'Tshogdu',\n",
+       "  'Brisson',\n",
+       "  'Hepburn',\n",
+       "  'ABTI-American',\n",
+       "  'Daventry',\n",
+       "  'Quantex',\n",
+       "  'Bullants',\n",
+       "  'Drinking',\n",
+       "  'Enclave',\n",
+       "  'Hankamer',\n",
+       "  'Oliva',\n",
+       "  'Cosmopolitan',\n",
+       "  'Sint-Truidense',\n",
+       "  'Draytonville',\n",
+       "  'HES,',\n",
+       "  'Westrans',\n",
+       "  'Politico',\n",
+       "  'Lincroft',\n",
+       "  'Deltras',\n",
+       "  'Hiraben',\n",
+       "  'Mayan',\n",
+       "  'Reactrix',\n",
+       "  'Zeferino',\n",
+       "  'Chashama',\n",
+       "  'Mahilyou',\n",
+       "  'Stoph',\n",
+       "  'Dabugaon',\n",
+       "  'Kuttichal',\n",
+       "  'Thompsen',\n",
+       "  'Bharali',\n",
+       "  'Asda',\n",
+       "  'Tikveš',\n",
+       "  'Eschen/Mauren',\n",
+       "  'Collinswood',\n",
+       "  'Cry',\n",
+       "  'Youngs',\n",
+       "  \"Malley's\",\n",
+       "  'Renwood',\n",
+       "  'Rajarshi',\n",
+       "  'Graveraet',\n",
+       "  'Evaluation',\n",
+       "  'Kutir',\n",
+       "  \"d'opinion\",\n",
+       "  'Havras,',\n",
+       "  'Tuerto',\n",
+       "  'Malbaza',\n",
+       "  'Michael-Albertville',\n",
+       "  'Mohanlal',\n",
+       "  'Rotem',\n",
+       "  'Borman',\n",
+       "  'Josef',\n",
+       "  'Montague',\n",
+       "  \"Nature's\",\n",
+       "  'Révolutionnaire',\n",
+       "  'Nobuyuki',\n",
+       "  'Lucama',\n",
+       "  'Gainesville,inc.',\n",
+       "  'Gigurtu',\n",
+       "  'Tozer',\n",
+       "  'Lexus',\n",
+       "  'Endo',\n",
+       "  'Venkateshwara',\n",
+       "  'PLANSEE',\n",
+       "  'Hansabank',\n",
+       "  'E-15',\n",
+       "  'Saint-Louis',\n",
+       "  'Istmo',\n",
+       "  'Herber',\n",
+       "  'Magnet',\n",
+       "  'ECRYPT',\n",
+       "  'Delfield',\n",
+       "  'Southbound',\n",
+       "  'Metallurgy',\n",
+       "  'Bahir',\n",
+       "  'vihar',\n",
+       "  'Taipans',\n",
+       "  'Fisler',\n",
+       "  'Viking',\n",
+       "  'Skog',\n",
+       "  'Faucon',\n",
+       "  'Wawaloam',\n",
+       "  'PMC',\n",
+       "  'Weeping',\n",
+       "  'names',\n",
+       "  'JONELTA',\n",
+       "  'Missouri-Columbia',\n",
+       "  'Potts',\n",
+       "  'Certified',\n",
+       "  'Azania',\n",
+       "  'Arrowsmith',\n",
+       "  'Karbalaa',\n",
+       "  'Apostle',\n",
+       "  'Stunners',\n",
+       "  'Clydesdale',\n",
+       "  'Kasuri',\n",
+       "  'articles/Cooperatives',\n",
+       "  'CDs',\n",
+       "  'Arapahoe',\n",
+       "  'Russian-Armenian',\n",
+       "  'Wannaque',\n",
+       "  'Harder',\n",
+       "  'Flames',\n",
+       "  'Warren-Alvarado-Oslo',\n",
+       "  'Mirpur',\n",
+       "  'Izard',\n",
+       "  'Stipula',\n",
+       "  'Diversifed',\n",
+       "  'S-Mid',\n",
+       "  \"Lot's\",\n",
+       "  'Sorbara',\n",
+       "  'Gregorio',\n",
+       "  'Antech',\n",
+       "  'Garndiffaith',\n",
+       "  'Illustrated',\n",
+       "  'Halawa',\n",
+       "  'planet',\n",
+       "  'Aigieas',\n",
+       "  'Peake',\n",
+       "  'Emmalena',\n",
+       "  'Sexsmith',\n",
+       "  'Aftec-Palisades',\n",
+       "  'Clonfert',\n",
+       "  'Gebrüder',\n",
+       "  'Defenses',\n",
+       "  'Sonicare',\n",
+       "  'Boström',\n",
+       "  'Vetenskap',\n",
+       "  'Gulfport',\n",
+       "  'Piccola',\n",
+       "  'LeZion',\n",
+       "  'Polirom',\n",
+       "  'Bandalag',\n",
+       "  'Hartsfield',\n",
+       "  'Schoenly',\n",
+       "  'Gollancz',\n",
+       "  'Dryburgh',\n",
+       "  'Datastorm',\n",
+       "  'REXCAPITAL',\n",
+       "  'Apocalypse',\n",
+       "  'Steczkowski',\n",
+       "  'Tursib',\n",
+       "  'Mouchel',\n",
+       "  'Es-Company',\n",
+       "  'Badshot',\n",
+       "  'Kerasotes',\n",
+       "  'Menzies',\n",
+       "  'Denia',\n",
+       "  'Clarins',\n",
+       "  'Maricourt',\n",
+       "  'Rooks',\n",
+       "  'Yard',\n",
+       "  'Sohar',\n",
+       "  'ERGOPRAXIS',\n",
+       "  'Muerte',\n",
+       "  '2006-07',\n",
+       "  'Annual',\n",
+       "  '477th',\n",
+       "  'DIRP,',\n",
+       "  'CO-OP',\n",
+       "  'Hillingdon',\n",
+       "  'Baykal',\n",
+       "  'HannStar',\n",
+       "  'Knickerbocker',\n",
+       "  'Covadonga',\n",
+       "  'Positron!',\n",
+       "  'Impuzamugambi',\n",
+       "  'Bodydonnas',\n",
+       "  'Bachoco',\n",
+       "  'Recreation',\n",
+       "  'Mqabba',\n",
+       "  'Guinyard',\n",
+       "  'MPPJ',\n",
+       "  'Telstar',\n",
+       "  'Rubery',\n",
+       "  'Priština',\n",
+       "  'Infrastructur',\n",
+       "  'Apotex',\n",
+       "  'Redstone',\n",
+       "  'Timisoara',\n",
+       "  'Climsland',\n",
+       "  'VirnetX',\n",
+       "  'Bowl',\n",
+       "  'Iiro',\n",
+       "  'Minneapolis',\n",
+       "  \"d'Ingénieurs\",\n",
+       "  'UMS-Wright',\n",
+       "  'Bourg-Péronnas',\n",
+       "  'Daňka,',\n",
+       "  'Miner',\n",
+       "  'Kordcarbon,',\n",
+       "  'DEKA',\n",
+       "  'Institute-Cordova',\n",
+       "  'Ybarra',\n",
+       "  'Mirek',\n",
+       "  'Sambo',\n",
+       "  'Clairton',\n",
+       "  'SAIPA',\n",
+       "  'Incognito',\n",
+       "  'HMSI',\n",
+       "  'Zip.ca',\n",
+       "  'Sucessores,',\n",
+       "  'ONFEM',\n",
+       "  'City-As-School',\n",
+       "  'Huntington-Surrey',\n",
+       "  'Tolleson',\n",
+       "  'Hamilton-Maineville',\n",
+       "  'Swint',\n",
+       "  'Karabükspor',\n",
+       "  'Demolice,',\n",
+       "  'Ravailler',\n",
+       "  'Latson',\n",
+       "  'Primus',\n",
+       "  'Jwp',\n",
+       "  'Základní',\n",
+       "  'Vaudreuil',\n",
+       "  'HITEC',\n",
+       "  'Netherhall',\n",
+       "  'Corridor',\n",
+       "  'Jabalain',\n",
+       "  'Corymore',\n",
+       "  'Fortissimo',\n",
+       "  'Liliam',\n",
+       "  'Nilsson',\n",
+       "  'Etnyre',\n",
+       "  'Maranhao',\n",
+       "  'Hainan',\n",
+       "  'Domo',\n",
+       "  'Rychlík',\n",
+       "  'Reproservis',\n",
+       "  'MTA',\n",
+       "  'Konekta',\n",
+       "  'Permafrost',\n",
+       "  'Aktivit',\n",
+       "  'Stjarnan',\n",
+       "  'Peck',\n",
+       "  'Epoch',\n",
+       "  'Eurohypo',\n",
+       "  'Cardiel',\n",
+       "  'Metaflow',\n",
+       "  'Fairey',\n",
+       "  'Mondial',\n",
+       "  'Katayama',\n",
+       "  'Hempel',\n",
+       "  \"d'Aix\",\n",
+       "  'Lateko',\n",
+       "  'Tommie',\n",
+       "  'Marrs',\n",
+       "  'Soriano-Pedroso',\n",
+       "  'Cavanaugh',\n",
+       "  'ICPR',\n",
+       "  'Finn',\n",
+       "  'Mozarteum',\n",
+       "  'Tarleton',\n",
+       "  'CAFE,',\n",
+       "  'Ashtarak',\n",
+       "  'Ohlange',\n",
+       "  'Kosan',\n",
+       "  'delo',\n",
+       "  'Crvenkovski',\n",
+       "  'Celaya',\n",
+       "  'Yasufumi',\n",
+       "  'Goel',\n",
+       "  'développement',\n",
+       "  'Mukhtar',\n",
+       "  'Institute-Westminster',\n",
+       "  'Tenor',\n",
+       "  'Kickapoo',\n",
+       "  'Sullins',\n",
+       "  'Paulson',\n",
+       "  'Vales',\n",
+       "  'Gerwani',\n",
+       "  'Arusha',\n",
+       "  'Sontag',\n",
+       "  'Mussa',\n",
+       "  'Rivière-Pilote',\n",
+       "  'XING',\n",
+       "  'Schott',\n",
+       "  'NASCAR',\n",
+       "  'Psychology,',\n",
+       "  'Bahujan',\n",
+       "  'UNIX',\n",
+       "  'Bif',\n",
+       "  'Mountz',\n",
+       "  'Naresuan',\n",
+       "  'Centrair',\n",
+       "  'School-Harrisburg',\n",
+       "  'Akella',\n",
+       "  'Gizz,',\n",
+       "  'Gzira',\n",
+       "  'Historiska',\n",
+       "  'Cathkin',\n",
+       "  'Nationaliste',\n",
+       "  'Zimmermann',\n",
+       "  'Germaniawerft',\n",
+       "  'Tampico',\n",
+       "  'Mbujimayi',\n",
+       "  'Aidano,',\n",
+       "  'Ponferradina',\n",
+       "  'Sunbirds',\n",
+       "  'Stottlemyer',\n",
+       "  'Glorian',\n",
+       "  'Taylor/Kirklane',\n",
+       "  'Canine',\n",
+       "  'Landers',\n",
+       "  'Serikat',\n",
+       "  'Logistics',\n",
+       "  'Elemetary',\n",
+       "  'EUROPE,',\n",
+       "  'Northolt',\n",
+       "  'Glanc',\n",
+       "  'Clary',\n",
+       "  'Alperton',\n",
+       "  'Mcgaheysville',\n",
+       "  'Holyrood',\n",
+       "  'FirstCity',\n",
+       "  'Impe',\n",
+       "  'Harpenden',\n",
+       "  'Suchánek',\n",
+       "  'Subex',\n",
+       "  'GrowHow',\n",
+       "  'Dartmoor',\n",
+       "  'Fifty-Sixth',\n",
+       "  'Palee',\n",
+       "  'Disappeared',\n",
+       "  'Grierson',\n",
+       "  'Revap,',\n",
+       "  'al-Attar',\n",
+       "  'Unite',\n",
+       "  'Nevin',\n",
+       "  'Yverdon-Sport',\n",
+       "  'GalGael',\n",
+       "  'Vendelin',\n",
+       "  'Coola',\n",
+       "  'Kepong',\n",
+       "  'Gen¹³',\n",
+       "  'Ryans',\n",
+       "  'Maxwelltown',\n",
+       "  'Impak',\n",
+       "  'pro.',\n",
+       "  'planning',\n",
+       "  'Brent',\n",
+       "  'Academic',\n",
+       "  'Hillerich',\n",
+       "  'Zentral-Dombauverein',\n",
+       "  'Marr',\n",
+       "  'Harp',\n",
+       "  'Pulmuone',\n",
+       "  'Tziona',\n",
+       "  'Mccarter',\n",
+       "  'Lyonpo',\n",
+       "  'I.T.',\n",
+       "  'Sivagiri',\n",
+       "  'Aptidon',\n",
+       "  'Malibu',\n",
+       "  'Limarko',\n",
+       "  'Pinero',\n",
+       "  'Novator',\n",
+       "  'Stephens',\n",
+       "  \"Colt's\",\n",
+       "  'Fovu',\n",
+       "  'SIPoL',\n",
+       "  'Montreux',\n",
+       "  'Minne',\n",
+       "  'DSN,',\n",
+       "  'Farband',\n",
+       "  'Resistances',\n",
+       "  'Mance',\n",
+       "  'Nestucca',\n",
+       "  'Bremond',\n",
+       "  'Precis',\n",
+       "  'Harsanyi',\n",
+       "  'Ryders',\n",
+       "  'Cinenova',\n",
+       "  'Maths',\n",
+       "  'RSPORTS',\n",
+       "  'Damelin',\n",
+       "  'Omoljica',\n",
+       "  'Cushing',\n",
+       "  'Bergfrid',\n",
+       "  'Swagelok',\n",
+       "  'netball',\n",
+       "  'Myślenice',\n",
+       "  \"Hook's\",\n",
+       "  'Valves',\n",
+       "  'Wilson,',\n",
+       "  'Wilbraham',\n",
+       "  'Eurocom',\n",
+       "  'Pabriks',\n",
+       "  'Sequah',\n",
+       "  'Vorachith',\n",
+       "  'Benjamin',\n",
+       "  'Poplin',\n",
+       "  'Arrant-Light',\n",
+       "  'Ostružnica',\n",
+       "  'Calyon',\n",
+       "  'KLH',\n",
+       "  'BofI',\n",
+       "  'M-League',\n",
+       "  'chaparratique',\n",
+       "  'Kauno',\n",
+       "  'Delphic',\n",
+       "  'Shishi',\n",
+       "  'Hornmed,',\n",
+       "  'Marmot',\n",
+       "  'Okolona',\n",
+       "  'Tele-Network',\n",
+       "  'Cowlishaw',\n",
+       "  'Ghazl',\n",
+       "  'Inuksuk',\n",
+       "  'Greens/Green',\n",
+       "  'Optech',\n",
+       "  'Equitable',\n",
+       "  'Datenschlag',\n",
+       "  'Derkach',\n",
+       "  'Summ',\n",
+       "  'BroadVoice',\n",
+       "  'Langton',\n",
+       "  'Arcelor',\n",
+       "  'Yosemite',\n",
+       "  'Vaillante',\n",
+       "  'Mussellman',\n",
+       "  'Frulact',\n",
+       "  'mont,',\n",
+       "  'Middelthon',\n",
+       "  'Template:Rutgers',\n",
+       "  'Nanzan',\n",
+       "  'Bashford',\n",
+       "  'Tampa,',\n",
+       "  'Illusion',\n",
+       "  'Metrovile',\n",
+       "  'J-Link',\n",
+       "  'Talmadge',\n",
+       "  'ESR',\n",
+       "  'Catamount',\n",
+       "  'Fairland',\n",
+       "  'wal-Jihad',\n",
+       "  'Tickson',\n",
+       "  'Bimbo',\n",
+       "  'Toward',\n",
+       "  'Mauston',\n",
+       "  'Wasserstein',\n",
+       "  'Royce',\n",
+       "  'Strathcona',\n",
+       "  'Wide',\n",
+       "  'Hairgrove',\n",
+       "  'BG-TURK',\n",
+       "  'Ahasanullah',\n",
+       "  'Tryggvi',\n",
+       "  'Altern',\n",
+       "  'Mathey',\n",
+       "  'Photronics',\n",
+       "  'Dualit',\n",
+       "  'Nullsoft',\n",
+       "  'Marcher',\n",
+       "  'Talas',\n",
+       "  'Boals',\n",
+       "  'Polytechnická',\n",
+       "  'Sante',\n",
+       "  'Acreage',\n",
+       "  'Ecotricity',\n",
+       "  'Guotai',\n",
+       "  'Compass',\n",
+       "  'Ceferino',\n",
+       "  'Image:NVCClogo.gif',\n",
+       "  'Proto-Cathedral',\n",
+       "  'Rensselaer',\n",
+       "  \"Sant'Antonio\",\n",
+       "  'Lenca',\n",
+       "  'Allgood',\n",
+       "  'Chidhood',\n",
+       "  'Daewon',\n",
+       "  'Ichabod',\n",
+       "  'Starvation',\n",
+       "  'Oppigards',\n",
+       "  'PostEurop',\n",
+       "  'Enron',\n",
+       "  'Heure',\n",
+       "  'Extreme-Park',\n",
+       "  'MIS',\n",
+       "  'Doe',\n",
+       "  'Hanburys',\n",
+       "  'Měřičkova',\n",
+       "  'Siege',\n",
+       "  'Schoollaire',\n",
+       "  'Caledonians',\n",
+       "  'Bargalló',\n",
+       "  'Drumsurn',\n",
+       "  'Mellbye',\n",
+       "  'Coyote',\n",
+       "  'Issaries,',\n",
+       "  'Reiffton',\n",
+       "  'Hung',\n",
+       "  'Mukka',\n",
+       "  'Makedonski',\n",
+       "  'Consolation',\n",
+       "  'Friends',\n",
+       "  'F.X.',\n",
+       "  'Churchill',\n",
+       "  'Metalock',\n",
+       "  'Fellowships',\n",
+       "  'Dalen',\n",
+       "  'Pro-Am',\n",
+       "  'Oddfellows',\n",
+       "  'Haglöfs',\n",
+       "  'Folkestad',\n",
+       "  'NeoPac',\n",
+       "  'Rajhans',\n",
+       "  'Castleblayney',\n",
+       "  'Shawnigan',\n",
+       "  'Pristis',\n",
+       "  'Conservators',\n",
+       "  'Scoil',\n",
+       "  'Draude',\n",
+       "  'Peat',\n",
+       "  'MBM',\n",
+       "  'Capistrano-Laguna',\n",
+       "  'Yabra',\n",
+       "  'Dateland',\n",
+       "  'Literarcy',\n",
+       "  'Chem-Mod',\n",
+       "  'MphasiS',\n",
+       "  'Landeck',\n",
+       "  'Ventures,',\n",
+       "  'Shanker',\n",
+       "  'Knocklyon',\n",
+       "  'NEP',\n",
+       "  'Ana',\n",
+       "  'Freiheit',\n",
+       "  'Vitoria',\n",
+       "  'Understanding',\n",
+       "  'Ingrad',\n",
+       "  'Nesom',\n",
+       "  'AmbA',\n",
+       "  'E.W.',\n",
+       "  'Actioneer,',\n",
+       "  'Lenoir-Rhyne',\n",
+       "  'Datakonsult',\n",
+       "  'Glimcher',\n",
+       "  'VIA,',\n",
+       "  'Wikipedia:Forum',\n",
+       "  'Institute-Oklahoma',\n",
+       "  'Isd-Local',\n",
+       "  'Interboro',\n",
+       "  'Diagonal',\n",
+       "  'Acrylic',\n",
+       "  'Castleson',\n",
+       "  'Jippi',\n",
+       "  'Purpose',\n",
+       "  'Kinabalu',\n",
+       "  'Takapuna',\n",
+       "  'Fil',\n",
+       "  'Osawatomie',\n",
+       "  'Accident',\n",
+       "  \"O'Dempseys\",\n",
+       "  'Stategies',\n",
+       "  'Recepcao',\n",
+       "  'Kaptol',\n",
+       "  'Monell',\n",
+       "  'Melters',\n",
+       "  'Garbadale',\n",
+       "  'Melanesia',\n",
+       "  'Haub',\n",
+       "  'Lázár',\n",
+       "  'Ash',\n",
+       "  'RMD',\n",
+       "  'Vernon-Verona-Sherrill',\n",
+       "  \"Pearson's\",\n",
+       "  ...},\n",
+       " 'LOC': {'Ningerova',\n",
+       "  'Stolzové',\n",
+       "  'Domcích',\n",
+       "  'Sedlická',\n",
+       "  'Konradova',\n",
+       "  'Dělová',\n",
+       "  'Bucharest',\n",
+       "  'Lipoltov',\n",
+       "  'Andělka',\n",
+       "  'Náplavní',\n",
+       "  'Hlupenov',\n",
+       "  'Radětínská',\n",
+       "  'Kozojedy',\n",
+       "  'Hrádecký',\n",
+       "  'Koledníku',\n",
+       "  'Čajkovského',\n",
+       "  'háječku',\n",
+       "  'Prstná',\n",
+       "  'Dluhoště',\n",
+       "  'Jejkov',\n",
+       "  'Korábu',\n",
+       "  'Cardiff',\n",
+       "  'Lipinka',\n",
+       "  'Judytky',\n",
+       "  'Baizy',\n",
+       "  'Dlažební',\n",
+       "  'Malířská',\n",
+       "  'Pešatova',\n",
+       "  'Lesotho',\n",
+       "  'Kosmá',\n",
+       "  'Förstrova',\n",
+       "  'Větruši',\n",
+       "  'Vodičků',\n",
+       "  'Čumpelíkova',\n",
+       "  'Klavarská',\n",
+       "  'Pramene',\n",
+       "  'Lidušky',\n",
+       "  'Vilémovská',\n",
+       "  'Pospíšilovo',\n",
+       "  'Kaštanu',\n",
+       "  'Bělidla',\n",
+       "  'Ratměřice',\n",
+       "  'Radoušova',\n",
+       "  'Traxlerova',\n",
+       "  'tůních',\n",
+       "  'Přečkova',\n",
+       "  'Zvěřínská',\n",
+       "  'Netlukám',\n",
+       "  'Potštát',\n",
+       "  'Osobovy',\n",
+       "  'Farkám',\n",
+       "  'Lassallova',\n",
+       "  'Vantrokách',\n",
+       "  'Desátém',\n",
+       "  'Struhaře',\n",
+       "  'Vítova',\n",
+       "  'Lohrera',\n",
+       "  'Pavlišovská',\n",
+       "  'Milošice',\n",
+       "  'Závisti',\n",
+       "  'Pelikána',\n",
+       "  'Rajhrad',\n",
+       "  'Valenty',\n",
+       "  'Rotherham',\n",
+       "  'Zbába',\n",
+       "  'Sborová',\n",
+       "  'Senotín',\n",
+       "  'Otmíče',\n",
+       "  'Olivy',\n",
+       "  'Zdymadlu',\n",
+       "  'Lubě',\n",
+       "  'Blata',\n",
+       "  'Donín',\n",
+       "  'roklí',\n",
+       "  'Pernštejnské',\n",
+       "  'Gustava',\n",
+       "  'Malešická',\n",
+       "  'Ronzovy',\n",
+       "  'Bílka',\n",
+       "  'Fišpance',\n",
+       "  'skladům',\n",
+       "  'Vleku',\n",
+       "  'Pokutická',\n",
+       "  'Koněspřežky',\n",
+       "  'Koutecká',\n",
+       "  'Malínky',\n",
+       "  'Kulhavého',\n",
+       "  'Ledenice',\n",
+       "  'Rozvadovská',\n",
+       "  'Kostrbova',\n",
+       "  'Přeložky',\n",
+       "  'vysočině',\n",
+       "  'Plavínová',\n",
+       "  'Štúrova',\n",
+       "  'Špičníku',\n",
+       "  'Grunty',\n",
+       "  'Postřelmov',\n",
+       "  'Při',\n",
+       "  'Masných',\n",
+       "  'Kusého',\n",
+       "  'Jérez',\n",
+       "  'Trstenická',\n",
+       "  'Deštná',\n",
+       "  'Spálenky',\n",
+       "  'Paříž',\n",
+       "  'Nebovazy',\n",
+       "  'Bzdince',\n",
+       "  'Prokopov',\n",
+       "  'Plk.',\n",
+       "  'Zbenice',\n",
+       "  'Sněmovní',\n",
+       "  'Hrázek',\n",
+       "  'Kondrac',\n",
+       "  'Vodnická',\n",
+       "  'Kanada',\n",
+       "  'Nýrsko',\n",
+       "  'Radim',\n",
+       "  'Lermontovova',\n",
+       "  'Ploiesti',\n",
+       "  'Knín',\n",
+       "  'Slov.',\n",
+       "  'Blanice',\n",
+       "  'Pražákova',\n",
+       "  'Moutnice',\n",
+       "  'Bartoňův',\n",
+       "  'Teslova',\n",
+       "  'Rozsedly',\n",
+       "  'Kolné',\n",
+       "  'Kestřan',\n",
+       "  'Bylany',\n",
+       "  'Novinová',\n",
+       "  'Chleby',\n",
+       "  'Tocháčkův',\n",
+       "  'Cibulky',\n",
+       "  'Vizině',\n",
+       "  'Veletiny',\n",
+       "  'Podhorní',\n",
+       "  'Kirilovova',\n",
+       "  'mezí',\n",
+       "  'Pánvích',\n",
+       "  'Hliníky',\n",
+       "  'Čajkova',\n",
+       "  'Rýza',\n",
+       "  'Šenovská',\n",
+       "  'Ramzová',\n",
+       "  'Vilémovec',\n",
+       "  'Synalov',\n",
+       "  'Táborského',\n",
+       "  'Chlumčany',\n",
+       "  'Salonika',\n",
+       "  'Bělohradská',\n",
+       "  'Pecihrádku',\n",
+       "  'Británce',\n",
+       "  'Herolda',\n",
+       "  'Oznice',\n",
+       "  'Mincovní',\n",
+       "  'Žebětínská',\n",
+       "  'Alejíčku',\n",
+       "  'Vrbičany',\n",
+       "  'Sobí',\n",
+       "  'Oblekovická',\n",
+       "  'úvozem',\n",
+       "  'Hájčí',\n",
+       "  'Brázdimská',\n",
+       "  'Týneckého',\n",
+       "  'Pamferova',\n",
+       "  'Želinská',\n",
+       "  'Koštíře',\n",
+       "  'Količín',\n",
+       "  'Jilmu',\n",
+       "  'rybníkům',\n",
+       "  'Souška',\n",
+       "  'Korábě',\n",
+       "  'Němčice',\n",
+       "  'Všechromy',\n",
+       "  'váhy',\n",
+       "  'Podvlčí',\n",
+       "  'hranic',\n",
+       "  'Deutschova',\n",
+       "  'Řádkách',\n",
+       "  'Kochánky',\n",
+       "  'Benešova',\n",
+       "  'Olšávkou',\n",
+       "  'hnízda',\n",
+       "  'Stupešice',\n",
+       "  'Rachvalská',\n",
+       "  'Družnosti',\n",
+       "  'Rozvadovice',\n",
+       "  'Padařov',\n",
+       "  'Souhrada',\n",
+       "  'Sudoměř',\n",
+       "  'Žitětín',\n",
+       "  'Bartolomějská',\n",
+       "  'Rtýňská',\n",
+       "  'Jakobiho',\n",
+       "  'Ungeltem',\n",
+       "  'Božec',\n",
+       "  'Michovka',\n",
+       "  'Hospříz',\n",
+       "  'Litomyšlské',\n",
+       "  'honu',\n",
+       "  'Borečkova',\n",
+       "  'Tehovičkách',\n",
+       "  'Stypova',\n",
+       "  'sportovců',\n",
+       "  'Čupy',\n",
+       "  'Pecím',\n",
+       "  'Podstádlí',\n",
+       "  'Msgre',\n",
+       "  'Ryšánce',\n",
+       "  'Zárybnice',\n",
+       "  'Labi',\n",
+       "  'Výmolem',\n",
+       "  'Klacovská',\n",
+       "  'Janštejn',\n",
+       "  'Lukavského',\n",
+       "  'Přímské',\n",
+       "  'Dožice',\n",
+       "  'Palcary',\n",
+       "  'Paneláku',\n",
+       "  'Rákosová',\n",
+       "  'Bulhara',\n",
+       "  'Krondlova',\n",
+       "  'Mlýnský',\n",
+       "  'Bernáčkova',\n",
+       "  'Mirošovická',\n",
+       "  'Jevišovka',\n",
+       "  'Valinkevičova',\n",
+       "  'Častonín',\n",
+       "  'Důlku',\n",
+       "  'Poledníkova',\n",
+       "  'Enkláva',\n",
+       "  'Ottova',\n",
+       "  'Kralovice',\n",
+       "  'Češov',\n",
+       "  'Zvonková',\n",
+       "  'Rohozenská',\n",
+       "  'Ferrariho',\n",
+       "  'Josef',\n",
+       "  'Čertousy',\n",
+       "  'Špýcharem',\n",
+       "  'Czestochowa',\n",
+       "  'Hrbov',\n",
+       "  'Bukačov',\n",
+       "  'Milovicům',\n",
+       "  'Smetánkou',\n",
+       "  'Příkopy',\n",
+       "  'Kanín',\n",
+       "  'Příči',\n",
+       "  'Čakovická',\n",
+       "  'Závěrce',\n",
+       "  'Lahovskou',\n",
+       "  'Znojmo',\n",
+       "  'Kypy',\n",
+       "  'Záhlinice',\n",
+       "  'rukavičkárně',\n",
+       "  'Slubice',\n",
+       "  'kulturním',\n",
+       "  'Folmava',\n",
+       "  'Maninách',\n",
+       "  'Blahobytu',\n",
+       "  'Lichtenštejnská',\n",
+       "  'Fortny',\n",
+       "  'Kaštanová',\n",
+       "  'Šípkova',\n",
+       "  'Voňavá',\n",
+       "  'Jezerce',\n",
+       "  'Hořany',\n",
+       "  'Vilémovice',\n",
+       "  'Dolánecké',\n",
+       "  'Práchovně',\n",
+       "  'Rukáveč',\n",
+       "  'Bubovická',\n",
+       "  'Fortenská',\n",
+       "  'Mackova',\n",
+       "  'Doublovičky',\n",
+       "  'Votroubkova',\n",
+       "  'středu',\n",
+       "  'Dómská',\n",
+       "  'Křečkov',\n",
+       "  'Blaho',\n",
+       "  'Kytlická',\n",
+       "  'Drozdická',\n",
+       "  'habru',\n",
+       "  'Blažkova',\n",
+       "  'Hospodou',\n",
+       "  'Vráží',\n",
+       "  'Mošnice',\n",
+       "  'Cest',\n",
+       "  'Hackerova',\n",
+       "  'Nantes',\n",
+       "  'Čakovice',\n",
+       "  'Kuchynky',\n",
+       "  'Harantova',\n",
+       "  'Drátenická',\n",
+       "  'Vítězství',\n",
+       "  'Vraní',\n",
+       "  'Maredova',\n",
+       "  'koutku',\n",
+       "  'kultury',\n",
+       "  'Habrkovice',\n",
+       "  'vodárně',\n",
+       "  'Hřivno',\n",
+       "  'Timisoara',\n",
+       "  'lomy',\n",
+       "  'Řeháčkova',\n",
+       "  'Najmanské',\n",
+       "  'Uhřínovice',\n",
+       "  'Přítkov',\n",
+       "  'Mikulovická',\n",
+       "  'Zábeštní',\n",
+       "  'struskách',\n",
+       "  'Haldou',\n",
+       "  'Škardou',\n",
+       "  'Durďákova',\n",
+       "  'Kelčická',\n",
+       "  'Babolky',\n",
+       "  'Jaroslavu',\n",
+       "  'Rožmitálova',\n",
+       "  'cesty',\n",
+       "  'Uhlířov',\n",
+       "  'Radhošť',\n",
+       "  'Novosedlické',\n",
+       "  'Blatin',\n",
+       "  'Kotlanova',\n",
+       "  'Veselé',\n",
+       "  'Krásněves',\n",
+       "  'Emance',\n",
+       "  'Pragovka',\n",
+       "  'Reinišova',\n",
+       "  'Kyje',\n",
+       "  'Kadolec',\n",
+       "  'Brdská',\n",
+       "  'Štáblovice',\n",
+       "  'Žíchovec',\n",
+       "  'Dvorska',\n",
+       "  'Kamenem',\n",
+       "  'hájovny',\n",
+       "  'Rozvodna',\n",
+       "  'Sušárny',\n",
+       "  'zálomu',\n",
+       "  'Záhumenská',\n",
+       "  'Rácovice',\n",
+       "  'Vítkově',\n",
+       "  'Peroutka',\n",
+       "  'Fanty',\n",
+       "  'Jandy',\n",
+       "  'Slunečný',\n",
+       "  'Křimice',\n",
+       "  'Žebnice',\n",
+       "  'Prvomájová',\n",
+       "  'Ohře',\n",
+       "  'Krsice',\n",
+       "  'Karmelitská',\n",
+       "  'Stivínové',\n",
+       "  'Bradlec',\n",
+       "  'Všehrdovo',\n",
+       "  'Kokrdy',\n",
+       "  'Ptáčnická',\n",
+       "  'Cikánky',\n",
+       "  'Komárovské',\n",
+       "  'Palpostě',\n",
+       "  'Kurnického',\n",
+       "  'Zakopaná',\n",
+       "  'Melč',\n",
+       "  'Lichnická',\n",
+       "  'Dubinská',\n",
+       "  'Krautgartnerova',\n",
+       "  'Kravínu',\n",
+       "  'Chilská',\n",
+       "  'Stříbrného',\n",
+       "  'losách',\n",
+       "  'Macháčka',\n",
+       "  'Schodišťová',\n",
+       "  'Sýpka',\n",
+       "  'Nebřich',\n",
+       "  'Klabalská',\n",
+       "  'Vatinám',\n",
+       "  'Školičkou',\n",
+       "  'Tkalcovská',\n",
+       "  'Hliněný',\n",
+       "  'Kašovická',\n",
+       "  'krámy',\n",
+       "  'silnici',\n",
+       "  'Pokojná',\n",
+       "  'Ohrobecká',\n",
+       "  'Tlumačov',\n",
+       "  'Záříčí',\n",
+       "  'Tománkova',\n",
+       "  'Poděvousy',\n",
+       "  'Záhorského',\n",
+       "  'Jindry',\n",
+       "  'Výtuňská',\n",
+       "  'Jelínkova',\n",
+       "  'Pokratická',\n",
+       "  'Břestek',\n",
+       "  'Eškova',\n",
+       "  'tratě',\n",
+       "  'Závodišti',\n",
+       "  'Křížkový',\n",
+       "  'Hustopeče',\n",
+       "  'Domova',\n",
+       "  'Šánovická',\n",
+       "  'Houpačkách',\n",
+       "  'vokovické',\n",
+       "  'Novopetrovická',\n",
+       "  'Trojana',\n",
+       "  'Provazníkova',\n",
+       "  'Hlohová',\n",
+       "  'Tramvajní',\n",
+       "  'Pávla',\n",
+       "  'Hvožďanská',\n",
+       "  'Borise',\n",
+       "  'Záseka',\n",
+       "  'Bítov',\n",
+       "  'Vítkovu',\n",
+       "  'Ludinou',\n",
+       "  'Matek',\n",
+       "  'Čejov',\n",
+       "  'Třískolupy',\n",
+       "  '24.',\n",
+       "  'Kole',\n",
+       "  'Křemenná',\n",
+       "  'Zapova',\n",
+       "  'Vejrostova',\n",
+       "  'Březovická',\n",
+       "  'Knížáku',\n",
+       "  'Urešova',\n",
+       "  'Vyhnálov',\n",
+       "  'Krosenská',\n",
+       "  'Podkozí',\n",
+       "  'Hrutkov',\n",
+       "  'Opolenec',\n",
+       "  'Vidov',\n",
+       "  'Nezbavětice',\n",
+       "  'bytovkách',\n",
+       "  'Kocbeře',\n",
+       "  'Zderaze',\n",
+       "  'Sandwell',\n",
+       "  'Baldové',\n",
+       "  'Jeslí',\n",
+       "  'Polom',\n",
+       "  'Mokerské',\n",
+       "  'Kujavy',\n",
+       "  'čokoládoven',\n",
+       "  'Řebří',\n",
+       "  'Bezprašná',\n",
+       "  'Chovatelská',\n",
+       "  'Suchanovova',\n",
+       "  'Lešanská',\n",
+       "  'Krňovská',\n",
+       "  'Högrova',\n",
+       "  'Jakubská',\n",
+       "  'Láskov',\n",
+       "  'Lámař',\n",
+       "  'Stejskalova',\n",
+       "  'Kolbena',\n",
+       "  'Mikuleč',\n",
+       "  'Mysliboř',\n",
+       "  'Morkovice',\n",
+       "  'Harfou',\n",
+       "  'Lety',\n",
+       "  'Koziny',\n",
+       "  'Smržice',\n",
+       "  'Hejmy',\n",
+       "  'pomníkem',\n",
+       "  'Libice',\n",
+       "  'Měřičkova',\n",
+       "  'Betlémská',\n",
+       "  'Káranská',\n",
+       "  'zvonici',\n",
+       "  'Zahraničních',\n",
+       "  'Felixova',\n",
+       "  'Floriana',\n",
+       "  'Dvouramenná',\n",
+       "  'Sovoluská',\n",
+       "  'Lobodice',\n",
+       "  'Jiřičkum',\n",
+       "  'Mýtu',\n",
+       "  'Průplavu',\n",
+       "  'Kalužní',\n",
+       "  'Vítězov',\n",
+       "  'Pflegrova',\n",
+       "  'Juřinka',\n",
+       "  'Hrabek',\n",
+       "  'Chatami',\n",
+       "  'Žlebu',\n",
+       "  'Tuřanská',\n",
+       "  'Kúty',\n",
+       "  'Zátyní',\n",
+       "  'Vymazalova',\n",
+       "  'Sedlářská',\n",
+       "  'Zbraslav',\n",
+       "  'Skryjská',\n",
+       "  'Žlábka',\n",
+       "  'rybníkem',\n",
+       "  'Přilehlá',\n",
+       "  'Plácek',\n",
+       "  'Stálky',\n",
+       "  'Bolešiny',\n",
+       "  'Krčínovo',\n",
+       "  'Březhrad',\n",
+       "  'Hrubé',\n",
+       "  'Kratochvílova',\n",
+       "  'Stezka',\n",
+       "  'Farách',\n",
+       "  'Měrovice',\n",
+       "  'Roprachtice',\n",
+       "  'Křemenáčová',\n",
+       "  'Příčky',\n",
+       "  'Pravěká',\n",
+       "  'Mannerova',\n",
+       "  'Bahně',\n",
+       "  'Lesinka',\n",
+       "  'Hovorčovická',\n",
+       "  'Ovesné',\n",
+       "  'Cítolibská',\n",
+       "  'Blatec',\n",
+       "  'Myšlínu',\n",
+       "  'Voletinská',\n",
+       "  'vápence',\n",
+       "  'Otaslavice',\n",
+       "  'garáže-Černé',\n",
+       "  'Pflegerova',\n",
+       "  'Hrdoňovice',\n",
+       "  'jirchářích',\n",
+       "  'Šlapetova',\n",
+       "  'Březhradská',\n",
+       "  'Zlatého',\n",
+       "  'Rapotina',\n",
+       "  'Hostějov',\n",
+       "  'Pittsburská',\n",
+       "  'Kopanice',\n",
+       "  'schůdkách',\n",
+       "  'Ladova',\n",
+       "  'Mikulovice',\n",
+       "  'Stáj',\n",
+       "  'Házů',\n",
+       "  'Glazkovova',\n",
+       "  'Žerotínova',\n",
+       "  'Žárovná',\n",
+       "  'Fojtská',\n",
+       "  'Buč',\n",
+       "  'Žižkovec',\n",
+       "  'Jesenice',\n",
+       "  'Třebízského',\n",
+       "  'Pertoltická',\n",
+       "  'Vlkovice',\n",
+       "  'Zahradám',\n",
+       "  'Václavíka',\n",
+       "  'Preslova',\n",
+       "  'Těsná',\n",
+       "  'Ještědem',\n",
+       "  'Kyjov',\n",
+       "  'Fary',\n",
+       "  'Krvavá',\n",
+       "  'Šebora',\n",
+       "  'Poličské',\n",
+       "  'Ratinky',\n",
+       "  'Kotyzy',\n",
+       "  'Chudolazy',\n",
+       "  'Věteřov',\n",
+       "  'Ol.',\n",
+       "  'Cvičištěm',\n",
+       "  'Rusek',\n",
+       "  'Nezabudická',\n",
+       "  'Vlastišov',\n",
+       "  'Podsychrovská',\n",
+       "  'Včelenská',\n",
+       "  'Pacltova',\n",
+       "  'Spořická',\n",
+       "  'Ceplechova',\n",
+       "  'Štidla',\n",
+       "  'Strusky',\n",
+       "  'Chotovice',\n",
+       "  'Čejky',\n",
+       "  'Ženskými',\n",
+       "  'Sweden',\n",
+       "  'Herinku',\n",
+       "  'Podbořan',\n",
+       "  'Volanovská',\n",
+       "  'Čečkovice',\n",
+       "  'Minaret',\n",
+       "  'Klusáčka',\n",
+       "  'Porážková',\n",
+       "  'Radomyšl',\n",
+       "  'Šerkov',\n",
+       "  'Jilská',\n",
+       "  'Leskovice',\n",
+       "  'Deštnice',\n",
+       "  'Hlinikách',\n",
+       "  'strouhy',\n",
+       "  'Budilovo',\n",
+       "  'Pořešín',\n",
+       "  'Budy',\n",
+       "  'Svatogothardská',\n",
+       "  'Koňským',\n",
+       "  'Beladova',\n",
+       "  'Gruši',\n",
+       "  'Čachnov',\n",
+       "  'Mánesovo',\n",
+       "  'Lublinská',\n",
+       "  'Hostěrádky-Rešov',\n",
+       "  'Tasovská',\n",
+       "  'Budiměřice',\n",
+       "  'Řeřichová',\n",
+       "  'Žlebech',\n",
+       "  'Kováříkova',\n",
+       "  'Pazderce',\n",
+       "  'Bukovanského',\n",
+       "  'Samechov',\n",
+       "  'Zbůch',\n",
+       "  'Bukovická',\n",
+       "  'Xaverovu',\n",
+       "  'Veličkou',\n",
+       "  'lis',\n",
+       "  'Nahořanská',\n",
+       "  'Hrobce',\n",
+       "  'Kozlůvka',\n",
+       "  'Višňovky',\n",
+       "  'Rochdale',\n",
+       "  'náplavkou',\n",
+       "  'Jílovecká',\n",
+       "  'Orlovice',\n",
+       "  'Jedová',\n",
+       "  'Želatovská',\n",
+       "  'Činírna',\n",
+       "  'Šrůtkova',\n",
+       "  'Žalkovice',\n",
+       "  'Chořelice',\n",
+       "  'Cvičišti',\n",
+       "  'Kachlířkou',\n",
+       "  'podkovy',\n",
+       "  'Plánkova',\n",
+       "  'Havranická',\n",
+       "  'Roháčových',\n",
+       "  'Vrše',\n",
+       "  'háji',\n",
+       "  'Václavka',\n",
+       "  'Malostranské',\n",
+       "  'Iceland',\n",
+       "  'Rozstání',\n",
+       "  'Marciho',\n",
+       "  'Straškov',\n",
+       "  'Nezvalova',\n",
+       "  'Hoře',\n",
+       "  'Rubíka',\n",
+       "  'Balkánem',\n",
+       "  'Branaldova',\n",
+       "  'Šváby',\n",
+       "  'Porhajmova',\n",
+       "  'Osma',\n",
+       "  'Mostov',\n",
+       "  'Bříšťanská',\n",
+       "  'Buďárkova',\n",
+       "  'Herecká',\n",
+       "  'Dědinou',\n",
+       "  'Krčkovice',\n",
+       "  'Švábovská',\n",
+       "  'Vonoklaská',\n",
+       "  'Lipanům',\n",
+       "  'zastávce',\n",
+       "  'Hubera',\n",
+       "  'Miličín',\n",
+       "  'Alberta',\n",
+       "  'vojenským',\n",
+       "  'Jeřábu',\n",
+       "  'Renoty',\n",
+       "  'Liberia',\n",
+       "  'Lindrách',\n",
+       "  'Bryansk',\n",
+       "  'Turská',\n",
+       "  'Záhořanského',\n",
+       "  'Zámělská',\n",
+       "  'Hlízovská',\n",
+       "  'Kličky',\n",
+       "  'Souhradská',\n",
+       "  'Libínky',\n",
+       "  'Todická',\n",
+       "  'Serpentina',\n",
+       "  'Ručičce',\n",
+       "  'Kožíkova',\n",
+       "  'Turbíny',\n",
+       "  'Drásov',\n",
+       "  'Topičská',\n",
+       "  'Dlážděnce',\n",
+       "  'Třešňovce',\n",
+       "  'Důlní',\n",
+       "  'Aldova',\n",
+       "  'von',\n",
+       "  'Chaloupka',\n",
+       "  'Jánu',\n",
+       "  'Prahy',\n",
+       "  'Boletice',\n",
+       "  'Jerevanská',\n",
+       "  'Nesyt',\n",
+       "  'Fechtnera',\n",
+       "  'Raťkov',\n",
+       "  'Malovců',\n",
+       "  'Boskovicova',\n",
+       "  'Jirovcová',\n",
+       "  'Žichov',\n",
+       "  'Obrátice',\n",
+       "  'Němětice',\n",
+       "  'Rohanovem',\n",
+       "  'Písečská',\n",
+       "  'Vějíři',\n",
+       "  'Vyšehoří',\n",
+       "  'Hrázky',\n",
+       "  'Pazderáku',\n",
+       "  'Hodkovská',\n",
+       "  'Antonínov',\n",
+       "  'Jabloňov',\n",
+       "  'Hlincová',\n",
+       "  'Křížkem',\n",
+       "  'Marklovice',\n",
+       "  'Máchovo',\n",
+       "  'Lucia',\n",
+       "  'Machníkova',\n",
+       "  'Borkem',\n",
+       "  'Tištín',\n",
+       "  'Šubertovo',\n",
+       "  'Předvoje',\n",
+       "  'Popovec',\n",
+       "  'Horníků',\n",
+       "  'Ponětovice',\n",
+       "  'krovem',\n",
+       "  'Odborů',\n",
+       "  'Feřtekova',\n",
+       "  'Metelkou',\n",
+       "  'Červeném',\n",
+       "  'Švejcarovo',\n",
+       "  'Nadhumení',\n",
+       "  'Kylešovská',\n",
+       "  'Zlatoust',\n",
+       "  'Mažice',\n",
+       "  'Moklině',\n",
+       "  'Radešínská',\n",
+       "  'Pečírkova',\n",
+       "  'Řeheč',\n",
+       "  'Tererova',\n",
+       "  'Vojanky',\n",
+       "  'Pelhřimov',\n",
+       "  'Basse',\n",
+       "  'Olšinkách',\n",
+       "  'Zatáčkách',\n",
+       "  'Helenín',\n",
+       "  'úvozu',\n",
+       "  'Čertův',\n",
+       "  'Drinopolem',\n",
+       "  'Gerasimovova',\n",
+       "  'Dolnocholupická',\n",
+       "  'Brandla',\n",
+       "  'lipách',\n",
+       "  'Jetelová',\n",
+       "  'Stráňka',\n",
+       "  'Vraty',\n",
+       "  'Chramiště',\n",
+       "  'Čeňku',\n",
+       "  'Pančava',\n",
+       "  'Kolešovce',\n",
+       "  'Dagmar',\n",
+       "  'Kyjovická',\n",
+       "  'Sklepům',\n",
+       "  'Ressela',\n",
+       "  'Krinitova',\n",
+       "  'Jeneč',\n",
+       "  'Neveklovská',\n",
+       "  'Kučovanská',\n",
+       "  'Robotou',\n",
+       "  'Markvartovická',\n",
+       "  'Přívozní',\n",
+       "  'Derridova',\n",
+       "  'Stromky',\n",
+       "  'Borovém',\n",
+       "  'Křižanovice',\n",
+       "  'Baborčici',\n",
+       "  'Sport',\n",
+       "  'Štíhlická',\n",
+       "  'Fajtlova',\n",
+       "  'Bezručova',\n",
+       "  'Pouzdřanská',\n",
+       "  'Radonická',\n",
+       "  'Kbelce',\n",
+       "  'Tkadlecova',\n",
+       "  'Cholupice',\n",
+       "  'Jánem',\n",
+       "  'Abácie',\n",
+       "  'dětského',\n",
+       "  'Nazdice',\n",
+       "  'Vítězslavy',\n",
+       "  'Příšovice',\n",
+       "  'Vnitřní',\n",
+       "  'Hradec',\n",
+       "  'Granitova',\n",
+       "  'Studeňská',\n",
+       "  'Tarase',\n",
+       "  'Urbaníkova',\n",
+       "  'Vlčkova',\n",
+       "  'Dříteč',\n",
+       "  'Chuderov',\n",
+       "  'Hostouňská',\n",
+       "  'Terézy',\n",
+       "  'Flédlova',\n",
+       "  'Curie',\n",
+       "  'Brothánkova',\n",
+       "  'Suzdalské',\n",
+       "  'Chalupy',\n",
+       "  'Baštou',\n",
+       "  'Kocouráku',\n",
+       "  'Koškova',\n",
+       "  'Bardinové',\n",
+       "  'Otročice',\n",
+       "  'Taranzova',\n",
+       "  'Vratěnín',\n",
+       "  'van',\n",
+       "  'Petrůvky',\n",
+       "  'Třebčická',\n",
+       "  'Kulíšek',\n",
+       "  'Wollerů',\n",
+       "  'Peklem',\n",
+       "  'Křepelka',\n",
+       "  'Wihanova',\n",
+       "  'Šlejnická',\n",
+       "  'polím',\n",
+       "  'Hřištěm',\n",
+       "  'Dubovinou',\n",
+       "  'Touchovice',\n",
+       "  'Dobřeň',\n",
+       "  'Výtopnou',\n",
+       "  'Holešova',\n",
+       "  'ATHINAI',\n",
+       "  'Spojeneckých',\n",
+       "  'Tuchoměřická',\n",
+       "  'křižovatky',\n",
+       "  'Pannou',\n",
+       "  'Orlovy',\n",
+       "  'Parkerova',\n",
+       "  'Opařanská',\n",
+       "  'Třebíz',\n",
+       "  'Jaroňkova',\n",
+       "  'Prašivce',\n",
+       "  \"Rosh-Ha'ayin\",\n",
+       "  'Řepín',\n",
+       "  'Ploukonice',\n",
+       "  'Bukovsko',\n",
+       "  'Nebeské',\n",
+       "  'seřadiště',\n",
+       "  'Bártlova',\n",
+       "  'Rachtě',\n",
+       "  'Calderdale',\n",
+       "  'Kosí',\n",
+       "  'Brněnky',\n",
+       "  'Vykuku',\n",
+       "  'Cimbále',\n",
+       "  'Kopist',\n",
+       "  'Náves',\n",
+       "  'Hajnovkách',\n",
+       "  'Branický',\n",
+       "  'Radíkovy',\n",
+       "  'stupni',\n",
+       "  'Klimentce',\n",
+       "  'Jokla',\n",
+       "  'Macedonia',\n",
+       "  'Ochozská',\n",
+       "  'Šibeníkem',\n",
+       "  'Zóna',\n",
+       "  'Školská',\n",
+       "  'Hážovice',\n",
+       "  'Přelovice',\n",
+       "  'Sejkorova',\n",
+       "  'Moravě',\n",
+       "  'Vlněna',\n",
+       "  'Zaryjach',\n",
+       "  'Skržice',\n",
+       "  'Příjemky',\n",
+       "  'Častavina',\n",
+       "  'Chocholí',\n",
+       "  'Malšovický',\n",
+       "  'Žlubincem',\n",
+       "  'Flašky',\n",
+       "  'Sněžnická',\n",
+       "  'Lískovecká',\n",
+       "  'Radobyčice',\n",
+       "  'Skalice',\n",
+       "  'Bunzla',\n",
+       "  'Malíkov',\n",
+       "  'Lithuania',\n",
+       "  'Limnická',\n",
+       "  'Chuchel',\n",
+       "  'Hlavňovice',\n",
+       "  'Chytiličky',\n",
+       "  'Loudova',\n",
+       "  'Warrington',\n",
+       "  'Příčce',\n",
+       "  'Hnojnice',\n",
+       "  'Diouse',\n",
+       "  'Stanová',\n",
+       "  'Lalůvkou',\n",
+       "  'Todně',\n",
+       "  'Bezruče',\n",
+       "  'Okluková',\n",
+       "  'Torino',\n",
+       "  'Jandové',\n",
+       "  'Ďáblicům',\n",
+       "  'selském',\n",
+       "  'Benešovice',\n",
+       "  'dobré',\n",
+       "  'Rynholec',\n",
+       "  'Puchárnou',\n",
+       "  'Losenická',\n",
+       "  'Valšovská',\n",
+       "  'Pohořelice',\n",
+       "  'Chatách',\n",
+       "  'Grónská',\n",
+       "  'Šebířov',\n",
+       "  'Fejfarova',\n",
+       "  'přechodu',\n",
+       "  'Ličná',\n",
+       "  'Mláka',\n",
+       "  'Lázeňské',\n",
+       "  'vesničky',\n",
+       "  'Tovačovská',\n",
+       "  'Ústaleč',\n",
+       "  'Velkopavlovická',\n",
+       "  'Trávníkách',\n",
+       "  'Zlosyň',\n",
+       "  'Lávkou',\n",
+       "  'Ostašova',\n",
+       "  'Žufanova',\n",
+       "  'Mat.',\n",
+       "  'd��lkách',\n",
+       "  'Klementice',\n",
+       "  'Jamkám',\n",
+       "  'Valech',\n",
+       "  'Křtomil',\n",
+       "  'Moravcem',\n",
+       "  'Milenov',\n",
+       "  'Chvalatice',\n",
+       "  'Pulice',\n",
+       "  'Lišticí',\n",
+       "  'Čechách',\n",
+       "  'průčelí',\n",
+       "  'Bítešská',\n",
+       "  'Žabinci',\n",
+       "  'Rychtáře',\n",
+       "  'Zňátky',\n",
+       "  'Nehasice',\n",
+       "  'Hlízov',\n",
+       "  'Babčice',\n",
+       "  'štěrkovně',\n",
+       "  'Tří',\n",
+       "  'Čáslavky',\n",
+       "  'Říjnová',\n",
+       "  'humny',\n",
+       "  'jezem',\n",
+       "  'Tyršové',\n",
+       "  'Korbářova',\n",
+       "  'Pasekách',\n",
+       "  'Vochlířská',\n",
+       "  'Skorotice',\n",
+       "  'Rubanisko',\n",
+       "  'Bertrámová',\n",
+       "  'Lutov',\n",
+       "  'Herálecká',\n",
+       "  'Wassermannova',\n",
+       "  'Turbovická',\n",
+       "  'Kocourovec',\n",
+       "  'Maxovkou',\n",
+       "  'Brusinková',\n",
+       "  'Wericha',\n",
+       "  'Pokorova',\n",
+       "  'Javorská',\n",
+       "  'Zámecký',\n",
+       "  'Vyskočila',\n",
+       "  'Lachovice',\n",
+       "  'Kozlerova',\n",
+       "  'most',\n",
+       "  'Kaštila',\n",
+       "  'Bání',\n",
+       "  'Gočárova',\n",
+       "  'Hampla',\n",
+       "  'Loketská',\n",
+       "  'výstavby',\n",
+       "  'Krk',\n",
+       "  'flošna',\n",
+       "  'Rantířovská',\n",
+       "  'zákopě',\n",
+       "  'Hornohradební',\n",
+       "  'Saveljevova',\n",
+       "  'Kateřinské',\n",
+       "  'Buděšínského',\n",
+       "  'Jordana',\n",
+       "  'Radiměř',\n",
+       "  'Plástky',\n",
+       "  'Jedlová',\n",
+       "  'Petrovská',\n",
+       "  'Podhořany',\n",
+       "  'Čechy',\n",
+       "  'Konšelská',\n",
+       "  ...}}"
+      ]
+     },
+     "execution_count": 1,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "import pickle \n",
+    "with open(\"gazz.json\", 'rb') as f:\n",
+    "    gazetteers = pickle.load(f)\n",
+    "gazetteers"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "for k, v in gazetteers.items():\n",
+    "    gazetteers[k] = list(v)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 4,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import json\n",
+    "with open(\"gazz2.json\", \"w\") as file:\n",
+    "    json.dump(gazetteers, file, ensure_ascii=False, indent=4)"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "DP",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.10.14"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}

website_script.py ADDED Viewed

	@@ -0,0 +1,47 @@

+import torch
+from transformers import AutoTokenizer
+from extended_embeddings.token_classification import ExtendedEmbeddigsRobertaForTokenClassification
+from data_manipulation.dataset_funcions import load_gazetteers, gazetteer_matching, align_gazetteers_with_tokens
+from data_manipulation.preprocess_gazetteers import build_reverse_dictionary
+def load():
+    model_name = "ufal/robeczech-base"
+    model_path = "bettystr/NerRoB-czech"
+    model = ExtendedEmbeddigsRobertaForTokenClassification.from_pretrained(model_path).to("cpu")
+    tokenizer = AutoTokenizer.from_pretrained(model_name)
+    model.eval()
+    gazetteers_path = "gazz2.json"
+    gazetteers_for_matching = load_gazetteers(gazetteers_path)
+    temp = []
+    for i in gazetteers_for_matching.keys():
+        temp.append(build_reverse_dictionary({i: gazetteers_for_matching[i]}))
+    gazetteers_for_matching = temp
+    return tokenizer, model, gazetteers_for_matching
+def run(tokenizer, model, gazetteers_for_matching, text):
+    tokenized_inputs = tokenizer(
+        text, truncation=True, is_split_into_words=False
+    )
+    matches = gazetteer_matching(text, gazetteers_for_matching)
+    new_g = []
+    word_ids = tokenized_inputs.word_ids()
+    new_g.append(align_gazetteers_with_tokens(matches, word_ids))
+    p, o, l = [], [], []
+    for i in new_g:
+        p.append([x[0] for x in i])
+        o.append([x[1] for x in i])
+        l.append([x[2] for x in i])
+    input_ids = torch.tensor(tokenized_inputs["input_ids"], device="cpu").unsqueeze(0)
+    attention_mask = torch.tensor(tokenized_inputs["attention_mask"], device="cpu").unsqueeze(0)
+    per = torch.tensor(p, device="cpu")
+    org = torch.tensor(o, device="cpu")
+    loc = torch.tensor(l, device="cpu")
+    output = model(input_ids=input_ids, attention_mask=attention_mask, per=per, org=org, loc=loc).logits
+    predictions = torch.argmax(output, dim=2).tolist()
+    predicted_tags = [[model.config.id2label[idx] for idx in sentence] for sentence in predictions]
+    return " ".join(predicted_tags[0])