Spaces:

senyukhin
/

annotator_demo

Sleeping

App Files Files Community

senyukhin commited on Jun 26, 2023

Commit

a8dc9d8

•

1 Parent(s): eea4f3c

Upload 11 files

Browse files

Files changed (6) hide show

app.py +43 -45
category_parser.py +16 -1
date_parser.py +32 -25
diary.py +3 -3
network_builder.py +52 -3
word_transformations.py +23 -1

app.py CHANGED Viewed

@@ -10,10 +10,10 @@ st.title('Автоматический аннотатор')
 # st.markdown("Скопируйте текст дневика в это поле или выберите для теста один из подготовленных отрывков.")
-txt = st.text_area('Скопируйте текст дневика в это поле', height=100)
 option = st.selectbox(
-    'Или выберите один из тестовых текстов дневников:',
     ('Выбрать...', 'Анатолий Василивицкий', 'Мария Германова'))
 if option == 'Анатолий Василивицкий':
@@ -26,50 +26,48 @@ elif option == 'Мария Германова':
 # diary = st.text_area('Текст дневника')
 if st.button('Обработать') and txt != '':
-    df = d.analyze(txt)
-    # st.dataframe(df)
-    # for_chart = sp.data_for_sentiment_chart(df).set_index('n_date')
-    # st.markdown('### График сентимента по записям дневника (тест)')
-    # st.line_chart(data=for_chart)
-    # st.experimental_memo.clear()
-    graph = nb.build_graph(df)
-    GENDER = wt.get_gender(df['tokens'])
-    st.markdown(f'**Аннотация этого дневника:** {nb.annotation(graph, GENDER)}')
-    textnet = Network( height='400px',
-                       width='100%',
-                       bgcolor='white',
-                       font_color='black'
-                      )
-    textnet.from_nx(graph)
-    textnet.repulsion(
-                        node_distance=420,
-                        central_gravity=0.33,
-                        spring_length=110,
-                        spring_strength=0.10,
-                        damping=0.95
-                       )
     try:
-        path = '/tmp'
-        textnet.save_graph(f'{path}/pyvis_graph.html')
-        HtmlFile = open(f'{path}/pyvis_graph.html', 'r', encoding='utf-8')
     except:
-        path = '/html_files'
-        textnet.save_graph(f'{path}/pyvis_graph.html')
-        HtmlFile = open(f'{path}/pyvis_graph.html', 'r', encoding='utf-8')
-    components.html(HtmlFile.read(), height=435)
-# if st.button('Обработать'):
-#     df = d.analyze(diary)
-#     st.dataframe(df)
-#     for_chart = sp.data_for_sentiment_chart(df).set_index('n_date')
-#     st.markdown('### График сентимента по записям дневника (тест)')
-#     st.line_chart(data=for_chart)

 # st.markdown("Скопируйте текст дневика в это поле или выберите для теста один из подготовленных отрывков.")
+txt = st.text_area('Скопируйте текст дневника в это поле', height=100)
 option = st.selectbox(
+    'Или выберите один из пробных текстов дневников:',
     ('Выбрать...', 'Анатолий Василивицкий', 'Мария Германова'))
 if option == 'Анатолий Василивицкий':
 # diary = st.text_area('Текст дневника')
 if st.button('Обработать') and txt != '':
     try:
+        df = d.analyze(txt)
+        graph = nb.build_graph(df)
+        GENDER = wt.get_gender(df['tokens'])
+        locations = df['locations']
+        st.markdown(f'**Аннотация этого дневника:** {nb.annotation(graph, GENDER, locations)}')
+        textnet = Network( height='400px',
+                        width='100%',
+                        bgcolor='white',
+                        font_color='black'
+                        )
+        textnet.from_nx(graph)
+        textnet.repulsion(
+                            node_distance=420,
+                            central_gravity=0.33,
+                            spring_length=110,
+                            spring_strength=0.10,
+                            damping=0.95
+                        )
+        try:
+            path = '/tmp'
+            textnet.save_graph(f'{path}/pyvis_graph.html')
+            HtmlFile = open(f'{path}/pyvis_graph.html', 'r', encoding='utf-8')
+        except:
+            path = '/html_files'
+            textnet.save_graph(f'{path}/pyvis_graph.html')
+            HtmlFile = open(f'{path}/pyvis_graph.html', 'r', encoding='utf-8')
+        st.markdown('### «Граф знания» этого дневника')
+        st.caption(':blue[Синим цветом] выделены узлы, связанные с одной датированной дневниковой записью, розовым — общий сентимент записи, :red[красным] — найденное утверждение, :green[зелёным] — места и локации, фиолетовым — занятия.')
+        st.caption('Чтобы увеличить граф и посмотреть лейблы узлов, установите курсор в нужном месте и проскорольте вниз.')
+        components.html(HtmlFile.read(), height=435)
     except:
+        st.warning('Вставьте текст дневника, который начинается с даты!', icon="⚠️")

category_parser.py CHANGED Viewed

@@ -115,6 +115,19 @@ def get_category_words(category):
     return set(open(f'{SCRIPT_DIR}/{category}/words.txt', encoding='utf8').read().split('\n'))
 def get_facts(tokens, category):
     facts = []
     for sent in tokens:
@@ -127,7 +140,9 @@ def get_facts(tokens, category):
                     fact = construct_fact(sent_tokens, word, category)
                     if fact:
                         # facts.append(fact)
-                       facts.append([w, fact])
     return facts

     return set(open(f'{SCRIPT_DIR}/{category}/words.txt', encoding='utf8').read().split('\n'))
+def get_morfology_from_fact(fact, sent_tokens):
+    '''
+    Вычленяет часть речи и морфологические свойства слова из факта
+    '''
+    res = []
+    for word in fact.split(' '):
+        for token in sent_tokens:
+            if word == token.text:
+                res.append([token.pos, token.feats])
+                break
+    return res
 def get_facts(tokens, category):
     facts = []
     for sent in tokens:
                     fact = construct_fact(sent_tokens, word, category)
                     if fact:
                         # facts.append(fact)
+                        morthology = get_morfology_from_fact(fact, sent_tokens)
+                        # facts.append([w, fact])
+                        facts.append([w, fact, morthology])
     return facts

date_parser.py CHANGED Viewed

@@ -309,33 +309,40 @@ DATE_RANGE = or_(
     DateRange
 )
-@st.experimental_memo
 def date_extractor_for_diary(text):
-    res = {
-        'date_start' : [],
-        'date_stop' : [],
-        'text' : []
-    }
-    entry = ''
-    for paragraph in text.split('\n'):
-        parser = Parser(DATE_RANGE)
-        for match in parser.findall(paragraph):
-            record = match.fact.normalized
-            if record.spans[0].start in range (0, 3):
-                start = record.get_start_date
-                stop = record.get_stop_date
-                res['date_start'].append(start)
-                res['date_stop'].append(stop)
-                if entry != '':
-                    res['text'].append(entry)
-                    entry = ''
-                break
-        entry += paragraph
-        entry += '\n'
-    if entry != '':
-        res['text'].append(entry)
-    return pd.DataFrame(res)
 def normalize_dates(start, stop):
     if start == stop:

     DateRange
 )
 def date_extractor_for_diary(text):
+    res = {
+            'date_start' : [],
+            'date_stop' : [],
+            'text' : []
+        }
+    try:
+        entry = ''
+        for paragraph in text.split('\n'):
+            parser = Parser(DATE_RANGE)
+            for match in parser.findall(paragraph):
+                record = match.fact.normalized
+                if record.spans[0].start in range (0, 3):
+                    start = record.get_start_date
+                    stop = record.get_stop_date
+                    if entry != '':
+                        res['text'].append(entry)
+                        entry = ''
+                    res['date_start'].append(start)
+                    res['date_stop'].append(stop)
+                    # if entry != '':
+                    #     res['text'].append(entry)
+                    #     entry = ''
+                    break
+            entry += paragraph
+            entry += '\n'
+        if entry != '':
+            res['text'].append(entry)
+        df = pd.DataFrame(res)
+        return df.drop(df.loc[df['text'].str.len() < 10].index)
+    except:
+        return pd.DataFrame(res)
 def normalize_dates(start, stop):
     if start == stop:

diary.py CHANGED Viewed

@@ -12,7 +12,7 @@ import word_transformations as wt
 def analyze(text):
     # Разделение текста на датированные куски
     diary = dp.date_extractor_for_diary(text)
     # Очистка текста дневника
     diary = preproc.text_preproc(diary)
@@ -23,7 +23,7 @@ def analyze(text):
     diary['locations'] = diary['tokens'].apply(lambda tokens: cp.get_facts(tokens, 'locations'))
     # Определение сентимента по записям
-    # diary['sent'] = diary['tokens'].apply(lambda tokens: sp.get_overall_sentiment(tokens))
-    # diary['sent_index'] = diary['sent'].apply(lambda sent: sp.get_sentiment_index(sent))
     return diary

 def analyze(text):
     # Разделение текста на датированные куски
     diary = dp.date_extractor_for_diary(text)
     # Очистка текста дневника
     diary = preproc.text_preproc(diary)
     diary['locations'] = diary['tokens'].apply(lambda tokens: cp.get_facts(tokens, 'locations'))
     # Определение сентимента по записям
+    diary['sent'] = diary['tokens'].apply(lambda tokens: sp.get_overall_sentiment(tokens))
+    diary['sent_index'] = diary['sent'].apply(lambda sent: sp.get_sentiment_index(sent))
     return diary

network_builder.py CHANGED Viewed

@@ -1,6 +1,8 @@
 import networkx as nx
 from collections import Counter
 import word_transformations as wt
 def build_graph(df):
@@ -20,6 +22,10 @@ def build_graph(df):
             G.add_edge(row['date_start'], fact[1])
             G.add_edge(fact[0], fact[1])
     return G
@@ -60,14 +66,57 @@ def facts_for_annotation(G, gender, most_places):
                 res.append((date, fact))
     return res
-def annotation(G, gender):
     dates = dates_of_Diary_writing(G)
     most_places = most_visited_places(G)
     facts = facts_for_annotation(G, gender, most_places)
-    facts = ', '.join([f"{fact[1].lower()} ({fact[0]})" for fact in facts])
-    annotation = f'{wt.get_noun(gender).title()} этого дневника {wt.gender_transformer("вести", gender)} его с {dates[0]} по {dates[1]}. Наиболее часто {wt.get_pronoun(gender)} {wt.gender_transformer("описывал", gender)} {wt.inflector(most_places[0], "accs")}, {wt.inflector(most_places[1], "accs")} и {wt.inflector(most_places[2], "accs")}.\n\nВ дневнике упоминается, как {wt.get_noun(gender)} {facts}.'
     return annotation

 import networkx as nx
 from collections import Counter
 import word_transformations as wt
+import sentiment_parser as sp
+# import app
 def build_graph(df):
             G.add_edge(row['date_start'], fact[1])
             G.add_edge(fact[0], fact[1])
+    # Добавление связей даты записи с сентиментом
+    for index, row in df[['date_start', 'sent_index']].iterrows():
+        G.add_node(sp.get_most_sentiment([row['sent_index']]), group="Sentiment", color = "pink")
+        G.add_edge(row['date_start'], sp.get_most_sentiment([row['sent_index']]))
     return G
                 res.append((date, fact))
     return res
+def sentiment_of_date(G):
+    sentiment = dict()
+    sentiment['positive'] = [date for date in G.predecessors('positive')]
+    sentiment['negative'] = [date for date in G.predecessors('negative')]
+    sentiment['neutral'] = [date for date in G.predecessors('neutral')]
+    return sentiment
+def constuct_fact_for_annotation(facts, sentiment, gender, locations):
+    '''
+    Собирает из отобранных фактов текст для аннотации.
+    '''
+    prompts = [f'В записях с преимущественно положительной тональностью {wt.get_noun(gender)} {wt.gender_transformer("писал", gender)} как {wt.get_pronoun(gender)}',
+               f'Также в дневнике описывается, как {wt.get_pronoun(gender)}']
+    positive_facts = []
+    negative_facts = []
+    if sentiment['positive']:
+        for date in sentiment['positive']:
+            for fact in facts:
+                if date == fact[0]:
+                    positive_facts.append(f"{wt.transform_fact(locations, fact[1], gender).lower()} ({fact[0]})")
+    if sentiment['negative']:
+        for date in sentiment['negative']:
+            for fact in facts:
+                print(fact[1])
+                if date == fact[0]:
+                    negative_facts.append(f"{wt.transform_fact(locations, fact[1], gender).lower()} ({fact[0]})")
+    if sentiment['neutral']:
+        for date in sentiment['neutral']:
+            for fact in facts:
+                print(fact[1])
+                if date == fact[0]:
+                    negative_facts.append(f"{wt.transform_fact(locations, fact[1], gender).lower()} ({fact[0]})")
+    text = ''
+    if positive_facts:
+        text += f'{prompts[0]} {", ".join(positive_facts)}.'
+    if negative_facts:
+        text += f'\n\n{prompts[1]} {", ".join(negative_facts)}.'
+    return text
+def annotation(G, gender, locations):
     dates = dates_of_Diary_writing(G)
     most_places = most_visited_places(G)
     facts = facts_for_annotation(G, gender, most_places)
+    sentiment = sentiment_of_date(G)
+    # facts = ', '.join([f"{fact[1].lower()} ({fact[0]})" for fact in facts])
+    # facts = ''
+    annotation = f'{wt.get_noun(gender).title()} этого дневника {wt.gender_transformer("вести", gender)} его с {dates[0]} по {dates[1]}. Наиболее часто {wt.get_pronoun(gender)} {wt.gender_transformer("описывал", gender)} {wt.inflector(most_places[0], "accs")}, {wt.inflector(most_places[1], "accs")} и {wt.inflector(most_places[2], "accs")}.\n\n{constuct_fact_for_annotation(facts, sentiment, gender, locations)}'
     return annotation

word_transformations.py CHANGED Viewed

@@ -84,4 +84,26 @@ def get_fact_to_annotation(fact, gender, most_mentioned_word):
                 return False
             if form.normal_form in ['она', 'он']:
                 return False
-    return flag

                 return False
             if form.normal_form in ['она', 'он']:
                 return False
+    return flag
+def transform_fact(tokens, fact, gender):
+    '''
+    Если факт написан в первом лице, то трансформирует его в третье лицо.
+    На вход поступает столбец с записями фактов — там есть токены
+    '''
+    facts = [(fact_string[1], fact_string[2]) for entry in tokens for fact_string in entry]
+    for f in facts:
+        if f[0] == fact:
+            fact = fact.split(' ')
+            delete_index = None
+            for i in range(0, len(fact)):
+                # глагол в первом лице
+                if (f[1][i][0] == 'VERB') and (f[1][i][1].get('Person') == '1'):
+                    replaced_verb = gender_transformer(fact[i], gender)
+                    del fact[i]
+                    fact.insert(i, replaced_verb)
+                if fact[i].lower() == 'я':
+                    delete_index = i
+            if delete_index != None:
+                del fact[delete_index]
+    return ' '.join(fact)