Spaces:

gigant
/

word_graph_viz

Sleeping

App Files Files Community

gigant commited on Dec 22, 2022

Commit

d91dab1

1 Parent(s): 357a26a

adding structural graph information

Browse files

Files changed (1) hide show

app.py +69 -7

app.py CHANGED Viewed

@@ -6,11 +6,19 @@ from datasets import load_dataset
 import spacy
 import gradio as gr
 import en_core_web_trf
 dataset = load_dataset("gigant/tib_transcripts")
 nlp = en_core_web_trf.load()
 def dependency_parser(sentences):
   return [nlp(sentence) for sentence in sentences]
@@ -23,11 +31,51 @@ def construct_dependency_graph(docs):
     nodes = [token.text for token in doc]
     senders = []
     receivers = []
     for token in doc:
         for child in token.children:
             senders.append(token.i)
             receivers.append(child.i)
-    graphs.append({"nodes": nodes, "senders": senders, "receivers": receivers})
   return graphs
 def to_jraph(graph):
@@ -72,15 +120,29 @@ def convert_jraph_to_networkx_graph(jraph_graph: jraph.GraphsTuple) -> nx.Graph:
           int(senders[e]), int(receivers[e]), edge_feature=edges[e])
   return nx_graph
-def plot_graph_sentence(sentence):
   docs = dependency_parser([sentence])
-  graphs = construct_dependency_graph(docs)
   g = to_jraph(graphs[0])
   nx_graph = convert_jraph_to_networkx_graph(g)
-  pos = nx.spring_layout(nx_graph)
-  plot = plt.figure(figsize=(6, 6))
-  nx.draw(nx_graph, pos=pos, labels={i: e for i,e in enumerate(graphs[0]["nodes"])}, with_labels = True,
-          node_size=800, font_color='black', node_color="yellow")
   return plot
 def get_list_sentences(id):

 import spacy
 import gradio as gr
 import en_core_web_trf
+import numpy as np
 dataset = load_dataset("gigant/tib_transcripts")
 nlp = en_core_web_trf.load()
+def half_circle_layout(n_nodes, sentence_node=True):
+  pos = {}
+  for i_node in range(n_nodes - 1):
+    pos[i_node] = ((- np.cos(i_node * np.pi/(n_nodes - 1))), 0.5 * (-np.sin(i_node * np.pi/(n_nodes - 1))))
+  pos[n_nodes - 1] = (0, -0.25)
+  return pos
 def dependency_parser(sentences):
   return [nlp(sentence) for sentence in sentences]
     nodes = [token.text for token in doc]
     senders = []
     receivers = []
+    edge_labels = {}
+    for token in doc:
+        for child in token.children:
+            senders.append(token.i)
+            receivers.append(child.i)
+            edge_labels[(token.i, child.i)] = token.dep_
+    graphs.append({"nodes": nodes, "senders": senders, "receivers": receivers, "edge_labels": edge_labels})
+  return graphs
+def construct_both_graph(docs):
+  """
+  docs is a list of outputs of the SpaCy dependency parser
+  """
+  graphs = []
+  for doc in docs:
+    nodes = [token.text for token in doc]
+    nodes.append("Sentence")
+    senders = [token.i for token in doc][:-1]
+    receivers = [token.i for token in doc][1:]
+    edge_labels = {(token.i, token.i + 1): "next" for token in doc[:-1]}
+    for node in range(len(nodes) - 1):
+      senders.append(node)
+      receivers.append(len(nodes) - 1)
+      edge_labels[(node, len(nodes) - 1)] = "in"
     for token in doc:
         for child in token.children:
             senders.append(token.i)
             receivers.append(child.i)
+            edge_labels[(token.i, child.i)] = token.dep_
+    graphs.append({"nodes": nodes, "senders": senders, "receivers": receivers, "edge_labels": edge_labels})
+  return graphs
+def construct_structural_graph(docs):
+  graphs = []
+  for doc in docs:
+    nodes = [token.text for token in doc]
+    nodes.append("Sentence")
+    senders = [token.i for token in doc][:-1]
+    receivers = [token.i for token in doc][1:]
+    edge_labels = {(token.i, token.i + 1): "next" for token in doc[:-1]}
+    for node in range(len(nodes) - 1):
+      senders.append(node)
+      receivers.append(len(nodes) - 1)
+      edge_labels[(node, len(nodes) - 1)] = "in"
+    graphs.append({"nodes": nodes, "senders": senders, "receivers": receivers, "edge_labels": edge_labels})
   return graphs
 def to_jraph(graph):
           int(senders[e]), int(receivers[e]), edge_feature=edges[e])
   return nx_graph
+def plot_graph_sentence(sentence, graph_type="both"):
+  # sentences = dataset["train"][0]["abstract"].split(".")
   docs = dependency_parser([sentence])
+  if graph_type == "dependency":
+    graphs = construct_dependency_graph(docs)
+  elif graph_type == "structural":
+    graphs = construct_structural_graph(docs)
+  elif graph_type == "both":
+    graphs = construct_both_graph(docs)
   g = to_jraph(graphs[0])
   nx_graph = convert_jraph_to_networkx_graph(g)
+  pos = half_circle_layout(len(graphs[0]["nodes"]))
+  plot = plt.figure(figsize=(25, 6))
+  nx.draw(nx_graph, pos=pos,
+          labels={i: e for i,e in enumerate(graphs[0]["nodes"])},
+          with_labels = True, edge_color="blue",
+          # connectionstyle="arc3,rad=0.1",
+          node_size=1000, font_color='black', node_color="yellow")
+  nx.draw_networkx_edge_labels(
+    nx_graph, pos=pos,
+    edge_labels=graphs[0]["edge_labels"],
+    font_color='red'
+)
   return plot
 def get_list_sentences(id):