Spaces:

headway
/

medicode

Runtime error

App Files Files Community

timgremore commited on Feb 9

Commit

5676fb5

•

1 Parent(s): 7625517

wip: Correlate code vectors with chunks

Browse files

Files changed (12) hide show

lib/medical_transcription/classification_server.ex +4 -1
lib/medical_transcription/coding.ex +6 -2
lib/medical_transcription/coding/code_vector.ex +6 -1
lib/medical_transcription/feedback/code_feedback.ex +3 -1
lib/medical_transcription/transcriptions.ex +2 -2
lib/medical_transcription/transcriptions/transcription_chunk.ex +2 -0
lib/medical_transcription/transcriptions/transcription_chunk_code_vector.ex +20 -0
priv/repo/migrations/20240116164032_create_code_feedbacks.exs +2 -1
priv/repo/migrations/20240125151833_create_code_vectors.exs +2 -1
priv/repo/migrations/20240125172837_migrate_to_vector_for_code_feedbacks.exs +4 -1
priv/repo/migrations/20240209203409_create_transcription_chunk_code_vectors.exs +17 -0
test/medical_transcription/classification_server_test.exs +5 -2

lib/medical_transcription/classification_server.ex CHANGED Viewed

@@ -6,6 +6,8 @@ defmodule MedicalTranscription.ClassificationServer do
   alias AudioTagger.KeywordFinder
   alias MedicalTranscription.Transcriptions
   alias MedicalTranscription.Transcriptions.TranscriptionChunk
@@ -20,6 +22,7 @@ defmodule MedicalTranscription.ClassificationServer do
   @impl GenServer
   def handle_continue(:start, {:chunk, chunk} = state) do
     find_keywords(chunk)
     Phoenix.PubSub.broadcast(
@@ -66,7 +69,7 @@ defmodule MedicalTranscription.ClassificationServer do
   end
   defp classify_chunk(chunk) do
-    find_keywords(chunk)
   end
   defp find_keywords(chunk) do

   alias AudioTagger.KeywordFinder
+  alias MedicalTranscription.Coding
+  alias MedicalTranscription.Coding.CodeVectorMatch
   alias MedicalTranscription.Transcriptions
   alias MedicalTranscription.Transcriptions.TranscriptionChunk
   @impl GenServer
   def handle_continue(:start, {:chunk, chunk} = state) do
+    classify_chunk(chunk)
     find_keywords(chunk)
     Phoenix.PubSub.broadcast(
   end
   defp classify_chunk(chunk) do
+    Coding.process_chunk(chunk)
   end
   defp find_keywords(chunk) do

lib/medical_transcription/coding.ex CHANGED Viewed

@@ -9,6 +9,7 @@ defmodule MedicalTranscription.Coding do
   import Pgvector.Ecto.Query
   alias MedicalTranscription.Coding.{CodeVector, CodeVectorMatch}
   def insert_vector(params) do
     changeset = CodeVector.changeset(%CodeVector{}, params)
@@ -53,16 +54,18 @@ defmodule MedicalTranscription.Coding do
   3. Then, look to see if there is any related user-provided feedback in the `code_feedbacks` table.
   4. Pass through the found `code_vectors` and modify the similarity scores based on any relevant previous feedback.
   """
-  def process_chunk(text, opts \\ []) do
     k = Keyword.get(opts, :num_results, 5)
     similarity_threshold = Keyword.get(opts, :similarity_threshold, 0.80)
     search_vector_for_db = compute_vector_as_list(text)
     past_feedbacks =
       MedicalTranscription.Feedback.find_related_feedback(search_vector_for_db, opts)
-    code_vectors = find_similar(search_vector_for_db, k)
     code_vectors_for_feedback = find_for_feedback(search_vector_for_db, past_feedbacks)
     code_vectors
@@ -71,6 +74,7 @@ defmodule MedicalTranscription.Coding do
     |> weight_code_vectors(past_feedbacks)
     |> filter_below_threshold(similarity_threshold)
     |> sort_by_similarity()
   end
   @doc "Creates a vector embedding for text using the text embedding serving in the application's supervision tree."

   import Pgvector.Ecto.Query
   alias MedicalTranscription.Coding.{CodeVector, CodeVectorMatch}
+  alias MedicalTranscription.Transcriptions.TranscriptionChunk
   def insert_vector(params) do
     changeset = CodeVector.changeset(%CodeVector{}, params)
   3. Then, look to see if there is any related user-provided feedback in the `code_feedbacks` table.
   4. Pass through the found `code_vectors` and modify the similarity scores based on any relevant previous feedback.
   """
+  def process_chunk(%TranscriptionChunk{text: text}, opts \\ []) do
     k = Keyword.get(opts, :num_results, 5)
     similarity_threshold = Keyword.get(opts, :similarity_threshold, 0.80)
     search_vector_for_db = compute_vector_as_list(text)
+    dbg(text)
     past_feedbacks =
       MedicalTranscription.Feedback.find_related_feedback(search_vector_for_db, opts)
+    code_vectors = find_similar(search_vector_for_db, k) |> dbg()
     code_vectors_for_feedback = find_for_feedback(search_vector_for_db, past_feedbacks)
     code_vectors
     |> weight_code_vectors(past_feedbacks)
     |> filter_below_threshold(similarity_threshold)
     |> sort_by_similarity()
+    |> dbg()
   end
   @doc "Creates a vector embedding for text using the text embedding serving in the application's supervision tree."

lib/medical_transcription/coding/code_vector.ex CHANGED Viewed

@@ -5,12 +5,17 @@ defmodule MedicalTranscription.Coding.CodeVector do
   use Ecto.Schema
   alias Ecto.Changeset
   schema "code_vectors" do
     field :code, :string
     field :description, :string
     field :description_vector, Pgvector.Ecto.Vector
-    timestamps()
   end
   def changeset(code_vector, params \\ %{}) do

   use Ecto.Schema
   alias Ecto.Changeset
+  @primary_key {:id, :binary_id, autogenerate: true}
+  @foreign_key_type :binary_id
   schema "code_vectors" do
     field :code, :string
     field :description, :string
     field :description_vector, Pgvector.Ecto.Vector
+    has_many :transcription_chunk_code_vectors, MedicalTranscription.Transcriptions.TranscriptionChunkCodeVector
+    has_many :transcription_chunks, through: [:transcription_chunk_code_vectors, :transcription_chunk]
+    timestamps(type: :utc_datetime)
   end
   def changeset(code_vector, params \\ %{}) do

lib/medical_transcription/feedback/code_feedback.ex CHANGED Viewed

@@ -4,6 +4,8 @@ defmodule MedicalTranscription.Feedback.CodeFeedback do
   """
   use Ecto.Schema
   schema "code_feedbacks" do
     field :text, :string
     field :text_vector, Pgvector.Ecto.Vector
@@ -11,7 +13,7 @@ defmodule MedicalTranscription.Feedback.CodeFeedback do
     belongs_to :code_vector, MedicalTranscription.CodeVector
-    timestamps()
   end
   def changeset(code_feedback, params \\ %{}) do

   """
   use Ecto.Schema
+  @primary_key {:id, :binary_id, autogenerate: true}
+  @foreign_key_type :binary_id
   schema "code_feedbacks" do
     field :text, :string
     field :text_vector, Pgvector.Ecto.Vector
     belongs_to :code_vector, MedicalTranscription.CodeVector
+    timestamps(type: :utc_datetime)
   end
   def changeset(code_feedback, params \\ %{}) do

lib/medical_transcription/transcriptions.ex CHANGED Viewed

@@ -57,7 +57,7 @@ defmodule MedicalTranscription.Transcriptions do
     query =
       if preload_transcription_chunks do
         Transcription
-        |> preload(chunks: :keywords)
       else
         Transcription
       end
@@ -83,7 +83,7 @@ defmodule MedicalTranscription.Transcriptions do
     query =
       if preload_transcription_chunks do
         Transcription
-        |> preload(chunks: :keywords)
       else
         Transcription
       end

     query =
       if preload_transcription_chunks do
         Transcription
+        |> preload(chunks: [:keywords, :code_vectors])
       else
         Transcription
       end
     query =
       if preload_transcription_chunks do
         Transcription
+        |> preload(chunks: [:keywords, :code_vectors])
       else
         Transcription
       end

lib/medical_transcription/transcriptions/transcription_chunk.ex CHANGED Viewed

@@ -12,6 +12,8 @@ defmodule MedicalTranscription.Transcriptions.TranscriptionChunk do
     belongs_to :transcription, MedicalTranscription.Transcriptions.Transcription
     has_many :keywords, MedicalTranscription.Transcriptions.TranscriptionChunkKeyword
     timestamps(type: :utc_datetime)
   end

     belongs_to :transcription, MedicalTranscription.Transcriptions.Transcription
     has_many :keywords, MedicalTranscription.Transcriptions.TranscriptionChunkKeyword
+    has_many :transcription_chunk_code_vectors, MedicalTranscription.Transcriptions.TranscriptionChunkCodeVector
+    has_many :code_vectors, through: [:transcription_chunk_code_vectors, :code_vector]
     timestamps(type: :utc_datetime)
   end

lib/medical_transcription/transcriptions/transcription_chunk_code_vector.ex ADDED Viewed

	@@ -0,0 +1,20 @@

+defmodule MedicalTranscription.Transcriptions.TranscriptionChunkCodeVector do
+  use Ecto.Schema
+  import Ecto.Changeset
+  @primary_key {:id, :binary_id, autogenerate: true}
+  @foreign_key_type :binary_id
+  schema "transcription_chunk_code_vectors" do
+    belongs_to :transcription_chunk, MedicalTranscription.Transcriptions.TranscriptionChunk
+    belongs_to :code_vector, MedicalTranscription.Coding.CodeVector
+    timestamps(type: :utc_datetime)
+  end
+  @doc false
+  def changeset(transcription_chunk_code_vector, attrs) do
+    transcription_chunk_code_vector
+    |> cast(attrs, [:transcription_chunk_id, :code_vector_id])
+    |> validate_required([:transcription_chunk_id, :code_vector_id])
+  end
+end

priv/repo/migrations/20240116164032_create_code_feedbacks.exs CHANGED Viewed

@@ -2,7 +2,8 @@ defmodule MedicalTranscription.Repo.Migrations.CreateCodeFeedbacks do
   use Ecto.Migration
   def change do
-    create table(:code_feedbacks) do
       add :text, :string
       add :code, :string
       add :response, :boolean

   use Ecto.Migration
   def change do
+    create table(:code_feedbacks, primary_key: false) do
+      add :id, :binary_id, primary_key: true
       add :text, :string
       add :code, :string
       add :response, :boolean

priv/repo/migrations/20240125151833_create_code_vectors.exs CHANGED Viewed

@@ -2,7 +2,8 @@ defmodule MedicalTranscription.Repo.Migrations.CreateLabelVectors do
   use Ecto.Migration
   def change do
-    create table("code_vectors") do
       add :code, :string
       add :description, :string
       add :description_vector, :vector, size: 384

   use Ecto.Migration
   def change do
+    create table(:code_vectors, primary_key: false) do
+      add :id, :binary_id, primary_key: true
       add :code, :string
       add :description, :string
       add :description_vector, :vector, size: 384

priv/repo/migrations/20240125172837_migrate_to_vector_for_code_feedbacks.exs CHANGED Viewed

@@ -4,7 +4,10 @@ defmodule MedicalTranscription.Repo.Migrations.MigrateToVectorForCodeFeedbacks d
   def change do
     alter table("code_feedbacks") do
       add :text_vector, :vector, size: 384
-      add :code_vector_id, references("code_vectors")
       # These two columns can be found on the `code_vectors` table referenced above
       remove :code, :string

   def change do
     alter table("code_feedbacks") do
       add :text_vector, :vector, size: 384
+      add :code_vector_id,
+          references(:code_vectors, type: :binary_id, on_delete: :delete_all),
+          null: false
       # These two columns can be found on the `code_vectors` table referenced above
       remove :code, :string

priv/repo/migrations/20240209203409_create_transcription_chunk_code_vectors.exs ADDED Viewed

	@@ -0,0 +1,17 @@

+defmodule MedicalTranscription.Repo.Migrations.CreateTranscriptionChunkCodeVectors do
+  use Ecto.Migration
+  def change do
+    create table(:transcription_chunk_code_vectors, primary_key: false) do
+      add :id, :binary_id, primary_key: true
+      add :transcription_chunk_id,
+          references(:transcription_chunks, type: :binary_id, on_delete: :delete_all),
+          null: false
+      add :code_vector_id,
+          references(:code_vectors, type: :binary_id, on_delete: :delete_all),
+          null: false
+      timestamps(type: :utc_datetime)
+    end
+  end
+end

test/medical_transcription/classification_server_test.exs CHANGED Viewed

@@ -31,12 +31,15 @@ defmodule MedicalTranscription.ClassificationServerTest do
     ref = Process.monitor(pid)
     assert_receive({:DOWN, ^ref, :process, _object, _pid}, 5_000)
-    keywords =
       transcription.id
       |> Transcriptions.get_transcription!(true)
       |> Map.fetch!(:chunks)
-      |> Enum.flat_map(& &1.keywords)
     assert 2 == Enum.count(keywords)
   end
 end

     ref = Process.monitor(pid)
     assert_receive({:DOWN, ^ref, :process, _object, _pid}, 5_000)
+    chunks =
       transcription.id
       |> Transcriptions.get_transcription!(true)
       |> Map.fetch!(:chunks)
+    keywords = Enum.flat_map(chunks, & &1.keywords)
+    code_vectors = Enum.flat_map(chunks, & &1.code_vectors)
     assert 2 == Enum.count(keywords)
+    assert 2 == Enum.count(code_vectors)
   end
 end