データ更新に関しての方法検討

#7
by terapyon - opened

Issueを検索対象にしているので、日々の追加・更新を行いたい。

  • データの更新分のみを取得する方法
  • DBに追加または更新を取り込む方法

データ更新分の取得

  • github issueから更新分のみを取得する方法
  • 定期実行を予定しているので、範囲を決めてデータを取得したい
  • 多少の重複データがあっても良い

DBへの追加

  • DBのmetadataにidを持っているので、idをキーにする
  • idが同じものを update するか、DBレコードを消してから insertするか? Qdrantの仕様を調べる

検討事項

  • 日々更新の場合、更新日を何かしらのストレージに持っておいて、それ以降のデータを取得するのが良いか?
  • 多少のダブり(すでに取り込み済み)を考慮して、多めにデータの置き換えをするしかないか?
  • 本文やコメントが更新されたものを、取得できるか?

@t2y1979 検討事項のデータ更新の方法について、より良いもの、他の方策があれば、アドバイスください。

github actions で issue の更新イベントを検知して、その都度 index を更新することができれば、常に最新の情報で検索できて嬉しそうかなと思いました。カスタムの github actions を作るとできそう?

もしくは更新をどこかに溜めておいて、スケジュール実行で10分ごとや30分ごとといったバッチ処理でもよいかもしれない。

@t2y1979 確かにActionsを作れれば、それが望ましいと思いますが、OSSのレポジトリを対象にしている現状では難しそうだなって思っています。
外部から定期的に更新情報を取得するしか無いですね。

terapyon changed discussion title from データ更新の方法 to データ更新に関しての方法検討

Sign up or log in to comment