Issueの数を増やす

#8
by terapyon - opened

Discussionも入れてみたいとの要望があったが、取り込みの方法が確立していないので、後回しにする。
https://github.com/pyvista/pyvista/discussions

4つのIssueからJSONでデータを取得した。
CPythonは、50MBを超えて、1時間以上かかって気がする。

$ python store.py cpython data/cpython-issues.json
$ python store.py pyvista data/pyvista-issues.json
$ python store.py nvdajp data/nvdajp-issues.json
$ python store.py nvda data/nvda-issues.json

nvdaのデータ投入中でエラーがでたので再度投入。
二重にデータ投入している気がする。

Qdrantに関しての以下の方法を別途確認する

  • データを消して、再登録
  • Keyなどでデータ上書き

#10 で対応する。

データ投入でエラーが発生する

$ python store.py nvda data/nvda-issues.json
Traceback (most recent call last):
  File "/home/terapyon/dev/nlp/langchain/gh-issue-search/store.py", line 59, in <module>
    main(repo_name, path)
  File "/home/terapyon/dev/nlp/langchain/gh-issue-search/store.py", line 43, in main
    store(texts)
  File "/home/terapyon/dev/nlp/langchain/gh-issue-search/store.py", line 30, in store
    _ = Qdrant.from_documents(
  File "/home/terapyon/dev/nlp/langchain/gh-issue-search/venv/lib/python3.10/site-packages/langchain/vectorstores/base.py", line 417, in from_documents
    return cls.from_texts(texts, embedding, metadatas=metadatas, **kwargs)
  File "/home/terapyon/dev/nlp/langchain/gh-issue-search/venv/lib/python3.10/site-packages/langchain/vectorstores/qdrant.py", line 1333, in from_texts
    qdrant.add_texts(texts, metadatas, ids, batch_size)
  File "/home/terapyon/dev/nlp/langchain/gh-issue-search/venv/lib/python3.10/site-packages/langchain/vectorstores/qdrant.py", line 181, in add_texts
    self.client.upsert(
  File "/home/terapyon/dev/nlp/langchain/gh-issue-search/venv/lib/python3.10/site-packages/qdrant_client/qdrant_client.py", line 757, in upsert
    return self._client.upsert(
  File "/home/terapyon/dev/nlp/langchain/gh-issue-search/venv/lib/python3.10/site-packages/qdrant_client/qdrant_remote.py", line 1123, in upsert
    http_result = self.openapi_client.points_api.upsert_points(
  File "/home/terapyon/dev/nlp/langchain/gh-issue-search/venv/lib/python3.10/site-packages/qdrant_client/http/api/points_api.py", line 1179, in upsert_points
    return self._build_for_upsert_points(
  File "/home/terapyon/dev/nlp/langchain/gh-issue-search/venv/lib/python3.10/site-packages/qdrant_client/http/api/points_api.py", line 604, in _build_for_upsert_points
    return self.api_client.request(
  File "/home/terapyon/dev/nlp/langchain/gh-issue-search/venv/lib/python3.10/site-packages/qdrant_client/http/api_client.py", line 74, in request
    return self.send(request, type_)
  File "/home/terapyon/dev/nlp/langchain/gh-issue-search/venv/lib/python3.10/site-packages/qdrant_client/http/api_client.py", line 97, in send
    raise UnexpectedResponse.for_response(response)
qdrant_client.http.exceptions.UnexpectedResponse: Unexpected Response: 502 (Bad Gateway)
Raw response content:
b'Bad Gateway'

Qdrantのメモリ不足が影響している気がする。

Qdrantの再起動をしてみた。

再起動してもエラーになったので、一旦はこの状況でデモをする。

terapyon changed discussion status to closed

Sign up or log in to comment