Spaces:

jackss011
/

dnlp-demo

Sleeping

Jackss commited on Sep 17, 2023

Commit

1dd5fed

•

1 Parent(s): 12bb371

Added HTML

Files changed (4) hide show

Dockerfile CHANGED Viewed

@@ -6,6 +6,15 @@ COPY ./requirements.txt /code/requirements.txt
 RUN pip install --no-cache-dir --upgrade -r /code/requirements.txt
-COPY . .
 CMD ["uvicorn", "main:app", "--host", "0.0.0.0", "--port", "7860"]

 RUN pip install --no-cache-dir --upgrade -r /code/requirements.txt
+RUN useradd -m -u 1000 user
+USER user
+ENV HOME=/home/user \
+	PATH=/home/user/.local/bin:$PATH
+WORKDIR $HOME/app
+COPY --chown=user . $HOME/app
 CMD ["uvicorn", "main:app", "--host", "0.0.0.0", "--port", "7860"]

main.py CHANGED Viewed

@@ -1,14 +1,36 @@
 from fastapi import FastAPI
-model_name = 'allenai/specter'
 app = FastAPI()
-@app.get('/')
-def read_root():
-    return {"Hello": "World!"}
 @app.get('/similarity')
 def similarity(input):
-    output = pipe_flan(input)
-    return {"output": output[0]["generated_text"]}

 from fastapi import FastAPI
+from fastapi.staticfiles import StaticFiles
+from fastapi.responses import FileResponse
+from transformers import AutoTokenizer, AutoModel
+import numpy as np
+from sklearn.metrics.pairwise import cosine_similarity
+# load model and tokenizer
+tokenizer = AutoTokenizer.from_pretrained('allenai/specter')
+model = AutoModel.from_pretrained('allenai/specter')
+# papers = [{'title': 'BERT', 'abstract': 'We introduce a new language representation model called BERT'},
+#           {'title': 'Attention is all you need', 'abstract': ' The dominant sequence transduction models are based on complex recurrent or convolutional neural networks'}]
+# concatenate title and abstract
 app = FastAPI()
+app.mount("/", StaticFiles(directory="static", html=True), name="static")
+@app.get("/")
+def index() -> FileResponse:
+    return FileResponse(path="/app/static/index.html", media_type="text/html")
 @app.get('/similarity')
 def similarity(input):
+    papers = input['papers']
+    title_abs = [d['title'] + tokenizer.sep_token + (d.get('abstract') or '') for d in papers]
+    # preprocess the input
+    inputs = tokenizer(title_abs, padding=True, truncation=True, return_tensors="pt", max_length=512)
+    result = model(**inputs)
+    # take the first token in the batch as the embedding
+    embeddings = result.last_hidden_state[:, 0, :]
+    res = cosine_similarity(embeddings, embeddings).tolist()
+    return {"output": res}

requirements.txt CHANGED Viewed

@@ -3,4 +3,5 @@ requests==2.27.*
 sentencepiece==0.1.*
 torch==1.11.*
 transformers==4.*
-uvicorn[standard]==0.17.*

 sentencepiece==0.1.*
 torch==1.11.*
 transformers==4.*
+uvicorn[standard]==0.17.*
+scikit-learn==1.2.*

static/index.html ADDED Viewed

+<html lang="en">
+<head>
+  <meta charset="UTF-8">
+  <meta name="viewport" content="width=device-width, initial-scale=1.0">
+  <title>Document</title>
+</head>
+<body>
+  Hello world!
+</body>
+</html>