minishlab
/

potion-code-16M

@@ -30,7 +30,7 @@ pip install model2vec
 ```python
 from model2vec import StaticModel
-model = StaticModel.from_pretrained("Pringled/potion-code-16M")
 # Embed natural language queries
 query_embeddings = model.encode(["How to read a file in Python?"])
@@ -84,7 +84,7 @@ CoIR covers a broad range of code retrieval scenarios. For the use case of findi
 ## Reproducibility
-The following script reproduces this model end-to-end. It requires the tokenlearn training data from `Pringled/cornstack-docs-tokenlearn` and `Pringled/cornstack-queries-tokenlearn` (20k samples per language used).
 ```python
 """Reproduction script for potion-code-16M.
@@ -144,8 +144,8 @@ PCA_DIMS = 256
 SIF_COEFFICIENT = 1e-4
 # Tokenlearn
-TOKENLEARN_DOCS_DATASET = "Pringled/cornstack-docs-tokenlearn"
-TOKENLEARN_QUERIES_DATASET = "Pringled/cornstack-queries-tokenlearn"
 TOKENLEARN_LANGUAGES = ["go", "java", "javascript", "php", "python", "ruby"]
 TOKENLEARN_MAX_PER_LANGUAGE = 20_000   # 20k docs + 20k queries × 6 langs = 240k total
 TOKENLEARN_LR = 1e-3

 ```python
 from model2vec import StaticModel
+model = StaticModel.from_pretrained("minishlab/potion-code-16M")
 # Embed natural language queries
 query_embeddings = model.encode(["How to read a file in Python?"])
 ## Reproducibility
+The following script reproduces this model end-to-end. It requires the tokenlearn training data from `minishlab/tokenlearn-cornstack-docs-coderankembed` and `minishlab/tokenlearn-cornstack-queries-coderankembed` (20k samples per language used).
 ```python
 """Reproduction script for potion-code-16M.
 SIF_COEFFICIENT = 1e-4
 # Tokenlearn
+TOKENLEARN_DOCS_DATASET = "minishlab/tokenlearn-cornstack-docs-coderankembed"
+TOKENLEARN_QUERIES_DATASET = "minishlab/tokenlearn-cornstack-queries-coderankembed"
 TOKENLEARN_LANGUAGES = ["go", "java", "javascript", "php", "python", "ruby"]
 TOKENLEARN_MAX_PER_LANGUAGE = 20_000   # 20k docs + 20k queries × 6 langs = 240k total
 TOKENLEARN_LR = 1e-3