JiaqiXue
/

R2-Router-RouterArena

@@ -34,15 +34,16 @@ Official leaderboard results on 8,400 queries:
 ### Installation
 ```bash
-pip install scikit-learn numpy joblib huggingface_hub sentence-transformers
 ```
 ### Complete Example
 ```python
 from huggingface_hub import snapshot_download
-from sentence_transformers import SentenceTransformer
-import sys
 # 1. Download router
 path = snapshot_download("JiaqiXue/r2-router")
@@ -54,8 +55,14 @@ from router import R2Router
 router = R2Router.from_pretrained(path)
 # 3. Embed your query with Qwen3-0.6B (1024-dim)
-embedder = SentenceTransformer("Qwen/Qwen3-0.6B")
-embedding = embedder.encode("What is the capital of France?")
 # 4. Route!
 result = router.route(embedding)
@@ -81,17 +88,11 @@ router = R2Router.from_training_data(path, k=80)
 ### Alternative: vLLM Embeddings (Faster for Batches)
-```python
-from vllm import LLM
-llm = LLM(model="Qwen/Qwen3-0.6B", runner="pooling")
-outputs = llm.embed(["What is the capital of France?"])
-embedding = outputs[0].outputs.embedding
-```
-Or with vLLM for faster batch inference:
 ```python
 from vllm import LLM
 llm = LLM(model="Qwen/Qwen3-0.6B", runner="pooling")
 outputs = llm.embed(["What is the capital of France?"])
 embedding = outputs[0].outputs.embedding

 ### Installation
 ```bash
+pip install scikit-learn numpy joblib huggingface_hub torch transformers>=4.51
 ```
 ### Complete Example
 ```python
 from huggingface_hub import snapshot_download
+import sys, torch
+import numpy as np
+from transformers import AutoModel, AutoTokenizer
 # 1. Download router
 path = snapshot_download("JiaqiXue/r2-router")
 router = R2Router.from_pretrained(path)
 # 3. Embed your query with Qwen3-0.6B (1024-dim)
+tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen3-0.6B")
+model = AutoModel.from_pretrained("Qwen/Qwen3-0.6B")
+query = "What is the capital of France?"
+inputs = tokenizer(query, return_tensors="pt", padding=True, truncation=True)
+with torch.no_grad():
+    output = model(**inputs)
+embedding = output.last_hidden_state.mean(dim=1).squeeze().numpy()
 # 4. Route!
 result = router.route(embedding)
 ### Alternative: vLLM Embeddings (Faster for Batches)
+For GPU-accelerated batch embedding:
 ```python
 from vllm import LLM
 llm = LLM(model="Qwen/Qwen3-0.6B", runner="pooling")
 outputs = llm.embed(["What is the capital of France?"])
 embedding = outputs[0].outputs.embedding