Upload 3 files

Browse files

Files changed (3) hide show

APPs/SD-Next/Dockerfile +0 -0
APPs/llama-swap/config.yaml +161 -0
APPs/llama-swap/docker-compose.yaml +59 -0

APPs/SD-Next/Dockerfile ADDED Viewed

File without changes

APPs/llama-swap/config.yaml ADDED Viewed

	@@ -0,0 +1,161 @@

+healthCheckTimeout: 1500
+startPort: 65001
+ttl: 1200
+# --- Macros Globais ---
+macros:
+  "base_vRAM": >-
+    --privileged --label ai-type=worker --ulimit memlock=-1 --ulimit stack=67108864
+    --device /dev/dri:/dev/dri
+    --device /dev/accel/accel0:/dev/accel/accel0
+    -v /home/lvivas/Modelos/models:/root/.cache/
+    -v /tmp/cache_file:/tmp/cache_file
+    -v /home/lvivas/Modelos/grammar:/tmp/grammar
+    -e ZES_ENABLE_SYSMAN=1 -e GGML_SYCL_UNIFIED_SHARED_MEMORY=1 -e GGML_SYCL_OVERRIDE_ALLOCATOR=1
+  "base_Opts": "--ctx-size 32768 --no-webui --gpu-layers 99 --fit on -t 10 --prio 3 --poll 25 --perf --mlock --no-mmap --split-mode none --flash-attn on"
+  "kv_cache_opt": >-
+    --cache-type-k q8_0 --cache-type-v q8_0 --swa-full
+    --ctx-checkpoints 10 --batch-size 4096 --ubatch-size 1024
+  "draft_qwen_08": >-
+    -hfd mradermacher/Huihui-Qwen3.5-0.8B-abliterated-GGUF:Q5_K_M
+    --draft 5 -ctkd q8_0 -ctvd q8_0
+  "run_intel": >-
+    -e ONEAPI_DEVICE_SELECTOR=level_zero:0
+    ghcr.io/ggml-org/llama.cpp:server-intel
+  #Last Stable b8445
+  "run_vulkan": >-
+    ghcr.io/ggml-org/llama.cpp:server-vulkan
+  "run_test": >-
+    ghcr.io/ggml-org/llama.cpp:server-vulkan
+  "run_openvino": >-
+    -e GGML_OPENVINO_DEVICE=GPU
+    -e GGML_OPENVINO_PREFILL_CHUNK_SIZE=256
+    ghcr.io/ggml-org/llama.cpp:server-openvino
+  "chat_default": >-
+    ${kv_cache_opt} ${base_Opts} --reasoning off
+    --temp 0.6 --top-p 0.95 --top-k 50 --min-p 0.05
+    --repeat-penalty 1.05 --presence-penalty 1.0 --repeat-last-n 1024
+    --parallel 2
+  "code_default": >-
+    ${base_Opts} ${kv_cache_opt} --reasoning on
+    --temp 0.2 --top-p 0.95 --top-k 20 --min-p 0.00
+    --repeat-penalty 1.15 --parallel 1
+# --- Grupos ---
+groups:
+  "Coding":
+    swap: false
+    exclusive: true
+    members:
+      - "Qwen3.5-9B"
+      - "nomic-embed-text-v1.5"
+  "Chat":
+    swap: false
+    exclusive: true
+    members:
+      - "JOSIE-4B"
+      - "Darkidol-Ballad-9B"
+hooks:
+  on_startup:
+    preload:
+      - "Darkidol-Ballad-9B"
+# --- Modelos ---
+models:
+  "nomic-embed-text-v1.5":
+    proxy: "http://127.0.0.1:${PORT}"
+    cmd: |
+      docker run --pull always --rm ${base_vRAM} -p ${PORT}:8080 --name nomic-V
+      ${run_vulkan}
+      -hf nomic-ai/nomic-embed-text-v1.5-GGUF:Q4_K_M
+      --embeddings --ctx-size 8192 --gpu-layers 99 --parallel 1 --flash-attn on
+    cmdStop: "docker stop nomic-V"
+  "JOSIE-4B":
+    proxy: "http://127.0.0.1:${PORT}"
+    cmd: |
+      docker run --pull always --rm ${base_vRAM} -p ${PORT}:8080 --name JOSIE
+      ${run_openvino}
+      -hf mradermacher/JOSIE-4B-Instruct-GGUF:Q4_K_M
+      ${chat_default}
+    cmdStop: "docker stop JOSIE"
+  "Qwen3.5-9B":
+    proxy: "http://127.0.0.1:${PORT}"
+    cmd: |
+      docker run --pull always --rm ${base_vRAM} -p ${PORT}:8080 --name Qwen3.5-9B
+      ${run_intel}
+      -hf mradermacher/Qwen3.5-9B-ultra-heretic-GGUF:Q4_K_M
+      ${code_default} --seed 3407
+    cmdStop: "docker stop Qwen3.5-9B"
+  "Character-Creator":
+    proxy: "http://127.0.0.1:${PORT}"
+    cmd: |
+      docker run --pull always --rm ${base_vRAM} -p ${PORT}:8080 --name Character-Creator
+      ${run_vulkan}
+      -hf mradermacher/Llama-3.3-8B-Character-Creator-V2-GGUF:Q4_K_M
+      ${chat_default}
+    cmdStop: "docker stop Character-Creator"
+  "Impish_Bloodmoon_12B":
+    proxy: "http://127.0.0.1:${PORT}"
+    cmd: |
+      docker run --pull always --rm ${base_vRAM} -p ${PORT}:8080 --name Impish_Bloodmoon_12B
+      ${run_vulkan}
+      -hf SicariusSicariiStuff/Impish_Bloodmoon_12B_GGUF:Q4_K_M
+      ${chat_default}
+    cmdStop: "docker stop Impish_Bloodmoon_12B"
+  "Darkidol-Ballad-9B":
+    proxy: "http://127.0.0.1:${PORT}"
+    cmd: |
+      docker run --pull always --rm ${base_vRAM} -p ${PORT}:8080 --name Darkidol-Ballad-9B
+      ${run_vulkan} -hf mradermacher/Darkidol-Ballad-9B-GGUF:Q5_K_M
+      ${chat_default} ${draft_qwen_08}
+    cmdStop: "docker stop Darkidol-Ballad-9B"
+  "Darkidol-Ballad-9B-I":
+    proxy: "http://127.0.0.1:${PORT}"
+    cmd: |
+      docker run --pull always --rm ${base_vRAM} -p ${PORT}:8080 --name Darkidol-Ballad-9B
+      ${run_intel}
+      -hf mradermacher/Darkidol-Ballad-9B-GGUF:Q4_K_M
+      ${chat_default}
+    cmdStop: "docker stop Darkidol-Ballad-9B"
+  "TEST-MODELS":
+    proxy: "http://127.0.0.1:${PORT}"
+    cmd: |
+      docker run --pull always --rm ${base_vRAM} -p ${PORT}:8080 --name TEST-MODELS
+      ${run_test}
+      -hf ReadyArt/Omega-Evolution-9B-v2.0-GGUF:Q5_K_M
+      ${draft_qwen_08}
+      --gpu-layers 99 --ctx-size 8192 --no-context-shift
+      -np 1 --flash-attn on --fit on --swa-full
+      --mlock --no-mmap -b 4096 --ubatch-size 1024
+      --temp 0.6 --min-p 0.05 --reasoning off --no-warmup
+      --grammar-file /tmp/grammar/strict_xml.gbnf
+    cmdStop: "docker stop TEST-MODELS"
+  "00-HELP":
+    proxy: "http://127.0.0.1:${PORT}"
+    cmd: |
+      docker run --pull always --rm ${base_vRAM} -p ${PORT}:8080 --name I00-HELP
+      ${run_test} -h
+    cmdStop: "docker stop I00-HELP"
+    filters:
+      stripParams: "top_p, top_k, min_p, presence_penalty, frequency_penalty, repeat_last"

APPs/llama-swap/docker-compose.yaml ADDED Viewed

	@@ -0,0 +1,59 @@

+#version: '3.8'
+services:
+  llama-swap:
+    container_name: llamaswap
+    image: ghcr.io/mostlygeek/llama-swap:vulkan
+    restart: unless-stopped
+    pull_policy: always
+    network_mode: host
+    privileged: true
+    shm_size: '32gb'
+    volumes:
+      # Novo mapeamento unificado de cache (compatível com HF migration)
+      - /home/lvivas/Modelos/models:/root/.cache
+      # Acesso às gramáticas para o orquestrador validar os caminhos
+      - /home/lvivas/Modelos/grammar:/tmp/grammar
+      # Configurações do projeto
+      - ./config:/config
+      # Comunicação com o Docker Host (indispensável)
+      - /var/run/docker.sock:/var/run/docker.sock
+      - /usr/bin/docker:/usr/bin/docker
+      # Cache de contexto compartilhado
+      - /tmp/cache_file:/tmp/cache_file
+    environment:
+      # Opcional: Garante que o orquestrador saiba onde procurar as coisas
+      - XDG_CACHE_HOME=/root/.cache
+    devices:
+      - /dev/dri:/dev/dri
+      - /dev/accel/accel0:/dev/accel/accel0
+    group_add:
+      - "44"
+      - "991"
+    cap_add:
+      - SYS_ADMIN
+      - SYS_RAWIO
+      - IPC_LOCK
+      - SYS_RESOURCE
+    ulimits:
+      memlock: -1
+      stack: 67108864
+    entrypoint: /app/llama-swap -config /config/config.yaml --listen :65000
+    healthcheck:
+      test: ["CMD", "curl", "-f", "http://localhost:65000/"]
+      interval: 30s
+      timeout: 10s
+      retries: 3
+  # ESTE BLOCO DEVE ESTAR ALINHADO COM O llama-swap:
+  watch-config:
+    image: docker:latest
+    container_name: llamaswap-watcher
+    restart: unless-stopped
+    volumes:
+      - ./config:/config
+      - /home/lvivas/Modelos/models:/root/.cache
+      - /var/run/docker.sock:/var/run/docker.sock
+      - /tmp/cache_file:/tmp/cache_file
+    # O entrypoint garante que o script tenha permissão antes de rodar
+    entrypoint: ["sh", "-c", "chmod +x /config/watch-config.sh && /config/watch-config.sh"]