File size: 2,337 Bytes
244d22f
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
# 🧠 Projeto: Aplicação Local para Rodar LLMs voltados para Agentes (CPU-Friendly)

## 🎯 Objetivo

Desenvolver uma aplicação **simples, leve e de fácil entendimento**, capaz de rodar **modelos LLM localmente em CPU**, utilizando tecnologias como [`llama.cpp`](https://github.com/ggml-org/llama.cpp) e formatos como `GGUF`.

A aplicação será usada com **modelos ajustados para criação de agentes**, ou seja, com suporte a:

- Diálogo multi-turno
- Seguir instruções
- Raciocínio estruturado
- Suporte futuro ao uso de ferramentas (LangChain tools)

O foco inicial é **testar o modelo localmente**, sem deploy ainda.

---

## ✅ Requisitos

- Rodar **100% em CPU**, compatível com Hugging Face Spaces (Free Tier)
- Usar **modelos em formato GGUF**, leves, voltados para agentes
- Usar **llama-cpp-python** (binding oficial Python para llama.cpp)
- Código em Python, com estrutura clara, comentado e expansível
- Interface simples via terminal ou função Python

---

## 🧠 Modelos recomendados (GGUF)

Modelos ajustados para **conversação com agentes**:

| Modelo                | Tamanho | Destaques                     |
| --------------------- | ------- | ----------------------------- |
| OpenHermes 2.5 GGUF   | 7B      | Muito bom com LangChain       |
| Nous Hermes 2 Mistral | 7B      | Fortemente instruído          |
| TinyLlama Chat GGUF   | 1.1B    | Super leve, roda fácil em CPU |
| Zephyr 7B Beta GGUF   | 7B      | Instrução + estilo de chat    |
| OpenChat 3.5 GGUF     | 7B      | Excelente para agentes        |

---

## 🔧 Tecnologias a utilizar

- [llama.cpp](https://github.com/ggml-org/llama.cpp)
- [llama-cpp-python](https://github.com/abetlen/llama-cpp-python)
- Python 3.10+
- Modelo `.gguf` (baixado localmente)

---

## 🛑 Fora do escopo neste momento

- Deploy na nuvem (ex: Hugging Face Spaces)
- API REST / Chat API
- Integração com LangChain

Essas partes virão nas próximas fases do projeto.

---

## ✅ Output esperado nesta fase

- Aplicação local funcional
- Capaz de carregar e rodar um modelo `.gguf` leve
- Permitir conversas básicas (ex: terminal)
- Código simples, modular e pronto para expansão

---

## 📦 Próximo passo sugerido

Criar:

- `main.py` com execução local do modelo
- `requirements.txt`
- Documentação explicando como rodar

---