Spaces:

dpang
/

rans-env

Sleeping

App Files Files Community

rans-env / examples /train_against_server.py

dpang

Update examples/train_against_server.py

6de1b43 verified 3 days ago

raw

history blame contribute delete

14.7 kB

	#!/usr/bin/env python3
	# Copyright (c) Space Robotics Lab, SnT, University of Luxembourg, SpaceR
	# RANS: arXiv:2310.07393 — OpenEnv training examples

	"""
	PPO Training Against a Running RANS Server
	==========================================
	Trains a spacecraft navigation policy via the OpenEnv HTTP/WebSocket client,
	connecting to a RANS server running locally (uvicorn) or in Docker.

	This is the canonical OpenEnv training pattern:

	┌─────────────────────────────┐ HTTP/WS ┌──────────────────────┐
	│ ppo_train (this script) │ ──────────► │ uvicorn / Docker │
	│ RemoteRANSGymnasiumEnv │ │ RANSEnvironment │
	│ ActorCritic + PPO │ ◄────────── │ spacecraft physics │
	└─────────────────────────────┘ └──────────────────────┘

	Start the server first:
	uvicorn rans_env.server.app:app --host 0.0.0.0 --port 8000

	Then run this script:
	python examples/train_against_server.py --task GoToPosition
	python examples/train_against_server.py --task GoToPose --url http://localhost:8000
	python examples/train_against_server.py --eval --checkpoint rans_ppo_remote_GoToPosition.pt

	Requirements:
	pip install torch gymnasium openenv-core
	"""

	from __future__ import annotations

	import argparse
	import os
	import sys
	import time
	from typing import Any, Dict, List, Optional, Tuple

	import numpy as np

	try:
	import gymnasium as gym
	from gymnasium import spaces
	except ImportError:
	print("gymnasium is required: pip install gymnasium")
	sys.exit(1)

	try:
	import torch
	import torch.nn as nn
	import torch.optim as optim
	from torch.distributions import Normal
	except ImportError:
	print("torch is required: pip install torch")
	sys.exit(1)

	sys.path.insert(0, os.path.dirname(os.path.dirname(__file__)))


	# ---------------------------------------------------------------------------
	# Remote gymnasium wrapper (uses OpenEnv HTTP client)
	# ---------------------------------------------------------------------------

	class RemoteRANSGymnasiumEnv(gym.Env):
	"""
	Gymnasium-compatible environment that connects to a running RANS server
	via the OpenEnv ``RANSEnv`` WebSocket/HTTP client.

	Identical observation and action spaces to ``RANSGymnasiumEnv``, but all
	physics runs inside the server process (or Docker container).
	"""

	metadata = {"render_modes": []}

	def __init__(self, base_url: str = "http://localhost:8000") -> None:
	super().__init__()
	from rans_env import RANSEnv, SpacecraftAction

	self._SpacecraftAction = SpacecraftAction
	# EnvClient is already synchronous (WebSocket-based); just connect.
	self._client = RANSEnv(base_url=base_url)
	self._client.connect()

	# Probe the environment to determine spaces
	result = self._client.reset()
	obs = result.observation
	flat = self._flatten(obs)

	n = len(obs.thruster_masks)
	self.action_space = spaces.Box(low=0.0, high=1.0, shape=(n,), dtype=np.float32)
	self.observation_space = spaces.Box(
	low=-np.inf, high=np.inf, shape=(flat.shape[0],), dtype=np.float32
	)
	self._last_flat = flat
	self._task = obs.task

	def reset(self, *, seed=None, options=None) -> Tuple[np.ndarray, Dict]:
	super().reset(seed=seed)
	result = self._client.reset()
	self._last_flat = self._flatten(result.observation)
	return self._last_flat, {"task": result.observation.task}

	def step(self, action: np.ndarray) -> Tuple[np.ndarray, float, bool, bool, Dict]:
	result = self._client.step(
	self._SpacecraftAction(thrusters=action.tolist())
	)
	flat = self._flatten(result.observation)
	reward = float(result.reward or 0.0)
	done = bool(result.done)
	self._last_flat = flat
	return flat, reward, done, False, result.observation.info or {}

	def close(self) -> None:
	self._client.disconnect()

	@staticmethod
	def _flatten(obs) -> np.ndarray:
	return np.concatenate([
	np.array(obs.state_obs, dtype=np.float32),
	np.array(obs.thruster_transforms, dtype=np.float32).flatten(),
	np.array(obs.thruster_masks, dtype=np.float32),
	np.array([obs.mass, obs.inertia], dtype=np.float32),
	])


	# ---------------------------------------------------------------------------
	# Re-use ActorCritic and PPO from ppo_train.py
	# ---------------------------------------------------------------------------

	def _mlp(in_dim: int, hidden: List[int], out_dim: int) -> nn.Sequential:
	layers: List[nn.Module] = []
	prev = in_dim
	for h in hidden:
	layers += [nn.Linear(prev, h), nn.Tanh()]
	prev = h
	layers.append(nn.Linear(prev, out_dim))
	return nn.Sequential(*layers)


	class ActorCritic(nn.Module):
	def __init__(self, obs_dim: int, act_dim: int, hidden: List[int] = None):
	super().__init__()
	hidden = hidden or [64, 64]
	self.actor_mean = _mlp(obs_dim, hidden, act_dim)
	self.log_std = nn.Parameter(torch.zeros(act_dim))
	self.critic = _mlp(obs_dim, hidden, 1)

	def forward(self, obs):
	mean = torch.sigmoid(self.actor_mean(obs))
	std = self.log_std.exp().expand_as(mean)
	return Normal(mean, std), self.critic(obs).squeeze(-1)

	@torch.no_grad()
	def act(self, obs):
	dist, value = self(obs)
	action = dist.sample().clamp(0.0, 1.0)
	return action, dist.log_prob(action).sum(-1), value

	@torch.no_grad()
	def act_deterministic(self, obs):
	return torch.sigmoid(self.actor_mean(obs)).clamp(0.0, 1.0)


	class RolloutBuffer:
	def __init__(self, n: int, obs_dim: int, act_dim: int, device: str):
	self.n, self.device = n, device
	self.obs = torch.zeros(n, obs_dim, device=device)
	self.actions = torch.zeros(n, act_dim, device=device)
	self.log_probs = torch.zeros(n, device=device)
	self.rewards = torch.zeros(n, device=device)
	self.values = torch.zeros(n, device=device)
	self.dones = torch.zeros(n, device=device)
	self.ptr = 0

	def add(self, obs, action, log_prob, reward, value, done):
	i = self.ptr
	self.obs[i], self.actions[i] = obs, action
	self.log_probs[i], self.rewards[i] = log_prob, reward
	self.values[i], self.dones[i] = value, done
	self.ptr += 1

	def reset(self): self.ptr = 0

	def compute_gae(self, last_value, gamma=0.99, lam=0.95):
	adv = torch.zeros_like(self.rewards)
	last_gae = 0.0
	for t in reversed(range(self.n)):
	nv = last_value if t == self.n - 1 else self.values[t + 1]
	nd = 0.0 if t == self.n - 1 else self.dones[t + 1]
	delta = self.rewards[t] + gamma * nv * (1 - nd) - self.values[t]
	last_gae = delta + gamma * lam * (1 - self.dones[t]) * last_gae
	adv[t] = last_gae
	return adv, adv + self.values


	def ppo_update(policy, optimizer, buf, adv, returns,
	clip=0.2, ent=0.01, vf=0.5, epochs=10, bs=64):
	n = buf.n
	stats = {"pi": 0.0, "vf": 0.0, "ent": 0.0}
	n_updates = 0
	for _ in range(epochs):
	for s in range(0, n, bs):
	mb = torch.randperm(n, device=buf.device)[s:s+bs]
	a_b = (adv[mb] - adv[mb].mean()) / (adv[mb].std() + 1e-8)
	dist, val = policy(buf.obs[mb])
	lp = dist.log_prob(buf.actions[mb]).sum(-1)
	r = (lp - buf.log_probs[mb]).exp()
	pi_loss = -torch.min(r * a_b, r.clamp(1-clip, 1+clip) * a_b).mean()
	vf_loss = (val - returns[mb]).pow(2).mean()
	loss = pi_loss + vf * vf_loss - ent * dist.entropy().sum(-1).mean()
	optimizer.zero_grad(); loss.backward()
	nn.utils.clip_grad_norm_(policy.parameters(), 0.5)
	optimizer.step()
	stats["pi"] += pi_loss.item()
	stats["vf"] += vf_loss.item()
	n_updates += 1
	return {key: val / max(n_updates, 1) for key, val in stats.items()}


	# ---------------------------------------------------------------------------
	# Training loop
	# ---------------------------------------------------------------------------

	def train(args: argparse.Namespace) -> None:
	device = "cuda" if torch.cuda.is_available() else "cpu"
	print(f"\nRANS PPO — Remote Training via OpenEnv Client")
	print(f" server : {args.url}")
	print(f" task : connecting… (task set by RANS_TASK on server)")
	print(f" device : {device}")
	print(f" steps : {args.timesteps:,}")
	print("=" * 60)

	env = RemoteRANSGymnasiumEnv(base_url=args.url)
	obs_dim = env.observation_space.shape[0]
	act_dim = env.action_space.shape[0]
	print(f" task : {env._task}")
	print(f" obs_dim : {obs_dim}")
	print(f" act_dim : {act_dim} (thrusters)")
	print()

	policy = ActorCritic(obs_dim, act_dim).to(device)
	optimizer = optim.Adam(policy.parameters(), lr=args.lr)

	if args.checkpoint and os.path.exists(args.checkpoint):
	ck = torch.load(args.checkpoint, map_location=device)
	policy.load_state_dict(ck["policy"])
	optimizer.load_state_dict(ck["optimizer"])
	print(f" Loaded checkpoint: {args.checkpoint}")

	buf = RolloutBuffer(args.n_steps, obs_dim, act_dim, device)

	ep_rewards: List[float] = []
	ep_lengths: List[int] = []
	ep_reward = ep_len = 0.0
	best_mean = -float("inf")

	obs_np, _ = env.reset()
	obs = torch.from_numpy(obs_np).float().to(device)
	total_steps = update_num = 0
	t0 = time.perf_counter()

	while total_steps < args.timesteps:
	buf.reset()
	for _ in range(args.n_steps):
	action, log_prob, value = policy.act(obs)
	next_obs_np, reward, terminated, truncated, info = env.step(
	action.cpu().numpy()
	)
	done = terminated or truncated
	buf.add(obs, action, log_prob,
	torch.tensor(reward, device=device),
	value,
	torch.tensor(float(done), device=device))
	ep_reward += reward
	ep_len += 1
	total_steps += 1
	if done:
	ep_rewards.append(ep_reward)
	ep_lengths.append(ep_len)
	ep_reward = ep_len = 0.0
	next_obs_np, _ = env.reset()
	obs = torch.from_numpy(next_obs_np).float().to(device)

	with torch.no_grad():
	_, last_val = policy(obs)
	adv, returns = buf.compute_gae(last_val, args.gamma, args.lam)

	stats = ppo_update(policy, optimizer, buf, adv, returns,
	clip=args.clip_eps, ent=args.entropy_coef,
	epochs=args.n_epochs, bs=args.batch_size)
	update_num += 1

	if update_num % args.log_interval == 0:
	mean_rew = np.mean(ep_rewards[-100:]) if ep_rewards else float("nan")
	fps = total_steps / (time.perf_counter() - t0)
	print(f" update {update_num:4d} \| steps {total_steps:7,} \| "
	f"mean_rew {mean_rew:6.3f} \| fps {fps:4.0f} \| "
	f"pi {stats['pi']:+.4f} vf {stats['vf']:.4f}")

	if ep_rewards:
	mean_rew = np.mean(ep_rewards[-100:])
	if mean_rew > best_mean:
	best_mean = mean_rew
	ck_path = args.checkpoint or f"rans_ppo_remote_{env._task}.pt"
	torch.save({"policy": policy.state_dict(),
	"optimizer": optimizer.state_dict(),
	"best_mean_reward": best_mean,
	"task": env._task}, ck_path)

	env.close()
	print(f"\nTraining complete. Best mean reward: {best_mean:.3f}")
	print(f"Checkpoint: {args.checkpoint or f'rans_ppo_remote_{env._task}.pt'}")


	# ---------------------------------------------------------------------------
	# Evaluation
	# ---------------------------------------------------------------------------

	def evaluate(args: argparse.Namespace) -> None:
	env = RemoteRANSGymnasiumEnv(base_url=args.url)
	obs_dim = env.observation_space.shape[0]
	act_dim = env.action_space.shape[0]
	ck = torch.load(args.checkpoint, map_location="cpu")
	policy = ActorCritic(obs_dim, act_dim)
	policy.load_state_dict(ck["policy"])
	policy.eval()

	print(f"\nEvaluating {args.checkpoint} against {args.url}")
	print(f" task: {env._task} \| best training reward: {ck.get('best_mean_reward', '?'):.3f}")
	print("=" * 60)

	for ep in range(args.eval_episodes):
	obs_np, _ = env.reset()
	total_r, steps = 0.0, 0
	while True:
	action = policy.act_deterministic(
	torch.from_numpy(obs_np).float()
	).numpy()
	obs_np, r, term, trunc, info = env.step(action)
	total_r += r; steps += 1
	if term or trunc: break
	print(f" ep {ep+1:2d} \| steps {steps:4d} \| reward {total_r:.3f} \| "
	f"goal {info.get('goal_reached', '?')}")
	env.close()


	# ---------------------------------------------------------------------------
	# Entry point
	# ---------------------------------------------------------------------------

	def main():
	p = argparse.ArgumentParser(description="RANS PPO training via OpenEnv client")
	p.add_argument("--url", default="http://localhost:8000")
	p.add_argument("--timesteps", type=int, default=200_000)
	p.add_argument("--n-steps", type=int, default=1024)
	p.add_argument("--n-epochs", type=int, default=10)
	p.add_argument("--batch-size", type=int, default=64)
	p.add_argument("--lr", type=float, default=3e-4)
	p.add_argument("--gamma", type=float, default=0.99)
	p.add_argument("--lam", type=float, default=0.95)
	p.add_argument("--clip-eps", type=float, default=0.2)
	p.add_argument("--entropy-coef", type=float, default=0.01)
	p.add_argument("--log-interval", type=int, default=5)
	p.add_argument("--checkpoint", default=None)
	p.add_argument("--eval", action="store_true")
	p.add_argument("--eval-episodes", type=int, default=10)
	args = p.parse_args()

	if args.eval:
	if not args.checkpoint:
	print("--eval requires --checkpoint"); sys.exit(1)
	evaluate(args)
	else:
	train(args)


	if __name__ == "__main__":
	main()