Spaces:

ChilleD
/

agent_world_model_env

Running

App Files Files Community

agent_world_model_env / server /web_ui.py

ChilleD

Upload folder using huggingface_hub

7738e45 verified 14 days ago

raw

history blame contribute delete

29.2 kB

	"""
	Custom Gradio UI for the AWM environment.
	"""

	from __future__ import annotations

	import asyncio
	import inspect
	import json
	import os
	from typing import Any

	import gradio as gr

	from openenv.core.env_server.serialization import serialize_observation

	from .data_loader import AWMDataLoader
	from .prompts import DEFAULT_SYSTEM_PROMPT
	from .web_agent import AwmAgent
	from .config import DEFAULT_REWARD_CONFIG


	# Keep in sync with DEFAULT_REWARD_CONFIG in config.py.
	_DEFAULT_REWARD_JSON = json.dumps(
	DEFAULT_REWARD_CONFIG, indent=2
	)


	def _format_obs_md(payload: dict \| None) -> str:
	if not payload:
	return "No observation yet."
	obs = payload.get("observation") if isinstance(payload, dict) else None
	if obs is None:
	obs = payload
	reward = payload.get("reward") if isinstance(payload, dict) else None
	done = payload.get("done") if isinstance(payload, dict) else None

	lines: list[str] = []
	if reward is not None:
	lines.append(f"reward: `{reward}`")
	if done is not None:
	lines.append(f"done: `{done}`")
	if isinstance(obs, dict):
	for key in (
	"reward_type",
	"scenario",
	"task",
	"task_idx",
	"num_tools",
	"tool_name",
	"error",
	"warning",
	):
	v = obs.get(key)
	if v is not None and v != "":
	lines.append(f"{key}: `{v}`")
	if obs.get("tool_result") is not None:
	tr = obs["tool_result"]
	tr_text = (
	tr if isinstance(tr, str) else json.dumps(tr, indent=2, default=str)
	)
	if len(tr_text) > 2000:
	tr_text = tr_text[:2000] + "\n... (truncated)"
	lines.append("\ntool_result:")
	lines.append(f"```\n{tr_text}\n```")
	if obs.get("verify_result"):
	vr = obs["verify_result"]
	vr_text = json.dumps(vr, indent=2, default=str)
	if len(vr_text) > 2000:
	vr_text = vr_text[:2000] + "\n... (truncated)"
	lines.append("\nverify_result:")
	lines.append(f"```json\n{vr_text}\n```")
	if obs.get("trajectory_path"):
	lines.append(f"\ntrajectory_path: `{obs['trajectory_path']}`")
	return "\n\n".join(lines) if lines else "Empty observation."


	def _make_args_template(input_schema: dict \| None) -> str:
	if not input_schema or not isinstance(input_schema, dict):
	return "{}"
	props = input_schema.get("properties") or {}
	template: dict[str, Any] = {}
	for name, info in props.items():
	ty = (info or {}).get("type", "string")
	template[name] = {
	"string": "",
	"integer": 0,
	"number": 0.0,
	"boolean": False,
	"array": [],
	"object": {},
	}.get(ty, None)
	return json.dumps(template, indent=2)


	def build_awm_gradio_app(
	web_manager: Any,
	action_fields: list[dict] \| None = None,
	metadata: Any = None,
	is_chat_env: bool = False,
	title: str = "AWM Environment",
	quick_start_md: str \| None = None,
	) -> gr.Blocks:
	data_loader = AWMDataLoader(cache_dir=os.environ.get("AWM_DATA_DIR"))

	readme_md = ""
	if metadata is not None and getattr(metadata, "readme_content", None):
	readme_md = metadata.readme_content

	# openenv-core 0.2.3 added a ``reset_kwargs`` parameter to
	# ``WebInterfaceManager.reset_environment``. PyPI's 0.2.1 takes no args,
	# which silently drops scenario/task_idx — fall back to calling env.reset
	# directly and replicate the episode-state updates the manager would do.
	_reset_env_supports_kwargs = (
	len(
	[
	p
	for p in inspect.signature(
	web_manager.reset_environment
	).parameters.values()
	if p.name != "self"
	]
	)
	> 0
	)

	async def _safe_reset(reset_kwargs: dict[str, Any]) -> dict[str, Any]:
	if _reset_env_supports_kwargs:
	return await web_manager.reset_environment(reset_kwargs)

	env = web_manager.env
	params = inspect.signature(env.reset).parameters
	has_var_kw = any(
	p.kind == inspect.Parameter.VAR_KEYWORD for p in params.values()
	)
	valid = {k: v for k, v in reset_kwargs.items() if has_var_kw or k in params}
	loop = asyncio.get_event_loop()
	observation = await loop.run_in_executor(None, lambda: env.reset(**valid))
	serialized = serialize_observation(observation)

	es = web_manager.episode_state
	es.episode_id = env.state.episode_id
	es.step_count = 0
	es.current_observation = serialized["observation"]
	es.action_logs = []
	es.is_reset = True
	try:
	await web_manager._send_state_update()
	except Exception:
	pass
	return serialized

	async def _do_reset(
	scenario: str,
	task_idx: int,
	llm_base_url: str,
	llm_api_key: str,
	llm_model: str,
	reward_config_json: str,
	):
	if not scenario:
	return (
	"❌ Pick a scenario first.",
	"",
	"Reset failed.",
	"{}",
	gr.update(choices=[], value=None),
	"{}",
	)

	reset_kwargs: dict[str, Any] = {
	"scenario": scenario,
	"task_idx": int(task_idx),
	}
	if llm_base_url:
	reset_kwargs["llm_base_url"] = llm_base_url
	if llm_api_key:
	reset_kwargs["llm_api_key"] = llm_api_key
	if llm_model:
	reset_kwargs["llm_model"] = llm_model
	if reward_config_json and reward_config_json.strip():
	try:
	reset_kwargs["reward_config"] = json.loads(reward_config_json)
	except json.JSONDecodeError as e:
	return (
	f"❌ Invalid reward_config JSON: {e}",
	"",
	"Reset failed.",
	"{}",
	gr.update(choices=[], value=None),
	"{}",
	)

	try:
	result = await _safe_reset(reset_kwargs)
	except Exception as e:
	return (
	f"❌ Reset error: {e}",
	"",
	f"Reset failed: {e}",
	"{}",
	gr.update(choices=[], value=None),
	"{}",
	)

	obs = result.get("observation", {}) or {}
	rt = obs.get("reward_type")
	ok = rt in ("reset_ok", "reset_warning")
	status = "✅ Reset OK." if ok else f"❌ Reset failed: {obs.get('error') or rt}"
	task_md = f"Task (`{scenario}`, idx={task_idx}):\n\n{obs.get('task') or '(no task description)'}"

	tool_names: list[str] = []
	tool_lookup: dict[str, dict] = {}
	if ok:
	try:
	tools_result = await web_manager.step_environment(
	{"type": "list_tools"}
	)
	tools = (tools_result.get("observation", {}) or {}).get("tools") or []
	for t in tools:
	if isinstance(t, dict):
	n = t.get("name", "")
	tool_names.append(n)
	tool_lookup[n] = t
	else:
	n = getattr(t, "name", "")
	tool_names.append(n)
	tool_lookup[n] = {
	"name": n,
	"description": getattr(t, "description", ""),
	"input_schema": getattr(t, "input_schema", {}),
	}
	except Exception as e:
	status += f" (list_tools warning: {e})"

	tool_choice = gr.update(
	choices=tool_names,
	value=(tool_names[0] if tool_names else None),
	)
	return (
	status,
	task_md,
	_format_obs_md(result),
	json.dumps(result, indent=2, default=str),
	tool_choice,
	json.dumps(tool_lookup),
	)

	async def _refresh_scenarios():
	try:
	scens = data_loader.list_scenarios()
	names = sorted(s["name"] for s in scens)
	return gr.update(
	choices=names,
	value=(names[0] if names else None),
	), f"Loaded {len(names)} scenarios."
	except Exception as e:
	return gr.update(choices=[]), f"❌ Failed to load scenarios: {e}"

	async def _on_tool_change(tool_name: str, tool_lookup_json: str):
	try:
	lookup = json.loads(tool_lookup_json or "{}")
	except json.JSONDecodeError:
	lookup = {}
	if not tool_name or tool_name not in lookup:
	return "{}", ""
	meta = lookup[tool_name]
	schema = meta.get("input_schema") or meta.get("inputSchema") or {}
	return _make_args_template(schema), meta.get("description", "")

	async def _do_call_tool(tool_name: str, args_json: str):
	if not tool_name:
	return "Pick a tool first.", "{}"
	try:
	args = json.loads(args_json) if args_json.strip() else {}
	except json.JSONDecodeError as e:
	return f"❌ Invalid args JSON: {e}", "{}"
	try:
	result = await web_manager.step_environment(
	{"type": "call_tool", "tool_name": tool_name, "arguments": args}
	)
	except Exception as e:
	return f"❌ step error: {e}", "{}"
	return _format_obs_md(result), json.dumps(result, indent=2, default=str)

	async def _do_list_tools():
	try:
	result = await web_manager.step_environment({"type": "list_tools"})
	except Exception as e:
	return f"❌ {e}", "{}"
	return _format_obs_md(result), json.dumps(result, indent=2, default=str)

	async def _do_verify(verifier_mode: Any, final_answer: str):
	if isinstance(verifier_mode, dict):
	verifier_mode = next(iter(verifier_mode.keys()), "code")
	verifier_mode = str(verifier_mode).strip().lower() or "code"
	if verifier_mode not in ("code", "sql"):
	verifier_mode = "code"
	args: dict[str, Any] = {"verifier_mode": verifier_mode}
	if final_answer:
	args["final_answer"] = final_answer
	try:
	result = await web_manager.step_environment(
	{"type": "call_tool", "tool_name": "verify", "arguments": args}
	)
	except Exception as e:
	return f"❌ verify error: {e}", "{}"
	return _format_obs_md(result), json.dumps(result, indent=2, default=str)

	async def _do_done(keep_session: bool):
	try:
	result = await web_manager.step_environment(
	{
	"type": "call_tool",
	"tool_name": "done",
	"arguments": {"keep_session": bool(keep_session)},
	}
	)
	except Exception as e:
	return f"❌ done error: {e}", "{}", None
	obs = result.get("observation", {}) or {}
	traj_path = obs.get("trajectory_path")
	return (
	_format_obs_md(result),
	json.dumps(result, indent=2, default=str),
	traj_path if traj_path and os.path.exists(traj_path) else None,
	)

	async def _do_list_scenarios_via_tool():
	try:
	result = await web_manager.step_environment(
	{
	"type": "call_tool",
	"tool_name": "__list_scenarios__",
	"arguments": {},
	}
	)
	except Exception as e:
	return f"❌ {e}", "{}"
	return _format_obs_md(result), json.dumps(result, indent=2, default=str)

	agent_state: dict[str, AwmAgent \| None] = {"agent": None, "stop": False}

	async def _do_run_agent(
	scenario: str,
	task_idx: int,
	verifier_mode: Any,
	llm_base_url: str,
	llm_api_key: str,
	llm_model: str,
	system_prompt: str,
	max_iter: int,
	temperature: float,
	max_tokens: int,
	auto_verify: bool,
	auto_done: bool,
	):
	if isinstance(verifier_mode, dict):
	verifier_mode = next(iter(verifier_mode.keys()), "code")
	verifier_mode = str(verifier_mode).strip().lower() or "code"
	if verifier_mode not in ("code", "sql"):
	verifier_mode = "code"
	if not scenario:
	yield "❌ Pick a scenario first.", None
	return
	if not (llm_base_url and llm_api_key and llm_model):
	yield (
	"❌ LLM config required for Agent mode (base_url + api_key + model).",
	None,
	)
	return

	try:
	reset_result = await _safe_reset(
	{
	"scenario": scenario,
	"task_idx": int(task_idx),
	"llm_base_url": llm_base_url,
	"llm_api_key": llm_api_key,
	"llm_model": llm_model,
	}
	)
	except Exception as e:
	yield f"❌ Reset failed: {e}", None
	return
	obs = reset_result.get("observation", {}) or {}
	if obs.get("reward_type") not in ("reset_ok", "reset_warning"):
	yield (
	f"❌ Reset returned reward_type={obs.get('reward_type')}, error={obs.get('error')}",
	None,
	)
	return
	task_text = obs.get("task") or ""

	agent = AwmAgent(
	web_manager=web_manager,
	llm_base_url=llm_base_url,
	llm_api_key=llm_api_key,
	llm_model=llm_model,
	system_prompt=system_prompt or DEFAULT_SYSTEM_PROMPT,
	max_iterations=int(max_iter),
	temperature=float(temperature),
	max_tokens=int(max_tokens),
	)
	agent_state["agent"] = agent
	agent_state["stop"] = False

	log_lines: list[str] = [
	"### Agent run started",
	f"scenario: `{scenario}`    task_idx: `{task_idx}`",
	f"task: {task_text}",
	"",
	]
	# Two outputs: (log_markdown, trajectory_file_path_or_None)
	yield "\n".join(log_lines), None

	traj_path: str \| None = None
	async for ev in agent.run(
	task=task_text,
	verifier_mode=verifier_mode,
	auto_verify=auto_verify,
	auto_done=auto_done,
	):
	if agent_state["stop"]:
	agent.request_stop()

	if ev.kind == "info":
	log_lines.append(f"_ℹ️ {ev.text}_")
	elif ev.kind == "llm_response":
	step = ev.payload.get("step", "?")
	log_lines.append(f"\n[Step {step}] LLM response:")
	log_lines.append(f"```\n{ev.text[:4000]}\n```")
	elif ev.kind == "tool_call":
	log_lines.append(f"→ tool_call: {ev.text}")
	elif ev.kind == "tool_result":
	log_lines.append("← tool_result:")
	log_lines.append(f"```\n{ev.text[:1500]}\n```")
	elif ev.kind == "verify":
	log_lines.append(f"\n🧪 Verify: {ev.text}")
	if ev.payload.get("verify_result"):
	vr = json.dumps(ev.payload["verify_result"], indent=2, default=str)[
	:1500
	]
	log_lines.append(f"```json\n{vr}\n```")
	elif ev.kind == "done":
	log_lines.append(f"\n🏁 Done: {ev.text}")
	# Capture the trajectory path for download
	p = ev.payload.get("trajectory_path")
	if p and os.path.exists(p):
	traj_path = p
	elif ev.kind == "error":
	log_lines.append(f"\n❌ Error: {ev.text}")

	yield "\n\n".join(log_lines), traj_path

	log_lines.append("\n_Agent run finished._")
	yield "\n\n".join(log_lines), traj_path

	def _do_stop_agent():
	agent_state["stop"] = True
	a = agent_state["agent"]
	if a is not None:
	a.request_stop()
	return "🛑 Stop requested. The agent will exit before its next iteration."

	async def _load_trajectory_from_state():
	try:
	logs = web_manager.episode_state.action_logs
	except Exception:
	return [], None
	rows: list[list[Any]] = []
	for i, log in enumerate(logs, 1):
	action = getattr(log, "action", {}) or {}
	obs = getattr(log, "observation", {}) or {}
	tool_name = action.get("tool_name") if isinstance(action, dict) else ""
	atype = action.get("type") if isinstance(action, dict) else ""
	rt = obs.get("reward_type") if isinstance(obs, dict) else ""
	preview = ""
	if isinstance(obs, dict):
	tr = obs.get("tool_result")
	if isinstance(tr, str):
	preview = tr[:200]
	elif tr is not None:
	preview = json.dumps(tr, default=str)[:200]
	elif obs.get("error"):
	preview = f"ERROR: {obs['error']}"[:200]
	rows.append(
	[
	i,
	atype or "",
	tool_name or "",
	rt or "",
	getattr(log, "reward", None),
	preview,
	]
	)
	return rows, None

	with gr.Blocks(title=f"AWM — {title}") as blocks:
	tools_state = gr.State("{}")

	gr.Markdown("# 🤖 Agent World Model — Web Console")
	gr.Markdown(
	"Pick a scenario, set LLM credentials (only needed for SQL verifier "
	"or Agent mode), then explore via Human or Agent mode."
	)

	with gr.Group():
	gr.Markdown("## ⚙️ Setup")
	with gr.Row():
	scenario_dd = gr.Dropdown(
	choices=[],
	value=None,
	label="Scenario",
	info="1,000 scenarios — click 'Load' first",
	elem_id="awm_scenario_dd",
	interactive=True,
	allow_custom_value=False,
	)
	load_scen_btn = gr.Button(
	"🔄 Load scenarios", scale=0, elem_id="awm_load_scen"
	)
	task_idx_slider = gr.Slider(
	minimum=0,
	maximum=9,
	step=1,
	value=0,
	label="Task idx (0-9)",
	elem_id="awm_task_idx",
	)
	verifier_mode_radio = gr.Textbox(
	value="code",
	label="Verifier mode (code or sql)",
	elem_id="awm_verifier_mode",
	info="Type 'code' or 'sql'. SQL mode requires LLM config above.",
	)
	with gr.Accordion(
	"LLM config (for SQL verifier and Agent mode)", open=False
	):
	llm_base_url_in = gr.Textbox(
	label="LLM base_url",
	placeholder="https://...",
	value="",
	elem_id="awm_llm_base_url",
	)
	llm_api_key_in = gr.Textbox(
	label="LLM api_key",
	type="password",
	value="",
	elem_id="awm_llm_api_key",
	)
	llm_model_in = gr.Textbox(
	label="LLM model",
	placeholder="gpt-4.1, gpt-5, ...",
	value="",
	elem_id="awm_llm_model",
	)
	with gr.Accordion("Reward config (advanced)", open=False):
	reward_cfg_in = gr.Code(
	language="json",
	value=_DEFAULT_REWARD_JSON,
	label="reward_config (JSON)",
	elem_id="awm_reward_cfg",
	)
	with gr.Row():
	reset_btn = gr.Button(
	"🔄 Reset", variant="primary", elem_id="awm_reset_btn"
	)
	status_box = gr.Markdown("Status: idle", elem_id="awm_status_box")
	task_md = gr.Markdown("No task loaded yet.", elem_id="awm_task_md")

	with gr.Tabs():
	with gr.Tab("👤 Human Mode"):
	with gr.Row():
	list_tools_btn = gr.Button(
	"📋 List Tools", elem_id="awm_human_list_tools"
	)
	list_scenarios_btn = gr.Button(
	"🌐 List Scenarios", elem_id="awm_human_list_scenarios"
	)
	with gr.Row():
	tool_dd = gr.Dropdown(
	choices=[],
	value=None,
	label="Tool",
	elem_id="awm_human_tool_dd",
	interactive=True,
	allow_custom_value=False,
	)
	tool_desc_md = gr.Markdown("", elem_id="awm_human_tool_desc")
	tool_args_in = gr.Code(
	language="json",
	value="{}",
	label="Tool arguments (JSON)",
	elem_id="awm_human_tool_args",
	)
	with gr.Row():
	call_tool_btn = gr.Button(
	"▶️ Call Tool", variant="primary", elem_id="awm_human_call_tool"
	)
	with gr.Group():
	gr.Markdown("### Episode controls")
	final_answer_in = gr.Textbox(
	label="Final answer (optional, used in code-mode verify)",
	value="",
	elem_id="awm_human_final_answer",
	)
	with gr.Row():
	verify_btn = gr.Button("🧪 Verify", elem_id="awm_human_verify")
	keep_session_cb = gr.Checkbox(
	value=True,
	label="keep_session on done",
	elem_id="awm_human_keep_session",
	)
	done_btn = gr.Button(
	"🏁 Done", variant="stop", elem_id="awm_human_done"
	)
	gr.Markdown("### Latest observation")
	obs_md = gr.Markdown("No action yet.", elem_id="awm_human_obs_md")
	with gr.Accordion("Raw JSON", open=False):
	obs_json = gr.Code(
	language="json",
	value="{}",
	elem_id="awm_human_obs_json",
	)
	trajectory_file_dl = gr.File(
	label="trajectory.json (after Done)",
	interactive=False,
	elem_id="awm_human_traj_dl",
	)

	with gr.Tab("🤖 Agent Mode"):
	gr.Markdown(
	"Drives an LLM agent through the env. Reset is done"
	" automatically using the scenario/task_idx selected above."
	)
	system_prompt_in = gr.Textbox(
	label="System prompt",
	value=DEFAULT_SYSTEM_PROMPT,
	lines=8,
	max_lines=20,
	elem_id="awm_agent_system_prompt",
	)
	with gr.Row():
	max_iter_slider = gr.Slider(
	minimum=1,
	maximum=30,
	step=1,
	value=10,
	label="Max iterations",
	elem_id="awm_agent_max_iter",
	)
	temperature_slider = gr.Slider(
	minimum=0.0,
	maximum=2.0,
	step=0.1,
	value=1.0,
	label="Temperature",
	elem_id="awm_agent_temperature",
	)
	max_tokens_slider = gr.Slider(
	minimum=256,
	maximum=8192,
	step=128,
	value=2048,
	label="Max tokens / call",
	elem_id="awm_agent_max_tokens",
	)
	with gr.Row():
	auto_verify_cb = gr.Checkbox(
	value=True,
	label="Auto verify at end",
	elem_id="awm_agent_auto_verify",
	)
	auto_done_cb = gr.Checkbox(
	value=True,
	label="Auto done at end (keep_session=True)",
	elem_id="awm_agent_auto_done",
	)
	with gr.Row():
	start_agent_btn = gr.Button(
	"▶️ Start Agent", variant="primary", elem_id="awm_agent_start"
	)
	stop_agent_btn = gr.Button(
	"⏹ Stop", variant="stop", elem_id="awm_agent_stop"
	)
	stop_status = gr.Markdown("", elem_id="awm_agent_stop_status")
	agent_log_md = gr.Markdown(
	"_Agent log will appear here._", elem_id="awm_agent_log_md"
	)
	agent_traj_dl = gr.File(
	label="trajectory.json (auto-populated when agent finishes)",
	interactive=False,
	elem_id="awm_agent_traj_dl",
	)

	with gr.Tab("📜 Trajectory"):
	gr.Markdown(
	"Step-by-step history of the current episode. "
	"Click Refresh after actions to update."
	)
	refresh_traj_btn = gr.Button("🔄 Refresh", elem_id="awm_traj_refresh")
	traj_table = gr.Dataframe(
	headers=["#", "type", "tool", "reward_type", "reward", "preview"],
	datatype=["number", "str", "str", "str", "number", "str"],
	interactive=False,
	elem_id="awm_traj_table",
	)

	if readme_md:
	with gr.Tab("📖 README"):
	gr.Markdown(readme_md)

	load_scen_btn.click(
	_refresh_scenarios, inputs=None, outputs=[scenario_dd, status_box]
	)
	reset_btn.click(
	_do_reset,
	inputs=[
	scenario_dd,
	task_idx_slider,
	llm_base_url_in,
	llm_api_key_in,
	llm_model_in,
	reward_cfg_in,
	],
	outputs=[status_box, task_md, obs_md, obs_json, tool_dd, tools_state],
	)
	list_tools_btn.click(_do_list_tools, inputs=None, outputs=[obs_md, obs_json])
	list_scenarios_btn.click(
	_do_list_scenarios_via_tool, inputs=None, outputs=[obs_md, obs_json]
	)
	tool_dd.change(
	_on_tool_change,
	inputs=[tool_dd, tools_state],
	outputs=[tool_args_in, tool_desc_md],
	)
	call_tool_btn.click(
	_do_call_tool,
	inputs=[tool_dd, tool_args_in],
	outputs=[obs_md, obs_json],
	)
	verify_btn.click(
	_do_verify,
	inputs=[verifier_mode_radio, final_answer_in],
	outputs=[obs_md, obs_json],
	)
	done_btn.click(
	_do_done,
	inputs=[keep_session_cb],
	outputs=[obs_md, obs_json, trajectory_file_dl],
	)
	start_agent_btn.click(
	_do_run_agent,
	inputs=[
	scenario_dd,
	task_idx_slider,
	verifier_mode_radio,
	llm_base_url_in,
	llm_api_key_in,
	llm_model_in,
	system_prompt_in,
	max_iter_slider,
	temperature_slider,
	max_tokens_slider,
	auto_verify_cb,
	auto_done_cb,
	],
	outputs=[agent_log_md, agent_traj_dl],
	)
	stop_agent_btn.click(_do_stop_agent, inputs=None, outputs=[stop_status])
	refresh_traj_btn.click(
	_load_trajectory_from_state,
	inputs=None,
	outputs=[traj_table, trajectory_file_dl],
	)

	return blocks