GTC-Guard-0

TAI Guardian 系列的第一个安全模型,一个轻量级文本二分类器。

模型描述

判断输入文本是否包含有害/不安全内容。输出 SAFEUNSAFE

  • 参数量: < 10M (实际约8.2M)
  • 架构: TF-IDF + Logistic Regression
  • 训练数据: Jigsaw Toxic Comment + 人工标注边界案例

使用方法

import joblib

model = joblib.load('gtc_guard0_model.pkl')
vectorizer = joblib.load('gtc_guard0_vectorizer.pkl')

def predict(text):
    vec = vectorizer.transform([text])
    prob = model.predict_proba(vec)[0, 1]
    return 'UNSAFE' if prob > 0.5 else 'SAFE'

print(predict("hello"))  # SAFE
print(predict("i will kill you"))  # UNSAFE

局限性

  • 无法理解上下文(如 "damn" 的正面用法可能误报)
  • 仅支持英文
  • 基于小数据集训练,覆盖率有限

版本历史

  • GTC-Guard-0 (2026-05-23)

作者

TAI Research

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support