Statistics-AIGC-Detector

面向统计学作业场景的中文 AIGC 检测系统,支持对 .ipynb 作业中的 Markdown 文本进行逐段检测,并结合题目剔除、公式归一化、长短文本分流等策略提升实际使用效果。

当前默认配置

  • 长文本模型:checkpoints/aigc_detector_long_normalized_5epoch
  • 短文本模型:checkpoints/aigc_detector_short_final
  • 默认阈值:0.8

项目特点

  • 垂直领域数据构建:基于统计学题库构建中文 human / AI 对照数据
  • 长短文本分流:短文本与长文本使用不同检测模型
  • 公式归一化:降低 LaTeX 乱码和超长公式对检测结果的干扰
  • 题目文本剔除:默认识别并过滤题干、小问、任务说明等内容
  • Notebook 检测:提供 Flask 网页和命令行两种使用方式

目录

  • scripts/:数据处理、训练、评估、检测脚本
  • web/:Flask 网页服务
  • datasets/:训练/验证/测试集
  • datasets_normalized/:引入公式归一化后的训练集
  • data/raw/homework_prompts/:默认题目库
  • docs/:报告、流程、项目结构与详细使用说明

快速开始

安装依赖:

python -m pip install flask torch transformers datasets evaluate accelerate

启动网页:

python -m flask --app web.server run --host 0.0.0.0 --port 8000

命令行检测:

python -m scripts.run_detection --notebook "你的作业路径.ipynb"

权重说明

本 GitHub 仓库默认不包含模型权重。若需要直接运行完整检测效果,请将模型放到以下目录:

  • checkpoints/aigc_detector_long_normalized_5epoch
  • checkpoints/aigc_detector_short_final

若没有现成权重,也可以根据 docs/README.md 中的训练说明重新训练。

详细文档

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for flippedyesyes/Statistics-AIGC-Detector-full

Finetuned
(1)
this model