Statistics-AIGC-Detector
面向统计学作业场景的中文 AIGC 检测系统,支持对 .ipynb 作业中的 Markdown 文本进行逐段检测,并结合题目剔除、公式归一化、长短文本分流等策略提升实际使用效果。
当前默认配置
- 长文本模型:
checkpoints/aigc_detector_long_normalized_5epoch - 短文本模型:
checkpoints/aigc_detector_short_final - 默认阈值:
0.8
项目特点
- 垂直领域数据构建:基于统计学题库构建中文 human / AI 对照数据
- 长短文本分流:短文本与长文本使用不同检测模型
- 公式归一化:降低 LaTeX 乱码和超长公式对检测结果的干扰
- 题目文本剔除:默认识别并过滤题干、小问、任务说明等内容
- Notebook 检测:提供 Flask 网页和命令行两种使用方式
目录
scripts/:数据处理、训练、评估、检测脚本web/:Flask 网页服务datasets/:训练/验证/测试集datasets_normalized/:引入公式归一化后的训练集data/raw/homework_prompts/:默认题目库docs/:报告、流程、项目结构与详细使用说明
快速开始
安装依赖:
python -m pip install flask torch transformers datasets evaluate accelerate
启动网页:
python -m flask --app web.server run --host 0.0.0.0 --port 8000
命令行检测:
python -m scripts.run_detection --notebook "你的作业路径.ipynb"
权重说明
本 GitHub 仓库默认不包含模型权重。若需要直接运行完整检测效果,请将模型放到以下目录:
checkpoints/aigc_detector_long_normalized_5epochcheckpoints/aigc_detector_short_final
若没有现成权重,也可以根据 docs/README.md 中的训练说明重新训练。
详细文档
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support
Model tree for flippedyesyes/Statistics-AIGC-Detector-full
Base model
yuchuantian/AIGC_detector_zhv3