File size: 5,426 Bytes

---
license: mit
datasets:
- deepghs/anime_classification
metrics:
- accuracy
pipeline_tag: image-classification
tags:
- art
---

The model used to predict the types of anime images, which includes the following four categories:
* 3D: Images rendered in 3D, including Mikumikudance, Koikatsu, etc.
* Bangumi: Screenshots from anime videos.
* Comic: Images of manga that contain a significant amount of text or panel sequences.
* Illustration: General anime illustrations.

|         Model        |  FLOPs | Accuracy |                                                      Confusion Matrix                                                     | Description                                                                      |
|:--------------------:|:------:|:--------:|:-------------------------------------------------------------------------------------------------------------------------:|----------------------------------------------------------------------------------|
|     caformer_s36     | 22.10G |  88.19%  |     [Confusion Matrix](https://huggingface.co/deepghs/anime_classification/blob/main/caformer_s36/plot_confusion.png)     | Model: caformer_s36 from timm                                                    |
|   caformer_s36_plus  | 22.10G |  93.47%  |   [Confusion Matrix](https://huggingface.co/deepghs/anime_classification/blob/main/caformer_s36_plus/plot_confusion.png)  | Model: caformer_s36.sail_in22k_ft_in1k_384 pratrained from timm                  |
|      mobilenetv3     |  0.63G |  88.96%  |      [Confusion Matrix](https://huggingface.co/deepghs/anime_classification/blob/main/mobilenetv3/plot_confusion.png)     | Model: mobilenetv3_large_100 from timm                                           |
|   mobilenetv3_dist   |  0.63G |  91.98%  |   [Confusion Matrix](https://huggingface.co/deepghs/anime_classification/blob/main/mobilenetv3_dist/plot_confusion.png)   | Distrillated from caformer_s36_plus, using mobilenetv3_large_100 with focal loss |
|    mobilenetv3_sce   |  0.63G |  89.92%  |    [Confusion Matrix](https://huggingface.co/deepghs/anime_classification/blob/main/mobilenetv3_sce/plot_confusion.png)   | Model: mobilenetv3_large_100 from timm, use SCELoss as loss function             |
| mobilenetv3_sce_dist |  0.63G |  92.35%  | [Confusion Matrix](https://huggingface.co/deepghs/anime_classification/blob/main/mobilenetv3_sce_dist/plot_confusion.png) | Distrillated from caformer_s36_plus, using mobilenetv3_large_100 with SCELoss    |
|    mobilevitv2_150   |  9.09G |  88.21%  |    [Confusion Matrix](https://huggingface.co/deepghs/anime_classification/blob/main/mobilevitv2_150/plot_confusion.png)   | Model: mobilevitv2_150 from timm                                                 |

|         Name         |  FLOPS  |  Params  |  Accuracy  |  AUC   |                                                     Confusion                                                      |                          Labels                          |
|:--------------------:|:-------:|:--------:|:----------:|:------:|:------------------------------------------------------------------------------------------------------------------:|:--------------------------------------------------------:|
|     caformer_s36     | 22.10G  |  37.22M  |   88.19%   |  N/A   |     [confusion](https://huggingface.co/deepghs/anime_classification/blob/main/caformer_s36/plot_confusion.png)     |         `3d`, `bangumi`, `comic`, `illustration`         |
|  caformer_s36_plus   | 22.10G  |  37.22M  |   93.47%   | 0.9891 |  [confusion](https://huggingface.co/deepghs/anime_classification/blob/main/caformer_s36_plus/plot_confusion.png)   |         `3d`, `bangumi`, `comic`, `illustration`         |
|   caformer_s36_v1    | 22.10G  |  37.22M  |   94.72%   | 0.9934 |   [confusion](https://huggingface.co/deepghs/anime_classification/blob/main/caformer_s36_v1/plot_confusion.png)    | `3d`, `bangumi`, `comic`, `illustration`, `not_painting` |
|     mobilenetv3      |  0.63G  |  4.18M   |   88.96%   |  N/A   |     [confusion](https://huggingface.co/deepghs/anime_classification/blob/main/mobilenetv3/plot_confusion.png)      |         `3d`, `bangumi`, `comic`, `illustration`         |
|   mobilenetv3_dist   |  0.63G  |  4.18M   |   91.98%   | 0.9879 |   [confusion](https://huggingface.co/deepghs/anime_classification/blob/main/mobilenetv3_dist/plot_confusion.png)   |         `3d`, `bangumi`, `comic`, `illustration`         |
|   mobilenetv3_sce    |  0.63G  |  4.18M   |   89.92%   | 0.9786 |   [confusion](https://huggingface.co/deepghs/anime_classification/blob/main/mobilenetv3_sce/plot_confusion.png)    |         `3d`, `bangumi`, `comic`, `illustration`         |
| mobilenetv3_sce_dist |  0.63G  |  4.18M   |   92.35%   | 0.9854 | [confusion](https://huggingface.co/deepghs/anime_classification/blob/main/mobilenetv3_sce_dist/plot_confusion.png) |         `3d`, `bangumi`, `comic`, `illustration`         |
| mobilenetv3_v1_dist  |  0.63G  |  4.18M   |   94.04%   | 0.9928 | [confusion](https://huggingface.co/deepghs/anime_classification/blob/main/mobilenetv3_v1_dist/plot_confusion.png)  | `3d`, `bangumi`, `comic`, `illustration`, `not_painting` |
|   mobilevitv2_150    |  9.09G  |  9.79M   |   88.21%   |  N/A   |   [confusion](https://huggingface.co/deepghs/anime_classification/blob/main/mobilevitv2_150/plot_confusion.png)    |         `3d`, `bangumi`, `comic`, `illustration`         |