VOICEVOX/kanalizer-dataset
Viewer • Updated • 118k • 24
VOICEVOX/kanalizer-model の重みを ONNX 形式に変換したモデルです。
元モデルの学習コードおよび変換スクリプトは o24s/kanalizer-onnx で公開しています。
英単語をカタカナ読みに変換する Seq2Seq モデルです。
エンコーダとデコーダに分割してエクスポートしており、デコーダはステップ実行形式になっています。
| ファイル | 内容 |
|---|---|
kanalizer_encoder.onnx |
エンコーダ (英単語トークン列 -> 隠れ状態) |
kanalizer_decoder_step.onnx |
デコーダ (1ステップ分の推論) |
| 名前 | 型 | Shape |
|---|---|---|
入力: src |
int64 | (batch, seq_len) |
出力: enc_out |
float32 | (batch, seq_len, 256) |
| 名前 | 型 | Shape |
|---|---|---|
入力: dec_input |
int64 | (batch, 1) |
入力: enc_out |
float32 | (batch, seq_len, 256) |
入力: h1 |
float32 | (1, batch, 256) |
入力: h2 |
float32 | (1, batch, 256) |
出力: logits |
float32 | (batch, 1, vocab_size) |
出力: h1_new |
float32 | (1, batch, 256) |
出力: h2_new |
float32 | (1, batch, 256) |
ONNX Runtime バックエンドと元の ndarray 実装の比較:
| 入力 | ndarray | ONNX Runtime | Speedup |
|---|---|---|---|
hi |
863 µs | 386 µs | 2.24x |
hello |
1,079 µs | 478 µs | 2.26x |
international |
3,157 µs | 1,493 µs | 2.11x |
MIT License
Copyright (c) 2025 VOICEVOX
Copyright (c) 2026 o24s
Base model
VOICEVOX/kanalizer-model