audio2text / DOCS.md
Ander1's picture
Upload 11 files
4903e5a verified

A newer version of the Gradio SDK is available: 5.49.1

Upgrade

音訊轉文字與優化系統使用說明

功能介紹

這個應用程式提供以下功能:

  1. 音訊轉文字(支援 Whisper 和 ElevenLabs)
  2. 文字優化和摘要生成
  3. 多語言支援
  4. Token 使用量和費用計算

使用步驟

  1. 上傳音訊檔案

    • 支援格式:MP3、WAV、OGG、M4A
    • 檔案大小限制:25MB
  2. 輸入 API 金鑰

    • OpenAI API 金鑰(必須)
    • ElevenLabs API 金鑰(使用 ElevenLabs 服務時必須)
  3. 選擇服務和設定

    • 轉錄服務:Whisper 或 ElevenLabs
    • OpenAI 模型:選擇用於文字優化的模型
    • 語言:指定音訊的語言(可選)
    • 說話者辨識:僅適用於 ElevenLabs
    • 創意程度:調整文字優化的創意程度
  4. 處理和結果

    • 點擊「處理音訊」按鈕
    • 查看原始轉錄文字
    • 查看優化後文字
    • 檢視 Token 使用量
    • 檢視費用資訊

安全性說明

  • API 金鑰僅在當前處理中使用
  • 不會儲存任何敏感資訊
  • 每次使用需重新輸入 API 金鑰

注意事項

  1. 確保網路連線穩定
  2. 使用高品質音訊以獲得更好的轉錄效果
  3. 注意 API 使用額度
  4. 建議使用支援的音訊格式