Vox every slide.
把投影片與講稿轉成可聆聽、可調速、可反覆練習的 AI 配音版本,幫你在通勤、散步、洗澡時用耳朵打磨演講內容。
把 TTS 從「給觀眾的旁白」重新定位成「給講者本人的配速節拍器」。
演講者準備上台,卡在三個地方
這是新手與老手共同的痛,而現有工具都只解決其中一塊。
眼睛讀稿會自動跳過
用眼睛看自己寫的稿,大腦會加速略過熟悉段落。結果是「寫的時候覺得 20 分鐘剛好,上台講變 35 分鐘」。
實際聲音的客觀感受缺席
腦中朗讀比實際開口快 30–50%。沒有真實聲音對照,講者往往直到上台才發現節奏失準。
練習無法跳脫桌前
對鏡子、找朋友聽都被綁在桌前。但真正改稿的靈感,常出現在通勤、散步、洗澡——耳朵讀稿時。
讓講者用耳朵改稿
Voxlide 的產品架構,圍繞三個信念。
TTS 不是輸出,是節拍器
別人用 TTS 產出給觀眾的影片;Voxlide 用 TTS 產出給講者本人聽的「目標配速範本」。
練習需要時空自由
輸出的音檔/影片必須能離開電腦——在通勤、散步、洗澡時,用耳朵以聽眾視角重新聽見內容。
迴圈速度決定價值
聽到問題 → 回桌前改一段 → 只重生成該段 → 10 秒內重匯出 → 下一輪。快到不打斷思考。
MVP 核心功能
每個元件都成熟穩定,沒有 moonshot——只把對的東西串成一個迴圈。
投影片匯入與轉換
PPTX / PDF 上傳,自動轉成投影片圖,並抓取 speaker notes 作為講稿初始值。完整中文字型渲染。
字幕編輯器風格 UI
左側縮圖、中間 timeline 與波形、右側講稿編輯。每張投影片對應一個段落,即時顯示時長。
AI TTS 配音
台灣中文聲音(zh-TW),語速 0.5x–2.0x、可調音調、SSML 精確停頓,單段預覽即時生成。
精確時長計算
每張投影片與總時長即時更新。設定目標時長,系統提示「目前超時 3 分 12 秒」並標示異常段落。
音檔與影片匯出
純音檔(MP3 / M4A)適合通勤聽;影片(MP4)含 burn-in 頁碼,朋友聽到問題能指明「第幾張」。
段落級快取,快速重匯出
以 hash(文字+聲音+速度)快取,改一段只重生成該段。20 張投影片改 1 段,重匯出 < 10 秒。
沒有人同時做到這五件事
旁白工具做影片、教練工具做聲音分析。把五件事用一個迴圈串起來,是 Voxlide 的切入點。
| 投影片匯入 | 講稿管理 | TTS 配速示範 | 練習回饋 | 異步聽稿 | |
|---|---|---|---|---|---|
| 旁白影片工具 | 有 | 有 | 有 | — | 部分 |
| AI 演講教練 | 部分 | — | — | 有 | — |
| 腳本驅動工具 | — | 有 | 有 | 部分 | 部分 |
| 開源元件 | 部分 | 有 | 有 | — | — |
| Voxlide | 有 | 有 | 有 | 有 | 有 |