研究AI whisperx/fast whisper的無意義歷程。－我是黃紹東，歡迎蒞臨我的網誌！想聊就聊吧～

　　這篇文章的定位比較像是廢文，如果你是搜尋到這個關鍵字才來看的人，請接受我的道歉（Ｘ）。

　　但如果你碰巧有在用Whisper，然後看了Fast Whisper躍躍欲試，然後又跟我一樣電腦程度不達水準，那我的結論是可以不用浪費時間嘗試，除非你一安裝就成功（？）。

　　天曉得我電腦為什麼不能像網路上的教學一樣按步驟操作完就可以用（Ｘ）。

　　－－－－－

　　原本一直以來使用AI Whisper生成影片逐字稿，使用的是中等模型，因為我的顯示卡只有GTX1650，跑不動large的。

　　運行時間也會久一些（當然比用CPU跑快很多了），１０分鐘的影片生成逐字稿大概要１５分鐘。

　　偶然間看到Fast Whisper的資訊（雖然也是幾年前的資訊了），號稱可以更快速地生成字幕，以及使用較大的模型，所以就很想試試看……

　　在經歷過幾天的心力憔悴後……

　　應該要先聲明我的軟體基礎，基本上我是什麼都不太懂，遇到任何問題就看錯誤訊息中最關鍵的是什麼，複製貼上網路搜尋，或是整段複製給GPT，跟它說我要幹嘛，遇到了什麼問題，請問如何解決。

　　就在這提問、它叫我幹什麼就幹什麼、網路上的人說可能可以怎麼解決就試試看。

　　遇到新的問題就再提問，或是用一些自己電腦的常識判斷到底往哪個方向處理會更加合理。

　　相容性問題怎麼處理？既然已經建立了虛擬機，應該就要以最終fast whisper所需的要求來處理。

　　報錯說缺少一個檔案怎麼辦？已經試過很多次重新安裝了都沒辦法解決。

　　上網以關鍵字搜尋，發現是很常見的問題，有好心的網友提供了近乎無腦的解法（就給檔案讓我複製到指定資料夾）。

　　大概這樣讓電腦跑了１０幾個小時（因為大多數時候都是在安裝、卸載、測試、報錯），弄到連原本的Whisper都沒辦法使用了，一度想乾脆放棄全部打掉重新裝回Whisper。

　　又過了一天又想繼續試，然後又繼續安裝、卸載、測試、報錯。

　　調整給GPT的提示詞，詢問它是否需要對我的電腦設備有更多了解才能得出較好的解方。

　　總之在經過了很久很久以後，一邊逛著網頁看筆電，看RTX-40系列的顯卡等級，如果買了一台這樣的筆電，應該就可以跑Large模型，而且速度也會比我現在跑中等模型還快吧。

　　終於算是測試成功了，哦這中間還有從原本要架構Fast Whisper跳到架構WhisperX的過程，因為前者的安裝始終過不了，最後有跑出webUI的介面，但運行沒效果（繼續報錯）。

　　後來查到可以裝WhisperX，其底層模型就是使用Fast Whisper的。

　　結果是呢……沒有比較好。

　　一方面最後發現，即使用Fast Whisper，GTX-1650的性能還是跑不動Large模型，所以我一樣只能用中等（為什麼不寫英文是因為我怕拼錯(X)）。

　　而使用中等模型的情況下，雖然可以利用Fast Whisper的原理，讓運行速度加快一些。

　　據我目前的理解，它的原理是把音檔切成多段分別交給Whisper，最終再整合，然後不知何故這樣就會變快(X)（直觀上可能會認為是越長篇的內容要整合會越花時間）。

　　雖然快了一點，但產生出的結果卻錯得更多。

　　尤其是「自動填詞」的問題，我不確定原本的AI Whisper會不會也有這個問題（但我沒遇到）。

　　例如沒有臺詞的段落，它會自動填入如「請不吝點贊訂閱」、「謝謝大家」這樣的詞彙。

　　可能是切成多段導致的結果，AI判定這是音檔的結尾，但原本講的內容沒有結尾感，就自動填詞。

　　查了一些資料想解決這個問題，但也沒有結果，就有點累了。

　　如果快了一點就要承受看到這種虛假逐字稿，那我怎麼不乾脆買新筆電（Ｘ）。

　　WhisperX對初始promt的接收也很奇怪，我對原本Whisper下的指令是「"沒有說話的時間可填入空白字幕"」，這可以正常運作（或者說有沒有提示詞的效果差異不大）。

　　到了WhisperX裡面，它就變成填入常見的文字，例如「作詞作曲作曲作曲」。

　　換了其他提示詞（為什麼要有提示詞是為了強迫生成繁中而非簡中逐字稿），它就變成把提示詞放在空白的臺詞段落，例如冒出「無聲片段略過」、「繁體中文」這種字幕。

　　心累，搞到最後還是裝回原本的Whisper，還把自己的電腦環境弄得更複雜了，但要改回去簡單的又很怕麻煩。

　　或許比較簡單的是請GPT為我寫一個bat檔，我只要選檔案連結，就自動幫我填完指令並開始生成。

　　文章其實已經到結尾了，但此刻沒有結尾的感覺（Ｘ）。

　　想多分享什麼，但最近這幾天的心思都在這件事情上，或是想著買筆電，但想著想著又有很多麻煩的事情要處理，我要使用筆電的地方可能沒有無線網路，要裝也很麻煩，也要錢。

　　我的手機網路也不是吃到飽的。

　　真的買了能帶來的效益其實也滿有限的。

　　客觀來看的話（？），主觀來看的話就是爽（Ｘ）。

　　根本沒有在玩什麼電腦遊戲，顯卡也只是用來跑一些AI應用。

　　為什麼不直接買高階顯卡，是因為我之前看主機板裡的空間，高階顯卡（雙風扇的）可能裝不進去。

　　電供能不能過我也不敢保證。

　　買AI筆電嗎？它能不能支援我現在使用的軟體也不知道，網路上查Mac的好像可以支援Whisper，但沒看到說windows的AI筆電可以的。

　　我所謂的支援是指「把它用來提供給AI的算力用在Whisper運行上」，如果只是空有算力但我的軟體沒辦法使用，那也沒意義。

　　（因為AI筆電多沒有獨立顯卡，是額外有NPU的算力，但這個NPU的算力能用在那些地方不知道）

　　雖然高階的AI筆電可能光CPU就比我現在整台桌電猛了（？），但也是貴(X)。

　　突然有種「你的需求沒人在意」的感覺。

　　入門新手只想用些內建套裝好的AI程式，就買簡單的AI筆電吧。

　　老手自己很行的就買高階的吧。

　　你這不算入門也不到老手的程度，到底買什麼才合適，沒有客製化到你的程度的版本（Ｘ）。

　　－－－－－

　　其實理論上……我現在應該很接近能自動化製作桌遊卡牌中文化了。

　　（跟這篇文章的關聯性在於這是我現在唯二有使用AI軟體的地方）

　　各個方面用不同的軟體，都有再優化的可能性，然後要彼此串接很麻煩。

　　從一疊卡片過來

　　→掃描機多張一起掃描

　　→軟體切成單張圖檔

　　→使用BallonsTranslator去除文字

　　→使用BallonsTranslator翻譯文字

　　　（後來這步驟我傾向自己做，因為效果翻譯的出錯率偏高，當然原因是我沒用付費API）

　　如果只用BallonsTranslator的結果大致ok的話，可以直接微調編輯，然後輸出。

　　不ok的話繼續

　　→將去除文字的第一張圖檔放入ppt

　　→為第一頁製作文字方塊，擺放好位置

　　→用Excel記錄各處的文字的中文化結果

　　→使用之前請GPT編寫的巨集，自動生成n張卡片的頁面並放入卡圖

　　→同前使用巨集，將Excel的中文化結果自動放入每頁卡片的文字框中

　　→微調不同卡片細微排版的差異（這段目前仍有個麻煩處，卡片有圖標的話要自己對照）

　　→多頁合併成單頁輸出成圖檔

　　→配合A4紙大小調整圖檔（讓印出的卡片會符合實際卡片大小）

　　→列印、裁切、插入牌套裡，完成

　　真的去把它完善、優化有意義嗎？大概也是自己懶惰的原因之一。（其他原因就純粹是懶惰（Ｘ））

　　也許躺著不動幾年，就會出現能直接丟卡片圖檔進去，一次全部完成的中文化的AI。

　　據我聽聞現在付費版的AI也有很類似的功能了，而且是連符號都能搬遷到文本對應位置的。

　　所謂的「越早花時間研究，就越花時間」（？？？）

　　對比當我國中時在研究Excel函數，有人跟我說不必花時間研究這個，等你高中時很快就會學會了。

　　現在的情況又不一樣了啊……不必花時間研究這個，等幾年後你就不必研究這個了（Ｘ）。

　　說不定進步到把卡片放進印表掃描機，就可以直接印出中文化的版本（？？？）。

　　理論上是現行科技完全可以實現的，只是要把這些技術組裝起來（嘆）。

　　而且直接印的風險可能還是太大，跳出一個預覽視窗並讓人可以檢查一下翻譯、排版有沒有出錯，並且可以調整，應該才會是最好的。

　　是不是直接訂閱Adobe就會有這種軟體啊（？），都是錢。

　　能不能在本機端運算（Ｘ），翻譯的模型放本機端應該還行吧（？）。

　　決定把這篇文章丟給ＧＰＴ看看，請它理解一下我的訴求，並提出合適的解決方案。

　　－－－－－它的回應如下－－－－－

你的需求與挑戰聽起來像是 AI 工具與硬體資源不匹配的問題，導致你無法順利使用 Fast Whisper 或 WhisperX 來提升轉錄效率。你的桌遊卡牌中文化流程其實已經有很高的自動化程度了，但還有進一步優化的空間。以下是一些可能的解法與建議：

關於 Whisper 的問題

WhisperX / Fast Whisper 效能不如預期
- 主要因為 GTX 1650 的運算能力限制，即使 Fast Whisper 透過切片提升效率，仍無法跑 Large 模型。
- 你目前只能使用 Medium，但錯誤率提升，可能是因為 WhisperX 的預處理方式影響了轉錄品質。
是否有替代方案？
- 嘗試 OpenAI 的 Whisper API，雖然要花錢，但可省下大量時間。
- 使用 Whisper.cpp，這是 CPU 優化版本，可以試試是否比 GPU 版更穩定。
- 降低錯誤率的方法：調整 --initial_prompt 或 --condition_on_previous_text 參數，看看能否改善填詞問題。
自動化腳本
- 你可以讓 GPT 幫你寫一個 .bat 檔，讓你不用每次輸入指令，只要點擊檔案就能開始轉錄。

關於 AI 自動化桌遊卡牌中文化

你的流程已經相當完整，幾個可能的優化方向：

提升翻譯準確度
- 使用 本機翻譯模型（如 M2M-100、NLLB-200）而非雲端 API，避免高昂費用。
- 試試 GPT-4-turbo 來微調翻譯結果。
圖標與排版自動化
- 若卡片圖標位置固定，可用 OpenCV 或 PaddleOCR 偵測並保留圖標。
- GPT 可幫你寫 Python 腳本，自動對應 Excel 內的翻譯結果與卡片圖層。
能否用更直覺的 UI 操作？
- 你已經有 Excel 巨集，但是否能考慮做個 GUI 界面，直接拖曳卡片、設定翻譯後輸出？
- Alternative：Adobe 可能有相關工具，但確實是 $$$ 問題。

硬體選擇建議

換 AI 筆電值得嗎？
- RTX 40 系列（特別是 4060 以上）確實可以跑 Large 模型，但 Whisper 主要吃 VRAM，記憶體最好 12GB 以上。
- NPU（如 Intel AI Boost、Apple M 系列）對 Whisper 沒有直接優勢，現階段還是依賴 GPU。
- 你的需求較接近 工作站或 RTX 獨顯筆電，而非純 AI 筆電。
升級桌機更划算？
- 若電源與主機板支援，考慮升級到 RTX 3060（12GB 版）或 4060，成本可能比筆電低。

結論

你當前的環境已經很接近自動化，但核心問題在於：

Whisper 方案需要調整（是否能透過參數或改用 Whisper API 來解決錯誤問題？）
桌遊卡牌中文化流程可以進一步優化（翻譯品質、圖標偵測、排版自動化）
硬體升級選擇（筆電 vs. 桌機升級，視你更在意便攜性還是性價比）

如果你有興趣，我可以幫你寫一個 Whisper 自動化 .bat 檔，或者幫你規劃 Python 自動處理卡牌的流程，讓你減少手動操作的時間！

　　－－－－－

　　好吧確實對我有些幫助（？）。

　　最後提到的兩件事情，我也是滿確信它能辦到的。

　　怎麼這樣一看，好像買rtx-4060還是不行啊（嘆）。

　　讓我現在變成務實地找桌機了（嘆），因為筆電好像要求顯示卡12g以上的價位都5萬以上（？）。

東東

我是黃紹東，歡迎蒞臨我的網誌！想聊就聊吧～

東東發表在痞客邦留言(0) 人氣()

E-mail轉寄

我是黃紹東，歡迎蒞臨我的網誌！想聊就聊吧～

我平凡，我以為平凡，我想不平凡，別人看我不平凡，於是我不平凡。