使用 google 的 Gemini CLI 來製作字幕

這是一個利用 Gemini CLI 來產生字幕的方法教學,用在如果你下載了影片,應該怎麼做才能得到一個有時間軸的字幕檔案。滿足幾個需求:

  1. 繁體中文,儘量使用台灣用語。
  2. 符合時間軸,或者修改不用太多。
  3. 採用 srt 字幕檔案格式,可用於上傳到 Youtube CC 字幕等用途。

首先聲明一下,下載影片屬於重製行為,請確保自己的版權問題。並且使用 Gemini CLI 製作會用到 API ,可能衍生費用,請注意使用費用變化。

什麼是 Gemini CLI 呢?
Gemini CLI 是一個基於命令行的 AI 工作流工具,連接到 Google 的 Gemini 模型,讓您能夠直接從終端進行對話式 AI 互動。

工具系統提供豐富的本地環境互動能力,包括文件系統操作、shell 命令執行、網頁抓取等功能。支持多種安裝方式,可通過 npm 全局安裝或使用 npx 直接執行。

Gemini CLI 不只是撰寫程式的工具(實際上也沒啥人會拿來寫程式),可以看作是用自然語言整合電腦操作系統指令的工具。

接下來我們介紹安裝方法和使用方法。

先給延伸閱讀,包括安裝和使用:

  1. Google 發布 Gemini CLI Tool 免費額度超級夠用 和 Claude Code 的比較
  2. Gemini CLI 簡體中文文件
  3. Gemini CLI:配额和定价
  4. 官方定價詳細資料
  5. Deepwiki For Gemini CLI

先給注意事項:

  1. 以下文件以 MacOS 為主,使用終端機搭配 Finder 。
  2. 建議一開始先把影片檔案/音訊檔案放在一個空的資料夾中動作,避免亂掉。
  3. 執行命令等待時間可能會有點久,建議放著去喝杯咖啡。
  4. 呼叫他執行 Shell 指令以前,請記得指定好資料夾路徑,避免提示詞下錯,變成電腦病毒自己攻擊自己。
  5. 如果不想衍生費用,但是又怕不小心扣款的話,建議先登入一個沒有綁信用卡的帳號。

Gemini CL安裝方式

網路上有建議三種方法,我挑我認為推薦的避免文字太長,以 MacOS 為主。首先請先打開終端機 app

如果你是非 Mac 用戶,或是你想透過 npm 安裝

前置需求: 確保您已安裝 Node.js 20 版本 或更高版本。

全域安裝:

   npm install -g @google/gemini-cli

然後可以在任何地方執行:

   gemini

如果你是 Mac 用戶,請使用 Homebrew

前置需求: 確保您已安裝 Homebrew

安裝步驟:

brew install gemini-cli

然後可以在任何地方執行:

gemini

初始設定

安裝完成後,您需要進行以下設定:

  1. 選擇顏色主題
  2. 身份驗證: 使用您的個人 Google 帳戶登入,這將為您提供每分鐘最多 60 次模型請求和每天 1,000 次模型請求的免費額度(最新資訊請參考官網

安裝完成以後,建議輸入 Gemini API 金鑰

使用 Gemini API 金鑰

如果您需要更高的使用限制,可以使用 Gemini API 金鑰:

  1. Google AI Studio 生成金鑰
  2. 設定環境變數:
   export GEMINI_API_KEY="YOUR_API_KEY"

驗證安裝

您可以使用以下命令驗證安裝是否成功:

gemini --version


接下來使用上以 MacOS 為主。使用 cd 指令,進入放影片的資料夾。先打好 cd+空格,再把把資料夾拖曳到到終端機中即可自動補上路徑。大概像這樣:

cd /xxx/xxx/xxx/xxx/未命名檔案夾

請準備一個音訊檔案,如果是影片的話,有兩個方法可以轉成音訊:

  1. 透過其他工具將影片音訊提取出來,例如這個
  2. 透過 Gemini CLI 將影片轉成音訊

使用 Gemini CLI 的提示詞如下:

 請幫我把影片轉成mp3 音訊檔案 @/路徑/影片檔案.mov 

在 @ 後面是檔案路徑,不用自己打,把檔案拖曳終端機內即可。

接下來他會下載/調用轉字幕工具 ffmpeg 操握,從截圖可以看到他詢問是否安裝,選擇第一個或第二個選項都可以。使用鍵盤上下選擇,Enter 送出。

就會得到「轉換成功!檔案已儲存為 xxxx」的訊息,打開資料夾就會看到對應的 mp3 檔案,也就是等會準備要利用的音訊檔案!

如果已經有了音訊檔案之後,在同一個 Gemini CLI 視窗之中,輸入以下提示詞並且帶入音訊檔案路徑,如下:

這是一個在 oooo 的聲音檔案,請幫我產生 srt 字幕檔,請使用繁體中文,且使用台灣詞彙用字。中英文請使用空格隔開。聲音檔案路徑 @xxx/xxx/xx.mp3

同樣的檔案路徑可以使用拖曳的方式帶入;有一個「 oooo 的聲音檔案」可以選擇不填寫,但是如果是專門的領域的話,建議將目的用途描述一下,讓文字使用可以針對該領域作最佳化調整。

同樣的,系統會選擇使用 whisper 工具搭配 AI 運作,相同也會詢問 Allow execution? 選擇允許以後繼續動作。這時依照檔案長度和電腦規格,可能會需要等久一些。

好了之後回頭看資料夾就有啦~