標籤: 音訊轉文字

  • 使用 google 的 Gemini CLI 來製作字幕

    使用 google 的 Gemini CLI 來製作字幕

    這是一個利用 Gemini CLI 來產生字幕的方法教學,用在如果你下載了影片,應該怎麼做才能得到一個有時間軸的字幕檔案。滿足幾個需求:

    1. 繁體中文,儘量使用台灣用語。
    2. 符合時間軸,或者修改不用太多。
    3. 採用 srt 字幕檔案格式,可用於上傳到 Youtube CC 字幕等用途。

    首先聲明一下,下載影片屬於重製行為,請確保自己的版權問題。並且使用 Gemini CLI 製作會用到 API ,可能衍生費用,請注意使用費用變化。

    什麼是 Gemini CLI 呢?
    Gemini CLI 是一個基於命令行的 AI 工作流工具,連接到 Google 的 Gemini 模型,讓您能夠直接從終端進行對話式 AI 互動。

    工具系統提供豐富的本地環境互動能力,包括文件系統操作、shell 命令執行、網頁抓取等功能。支持多種安裝方式,可通過 npm 全局安裝或使用 npx 直接執行。

    Gemini CLI 不只是撰寫程式的工具(實際上也沒啥人會拿來寫程式),可以看作是用自然語言整合電腦操作系統指令的工具。

    接下來我們介紹安裝方法和使用方法。

    先給延伸閱讀,包括安裝和使用:

    1. Google 發布 Gemini CLI Tool 免費額度超級夠用 和 Claude Code 的比較
    2. Gemini CLI 簡體中文文件
    3. Gemini CLI:配额和定价
    4. 官方定價詳細資料
    5. Deepwiki For Gemini CLI

    先給注意事項:

    1. 以下文件以 MacOS 為主,使用終端機搭配 Finder 。
    2. 建議一開始先把影片檔案/音訊檔案放在一個空的資料夾中動作,避免亂掉。
    3. 執行命令等待時間可能會有點久,建議放著去喝杯咖啡。
    4. 呼叫他執行 Shell 指令以前,請記得指定好資料夾路徑,避免提示詞下錯,變成電腦病毒自己攻擊自己。
    5. 如果不想衍生費用,但是又怕不小心扣款的話,建議先登入一個沒有綁信用卡的帳號。

    Gemini CL安裝方式

    網路上有建議三種方法,我挑我認為推薦的避免文字太長,以 MacOS 為主。首先請先打開終端機 app

    如果你是非 Mac 用戶,或是你想透過 npm 安裝

    前置需求: 確保您已安裝 Node.js 20 版本 或更高版本。

    全域安裝:

       npm install -g @google/gemini-cli

    然後可以在任何地方執行:

       gemini

    如果你是 Mac 用戶,請使用 Homebrew

    前置需求: 確保您已安裝 Homebrew

    安裝步驟:

    brew install gemini-cli

    然後可以在任何地方執行:

    gemini

    初始設定

    安裝完成後,您需要進行以下設定:

    1. 選擇顏色主題
    2. 身份驗證: 使用您的個人 Google 帳戶登入,這將為您提供每分鐘最多 60 次模型請求和每天 1,000 次模型請求的免費額度(最新資訊請參考官網

    安裝完成以後,建議輸入 Gemini API 金鑰

    使用 Gemini API 金鑰

    如果您需要更高的使用限制,可以使用 Gemini API 金鑰:

    1. Google AI Studio 生成金鑰
    2. 設定環境變數:
       export GEMINI_API_KEY="YOUR_API_KEY"

    驗證安裝

    您可以使用以下命令驗證安裝是否成功:

    gemini --version
    


    接下來使用上以 MacOS 為主。使用 cd 指令,進入放影片的資料夾。先打好 cd+空格,再把把資料夾拖曳到到終端機中即可自動補上路徑。大概像這樣:

    cd /xxx/xxx/xxx/xxx/未命名檔案夾

    請準備一個音訊檔案,如果是影片的話,有兩個方法可以轉成音訊:

    1. 透過其他工具將影片音訊提取出來,例如這個
    2. 透過 Gemini CLI 將影片轉成音訊

    使用 Gemini CLI 的提示詞如下:

     請幫我把影片轉成mp3 音訊檔案 @/路徑/影片檔案.mov 

    在 @ 後面是檔案路徑,不用自己打,把檔案拖曳終端機內即可。

    接下來他會下載/調用轉字幕工具 ffmpeg 操握,從截圖可以看到他詢問是否安裝,選擇第一個或第二個選項都可以。使用鍵盤上下選擇,Enter 送出。

    就會得到「轉換成功!檔案已儲存為 xxxx」的訊息,打開資料夾就會看到對應的 mp3 檔案,也就是等會準備要利用的音訊檔案!

    如果已經有了音訊檔案之後,在同一個 Gemini CLI 視窗之中,輸入以下提示詞並且帶入音訊檔案路徑,如下:

    這是一個在 oooo 的聲音檔案,請幫我產生 srt 字幕檔,請使用繁體中文,且使用台灣詞彙用字。中英文請使用空格隔開。聲音檔案路徑 @xxx/xxx/xx.mp3

    同樣的檔案路徑可以使用拖曳的方式帶入;有一個「 oooo 的聲音檔案」可以選擇不填寫,但是如果是專門的領域的話,建議將目的用途描述一下,讓文字使用可以針對該領域作最佳化調整。

    同樣的,系統會選擇使用 whisper 工具搭配 AI 運作,相同也會詢問 Allow execution? 選擇允許以後繼續動作。這時依照檔案長度和電腦規格,可能會需要等久一些。

    好了之後回頭看資料夾就有啦~