音訊轉文字 – 育心文具行

這是一個利用 Gemini CLI 來產生字幕的方法教學，用在如果你下載了影片，應該怎麼做才能得到一個有時間軸的字幕檔案。滿足幾個需求：

首先聲明一下，下載影片屬於重製行為，請確保自己的版權問題。並且使用 Gemini CLI 製作會用到 API ，可能衍生費用，請注意使用費用變化。

什麼是 Gemini CLI 呢？
Gemini CLI 是一個基於命令行的 AI 工作流工具，連接到 Google 的 Gemini 模型，讓您能夠直接從終端進行對話式 AI 互動。

工具系統提供豐富的本地環境互動能力，包括文件系統操作、shell 命令執行、網頁抓取等功能。支持多種安裝方式，可通過 npm 全局安裝或使用 npx 直接執行。

Gemini CLI 不只是撰寫程式的工具（實際上也沒啥人會拿來寫程式），可以看作是用自然語言整合電腦操作系統指令的工具。

接下來我們介紹安裝方法和使用方法。

先給延伸閱讀，包括安裝和使用：

先給注意事項：

Gemini CL安裝方式

網路上有建議三種方法，我挑我認為推薦的避免文字太長，以 MacOS 為主。首先請先打開終端機 app

前置需求： 確保您已安裝 Node.js 20 版本或更高版本。

全域安裝：

   npm install -g @google/gemini-cli

然後可以在任何地方執行：

   gemini

前置需求： 確保您已安裝 Homebrew。

安裝步驟：

brew install gemini-cli

然後可以在任何地方執行：

gemini

安裝完成後，您需要進行以下設定：

選擇顏色主題
身份驗證： 使用您的個人 Google 帳戶登入，這將為您提供每分鐘最多 60 次模型請求和每天 1,000 次模型請求的免費額度（最新資訊請參考官網）

如果您需要更高的使用限制，可以使用 Gemini API 金鑰：

   export GEMINI_API_KEY="YOUR_API_KEY"

您可以使用以下命令驗證安裝是否成功：

gemini --version

接下來使用上以 MacOS 為主。使用 cd 指令，進入放影片的資料夾。先打好 cd+空格，再把把資料夾拖曳到到終端機中即可自動補上路徑。大概像這樣：

cd /xxx/xxx/xxx/xxx/未命名檔案夾

請準備一個音訊檔案，如果是影片的話，有兩個方法可以轉成音訊：

使用 Gemini CLI 的提示詞如下：

 請幫我把影片轉成mp3 音訊檔案 @/路徑/影片檔案.mov

在 @ 後面是檔案路徑，不用自己打，把檔案拖曳終端機內即可。

接下來他會下載/調用轉字幕工具 ffmpeg 操握，從截圖可以看到他詢問是否安裝，選擇第一個或第二個選項都可以。使用鍵盤上下選擇，Enter 送出。

就會得到「轉換成功！檔案已儲存為 xxxx」的訊息，打開資料夾就會看到對應的 mp3 檔案，也就是等會準備要利用的音訊檔案！

如果已經有了音訊檔案之後，在同一個 Gemini CLI 視窗之中，輸入以下提示詞並且帶入音訊檔案路徑，如下：

這是一個在 oooo 的聲音檔案，請幫我產生 srt 字幕檔，請使用繁體中文，且使用台灣詞彙用字。中英文請使用空格隔開。聲音檔案路徑 @xxx/xxx/xx.mp3

同樣的檔案路徑可以使用拖曳的方式帶入；有一個「 oooo 的聲音檔案」可以選擇不填寫，但是如果是專門的領域的話，建議將目的用途描述一下，讓文字使用可以針對該領域作最佳化調整。

同樣的，系統會選擇使用 whisper 工具搭配 AI 運作，相同也會詢問 Allow execution? 選擇允許以後繼續動作。這時依照檔案長度和電腦規格，可能會需要等久一些。

好了之後回頭看資料夾就有啦～