人工智慧物聯網AIOT文章分享

人工智慧物聯網AIOT-056

先知科技總經理高季安

March 20, 2025

在上一篇文章中，我們已經帶大家走過數據 AI 的完整流程，從資料蒐集、前處理、模型訓練到應用落地。這讓我們了解到，人工智慧的建立就像培養一位運動員，有了完整的訓練計畫，才能真正發揮出最大價值。

但現實世界中，許多人在開發 AI 模型時，往往遇到各種「跌倒」的坑，例如: 蒐集了大量數據，但模型表現不如預期？花了幾週訓練 AI，結果發現準確度還輸「亂猜」？調整了很多參數，但模型就是「學不會」？

這些問題在 AI 領域相當常見，甚至連 Google、Facebook 的 AI 研究人員都曾踩過這些坑！那麼，有沒有一些「捷徑」或「必勝攻略」可以讓我們少走冤枉路，快速建立出一個準確、穩定、實用的 AI 模型呢？

這篇文章，我們就要來分享 AI 開發過程中最寶貴的經驗，幫助你用最短的時間，打造出真正能用的 AI！

一、打造高效 AI 模型的捷徑與必勝攻略——從數據到應用的全流程指南：

在 AI 開發的旅程中，很多人以為只要把數據餵給類神經網路，AI 就會自動學會「天下武功」，並且產出完美的預測結果。但事實上，這條路並不是那麼簡單！成功的 AI 模型，背後藏著許多資料處理、特徵選擇、模型調整的細節。如果這些細節沒處理好，最後的 AI 可能只是個「黑盒子」，結果錯誤百出，讓人哭笑不得。

那麼，如何才能建立一個「準確、穩定、可解釋」的 AI 模型呢？這篇文章將帶你走過從資料蒐集、參數選擇、模型建構到最終上線測試的完整過程，並提供各階段的實戰經驗與必勝攻略，幫助你少踩坑、少繞路，讓你的 AI 模型真正發揮價值！🚀

確認模型使用之參數: 你有聽過「Garbage in, Garbage out（垃圾進，垃圾出）」嗎？AI 模型的輸出，取決於輸入的數據，如果輸入的參數不對，無論演算法再強大，最後的結果都不會準確。因此，第一步就是選擇正確的參數。
1. 以客戶實際經驗、理論基礎配合統計方法挑選重要參數
  1. AI 不是萬能的！不能把所有變數都丟進去，反而應該先根據專家知識與統計分析，挑選出最關鍵的變數。
  2. 舉例：在工業製程中，影響產品品質的可能是溫度、壓力、氣體流量，而不是當天的天氣或員工心情（雖然這可能也有影響）。
  3. 方法：可以用決策樹、主成分分析（PCA）、特徵重要度分析來篩選最具影響力的變數。
2. 定義何者為解釋變數 (X) 與反應變數 (Y)
  1. 解釋變數（X）：模型用來預測的輸入數據
  2. 反應變數（Y）：模型要預測的結果
  3. 舉例：在預測設備異常時，X 可能是機台溫度、振動頻率，而 Y 則是機台是否故障（是/否）。
3. 以反應變數(Y)及單位，進行 X 資料的分割與 Matching
  1. 確保資料的時間戳記（Timestamp）與生產流程對齊，例如溫度變化對產品品質的影響，必須考慮時間延遲效應。
  2. 避免資料單位錯誤（例如 cm 與 mm 混用，結果模型預測差距 10 倍）。
分析參數間之關係性: 在選定參數後，接下來要確認這些參數是否真的有影響，避免將無意義的數據餵進模型中。
1. 參數間是否獨立？
  1. 若變數之間高度相關，AI 可能會學到錯誤的資訊（稱為共線性問題）。
  2. Hoeffding's independence test 可以幫助我們確認變數之間是否獨立。
2. 參數間具有線性關係？還是單調關係？
  1. Pearson correlation（𝑟）：適用於線性關係，例如「溫度上升 → 產品品質下降」。
  2. Kendall correlation（𝜏）：適用於非線性但仍有規律的關係。
  3. Spearman correlation（𝜌）：適用於變數間的「排名」關係，例如「工作經驗 vs. 薪水」。
確認資料之完整性及正確性: 一個好的 AI 模型，不能建立在「錯誤的數據」上，因此數據清理是關鍵步驟。
1. 資料遺失值的比例以及處理: MICE（多重插補法）或 KNN（最近鄰法）可用來填補缺失值，確保數據完整。
2. 界定變數之合理範圍
  1. 字串資料（例如員工填寫「Good」「OK」「正常」，AI 可能無法辨識）。
  2. 人員輸入誤植（例如數據少打一個 0）。
  3. 機台回傳異常（感測器可能短暫失靈，導致數據跳躍）。
尋找適合的可能演算法: 演算法選擇影響模型的準確性與運行效率，因此需要針對不同應用選擇最佳方法。
1. 時間序列分析 → LSTM（長短期記憶網路）
2. 分類問題 → Random Forest、Gradient Boosting
3. 迴歸問題 → PLS Regression、BPNN（倒傳遞神經網路）
4. 複合應用 → Stacking（多模型集成）
從不同指標篩選結果: 模型評估方式：
1. MAE / MAPE：預測誤差越小越好。
2. ROC / AUC：評估分類模型的準確度。
3. 演算法運行時間 / 建模樣本 / 容忍誤差也要考慮，確保模型可行。
模型超參數調整: 當選擇好模型後，還需要調整超參數（Hyperparameter Tuning）來提高準確率。
1. Learning Rate（學習率）：控制 AI 學習的速度，過快可能學不好，過慢可能學太久。
2. Number of Epochs（訓練次數）：決定模型學習的次數，過多會過擬合，過少則學習不足。
3. Hidden Layers（隱藏層數量）：決定 AI 模型的深度。
4. Activation Functions（激活函數）：決定 AI 如何處理資訊，常見的有 ReLU、Sigmoid、Tanh。
上線測試與運行: 最後一步是將 AI 部署到實際應用環境，確保模型可以穩定運行。
1. 測試機台連線，檢查數據是否能即時更新。
2. 收集機台參數，確保 AI 可以根據新數據進行預測。
3. 評估風險，確保 AI 預測錯誤時不會影響生產安全。

作者已盡力查證相關資料來源，若是讀者對此系列文章有任何資料來源的指正或其他意見，歡迎提供正確資料來源與建議，請投書: fs-tech@fs-technology.com。

由於篇幅限制，若讀者針對數位轉型(例如人工智慧或物聯網) 相關議題有興趣或想共同進行合作，皆可與先知科技聯絡 (fs-tech@fs-technology.com 或http://www.fs-technology.com/)。

E-mail： fs-tech@fs-technology.com

Link： http://www.fs-technology.com/

人工智慧物聯網AIOT文章分享

人工智慧物聯網AIOT-056

先知科技總經理 高季安

March 20, 2025

一、打造高效 AI 模型的捷徑與必勝攻略——從數據到應用的全流程指南：

先知科技總經理高季安