人工智慧物聯網AIOT系列33：語音與人臉辨識揭密—AI如何理解聲音與影像 - 先知科技｜AI+SI智慧製造解決方案領導品牌｜工業4.0系統整合專家

在前兩篇文章中，我們詳細探討了人工智慧（AI）機器學習的三大學習模式：監督式學習（Supervised Learning）、非監督式學習（Unsupervised Learning）以及增強式學習（Reinforcement Learning）。這些學習模式不僅是AI技術發展的核心基礎，也是現代許多實際應用的技術骨幹。從語音助理到臉部辨識，這些科技已經無縫融入我們的日常生活中。

接下來，我們將通過兩個實際的AI應用案例——語音辨識與人臉辨識，來深入了解這些技術如何運作。首先，語音辨識技術如今已經成為智能手機、家居設備中的標配，像是蘋果的Siri或是Google的語音助理，都依賴於監督式學習來對海量的語音資料進行訓練，從而識別出我們所說的每一個字詞。而人臉辨識技術則更為複雜，它結合了非監督式學習和監督式學習的優勢，不僅能辨識出人臉的基本輪廓，還能透過深度學習技術進行更加細緻的特徵匹配，廣泛應用在安全監控系統、手機解鎖以及社交媒體的標記功能中。

在這篇文章中，我們將通過這兩個應用，來看看AI如何從理論走向現實，並且一步步改變我們的生活。

一、語音辨識

語音辨識技術（Speech Recognition）如今已經廣泛應用於我們日常生活中 (如圖1)，無論是透過智慧型手機的語音助理，或是在車內進行語音導航，這項技術的出現大幅提升了人機互動的效率。那麼，語音辨識的原理是如何運作的呢？讓我們深入了解其背後的機制。

圖1.語音辨識技術應用於手機

首先，語音辨識系統的運作可以分為幾個主要步驟：聲音擷取、聲學模型、語言模型、解碼過程。當我們說話時，語音信號透過麥克風被擷取，並轉換成數位訊號。這些聲音數據接著進入語音辨識系統中的核心部分——聲學模型。聲學模型是通過大量的訓練數據進行調整的，這些數據包含不同人的聲音、語調、方言等，它能夠識別並將語音信號中的頻率、音素（最小的語音單位）等關鍵特徵進行分析。

接下來，語音辨識系統會將這些音素和語言模型結合，語言模型則是用來預測每個單詞之間的關聯性。這就好比我們在進行語句理解時，會預測下一個可能出現的詞。例如，如果你說「我想吃」，接下來最有可能出現的詞可能是「飯」或「麵」，語音辨識系統透過語言模型來提高準確率。

最後是解碼過程，解碼器會將這些經過分析的音素和詞彙進行組合，找出最接近的語句，最終顯示或執行相對應的動作。這一整個過程可能只需短短幾秒，便能快速識別出你的語音需求。

以語音助理為例，當你對手機說出「開啟音樂」，語音辨識系統會先將這句話拆解成音素，然後經過聲學模型的分析，確定音素組合所對應的單詞。接著，語言模型會預測這些單詞的可能語境，確定你要執行的操作是「開啟音樂」。系統最後透過解碼器解釋這一指令，完成音樂播放的操作。

語音辨識的發展也得益於大量的資料訓練。在台灣，語音辨識系統需要考慮到方言差異，例如台語、客家話甚至是不同地區的普通話發音。這就需要系統擁有強大的訓練資料集，來處理這些複雜的語言變體。同時，個人化的語音資料也能進一步提升辨識準確度，隨著使用者不斷與系統進行互動，系統會逐漸熟悉你的語速、口音等特徵，進而增強辨識效果。

語音辨識的應用不僅限於手機助理，它還廣泛應用於醫療、客服、教育等領域。例如，醫生可以利用語音轉文字系統來快速記錄病歷，減少手寫輸入的時間；客服系統則可以通過語音自動化處理客戶需求，大幅提升服務效率。隨著技術的不斷進步，語音辨識的應用場景還將更加廣泛，並逐漸成為我們生活中的必需工具。

語音辨識技術的背後，結合了機器學習、深度學習的多種演算法技術，透過這些技術的支持，未來我們將看到語音辨識更加精準、應用更加廣泛的場景。

二、人臉辨識

人臉辨識技術在現代社會已經成為一個非常熱門的應用，從手機解鎖、社交平台中的標籤功能，到安防監控與身份驗證，這項技術不斷進步，提升了我們日常生活的便捷性與安全性。那麼，背後的原理到底是什麼呢？讓我們來深入淺出地講解一下人臉辨識技術的運作方式，以及它的應用場景。

人臉辨識的基本原理:

人臉辨識技術是基於機器學習中的「監督式學習」來進行的。所謂監督式學習，簡單來說，就是有一組已知的數據（輸入資料和正確答案）來訓練一個模型。這些數據的輸入部分是我們拍攝的照片，標籤部分就是照片中的人物身份，拿圖片中這些照片來說(如圖2)，我們可以看到九個不同的人物，而每個人都有不同的外觀特徵。如果我們用人臉辨識系統去處理這些照片，它會先提取每個人臉的特徵，然後與已經學習過的資料進行比對。即使這些人物的姿勢、髮型或者光線有所不同，辨識系統也會基於特徵點來進行判斷。然而，這個過程並不是百分百準確，特別是當照片中的人物有著與其他人相似的特徵時，就容易產生混淆，甚至連人類肉眼也會不易分辨。透過大量標註過的人臉照片訓練，模型可以學會如何分辨出人臉的不同特徵。我們可以將人臉辨識的過程簡單分為四個步驟：

1.1 面部檢測（Face Detection）:

首先，系統需要知道一張圖片裡是否有人的臉。這個步驟稱為面部檢測，它會辨認出圖片中的人臉所在位置，然後將臉部範圍截取出來作為後續分析的輸入。

1.2 特徵提取（Feature Extraction）:

接下來，系統會對臉部進行分析，提取出一些關鍵特徵點，這些特徵可能包括眼睛的位置、鼻子的形狀、嘴巴的弧度等。這些特徵點會轉換成數學模型，以便計算機能夠進行處理。

1.3 特徵匹配（Feature Matching）:

特徵提取完畢後，系統會將這些數據與已存儲的人臉數據庫進行比較，尋找相似的人臉。這個過程就像我們翻閱相簿，試圖找到一張熟悉的臉一樣，系統會依據相似度來給出結果。

1.4 確認與辨識（Recognition）:

最後，系統會根據比對的結果，做出判斷，確認照片中的人物是否為數據庫中已知的人，或者給出一個匹配度最高的結果。

圖2.人臉辨識技術圖片

2 人臉辨識的應用:

人臉辨識的應用場景極為廣泛，以下是幾個主要的應用領域：

2.1 手機解鎖與支付:

最常見的應用莫過於我們每天使用的手機。透過人臉識別技術，我們可以輕鬆地解鎖手機，甚至進行支付。這些系統會記錄我們面部的特徵，每次我們拿起手機，它都能快速比對，確認身份。

2.2 安防監控:

在人群密集的公共場所，如車站、機場或商場，人臉辨識技術已經成為監控系統的重要部分。這些系統能夠即時辨認出犯罪嫌疑人或高危險人員，並迅速發出警報。透過與犯罪嫌疑人數據庫的對比，可以提高公共安全，減少潛在威脅。

2.3 社交平台的照片標籤:

當你上傳照片到社交平台時，系統會自動辨識照片中的朋友並提示標註他們的名字，這也是人臉辨識的一種應用。這類技術依賴於先前上傳的照片來學習並記錄每個人的特徵，然後進行自動標記。

2.4 校園安全與考勤系統:

越來越多的學校開始使用人臉辨識技術來管理校園安全和學生考勤。系統能自動識別進出校園的人員，確保校園內只有授權的學生與教職員進入。這樣的系統不僅可以提高校園安全，也省去了傳統打卡的麻煩。

3 人臉辨識技術的挑戰:

儘管人臉辨識技術已經取得了長足的進展，但它仍然面臨一些挑戰。首先，不同的光線條件、角度、表情、髮型等都可能影響辨識的準確性。舉個例子，有時候你可能會發現自己剛理完髮或戴上眼鏡後，手機的人臉解鎖功能會變得不靈敏，這就是因為系統難以適應這些突然的變化。其次，隱私問題也是人臉辨識技術的重要議題。隨著越來越多的公共場所和商業應用採用這項技術，個人數據的保護成為關鍵。如何在提供便捷與安全的同時，保障用戶的隱私，這是一個需要社會共同解決的問題。

人臉辨識技術，從我們日常使用的手機到公共安全的監控系統，已經滲透到生活中的方方面面。它基於機器學習的原理，經由大量數據的訓練，不斷提高辨識的準確性。未來隨著技術的進一步發展，我們可以期待人臉辨識將變得更加精準、高效，並且能夠更好地平衡便利性與隱私保護的需求。

先知科技總經理高季安

作者已盡力查證相關資料來源，若是讀者對此系列文章有任何資料來源的指正或其他意見，歡迎提供正確資料來源與建議，請投書。

由於篇幅限制，若讀者針對數位轉型(例如人工智慧或物聯網) 相關議題有興趣或想共同進行合作，皆可聯絡先知科技。