➣ Reading Time: 16 minutes

前言

今天要來進新課程 Launching into Machine Learning ~

我們先來介紹一下這課程裡面有哪些章節,這次的課程一共有四章~

Launching into Machine Learning

第一章節:
* Introduction
* Introduction to Launching into ML
* Introduction
* Intro to Qwiklabs

第二章節:
* Practical ML
* Introduction to Practical ML
* Supervised Learning
* ML History
* Module Quiz

第三章節:
* Optimization
* Introduction to Optimization
* Defining ML Models
* Introducing Loss Functions
* Gradient Descent
* TensorFlow Playground
* Performance Metrics
* Module Quiz

第四章節:
* Generalization and Sampling
* Introduction to Generalization and Sampling
* Generalization
* Sampling
* Demo of Splitting Datasets in BigQuery
* Lab: Creating Repeatable Dataset Splits
* Lab: Exploring and Creating ML Datasets
* Module Quiz

比較歷史的部分我會先跳過~
或者先只帶到與最近的ML模型重疊的知識部分

由於第一章介紹比較實驗,我們先從第二章開始吧~

Course – Launching into Machine Learning

第二章節的課程地圖:(紅字標記為本篇文章中會介紹到的章節)
* Practical ML
* Introduction to Practical ML
* Introduction
* Supervised Learning
* Supervised Learning
* Regression and Classification
* ML History
* Short History of ML: Linear Regression
* Short History of ML: Perceptron
* Short History of ML: Neural Networks
* Short History of ML: Decision Trees
* Short History of ML: Kernel Methods
* Short History of ML: Random Forests
* Short History of ML: Modern Neural Networks
* 討論提示: Modern Neural Networks
* Module Quiz


1. Introduction to Practical ML

課程地圖
* Practical ML
* Introduction to Practical ML
* Introduction

這一章節要來介紹實際的ML內容與ML的歷史,
我們主要會講到以下重點:

  • 區分ML問題的主要類別,以及學習如何實作
  • 學習近幾年機器學習是如何進化的歷史,學習這段過程中運用到的技巧與技術
  • 知道為何最近深度學習這領域會如此受歡迎,並參考google使用ML於自家產品中的例子

2. Supervised Learning

課程地圖
* Practical ML
* Supervised Learning
* Supervised Learning

Supervised Learning 與 Unsupervised Learning 是兩種最常見的ML模型,也是兩種不同的ML演算法,
這裡我們先比較一下這兩種的差別。

先講結論: Supervised Learning 與 Unsupervised Learning 比較

這表格我自己聽完這堂課做的,有興趣看課程內容筆記再往下拉,有很多例子:

Supervised Learning(監督式學習)Unsupervised Learning(非監督式學習)
有預設可能的答案(label),用「資料」做label的預測(學習目標)無預設可能的答案(label),通常是將「資料」做分組(分群),再來依據分佈的結果說明「發現(學習目標)」。

然後 Supervised Learning 可再細分兩種不同的model:

regression model(回歸模型)classification model(分類模型)
預測的答案(label)為「連續」值預測的答案(label)為「非連續」值

這裡有些中文比較細膩的地方,是我自己找資料的心得:

  • Supervised Learning:做分類、回歸
  • Unsupervised Learning:做分群(分組)

特別注意「分類」與「分群(分組)」的不同:

分類分群(分組)
你「會」知道那個「類」的名字,我們依照這個「類的準則」分類你「不會」知道那個「群(組)」的名字,我們讓他們自己找相似的一組
例如:我有身高體重,我想預測是「男生女生」例如:我有一堆人的資料,我想分看看這群人中有沒有哪一小群有相似的特性,可能都喜歡吃日式料理的一群、吃韓式料理的一群…… (注意這個「結果」是分完後才去解釋的,我們並不像男女分類一樣一開始就知道要「依照某個準則分類」)
Supervised Learning(監督式學習)Unsupervised Learning(非監督式學習)

以下課程就是有很多很多的例子……

2.1 Unsupervised Learning 非監督式學習

例圖:Unsupervised Learning 的例子
https://ithelp.ithome.com.tw/upload/images/20190916/20120424aF75RjAtUT.png
我們想透過這圖片了解的是 income(薪水) 和 tenure(年資) 之間的關係,
並對員工進行分組(分群),以了解是否有些人成長比較快速。

unsupervised問題有個很重要的特性在於「沒有一個基本的答案(結果)」。

以這個問題來說,對於所有的人而言,
我們不是一開始就知道他的薪水與年資是在比較快還是比較慢成長的,
我們是在分析結果後才發現所有人的分布呈現如上圖,「看到圖片時」才知道有兩大分佈。
特別留意順序:先看到圖片分佈,才知道有人屬於比較快的、有人屬於比較慢的(也是這時才定義結果)。

因此,unsupervised問題最主要是在解「發現」的問題,
我們想知道「所有的數據」能不能「被分出組別」來。


2.2 Supervised Learning 監督式學習

同樣的我們也來看一下 supervised問題,

supervised問題重要的特性在於「我們有預設的答案(label)」。

而 supervised Learning 能預測的問題答案有兩種模型:
* regression model : 預測的答案為「連續」值。
* classification model : 預測的答案為「不連續」值。

例圖:supervised Learning 的例子
https://ithelp.ithome.com.tw/upload/images/20190916/201204247SVKhvAb8V.png
我們想透過這圖片了解的是 Bill(帳單) 和 Tips(小費) 之間的關係,
來看看我們能不能從一些跡象預測 Tips(小費) 是多少?

我們先將上方的資料表格化一下:

https://ithelp.ithome.com.tw/upload/images/20190916/20120424T4oPEbIu19.png

※名詞解釋:

example : 每一橫行各代表一個example。
label : 任何一個直行,表示我們想預測的目標。
features : 除了label外的其他直行,我們參考這些數據來預測label。

回到剛剛的問題,我們想要預測 Tips(小費) 是多少?

  • 我們想預測的目標(label)就是「Tips(小費)」的那個直行
  • 而「除了Tips(小費)之外的直行」,皆為我們的features
  • 回到上面的兩種問題模型,從表格我們可以看出Tips(小費)為「連續值」,所以這會是一個regression model

我們可以使用一行或多行的features試著去推測出label
在 supervised Learning 中,要使用多少 features 去預測 label 並沒有數量上的限制。

我們以同樣的問題來看另外一個例子,如果今天我們想預測是「顧客的性別」呢?

  • 我們想預測的目標(label)就是「顧客的性別(sex)」的那個直行
  • 而「除了顧客的性別(sex)之外的直行」,皆為我們的features
  • 回到上面的兩種問題模型,從表格我們可以看出顧客的性別(sex)為「不連續值」,所以這會是一個classification model

同樣的,我們可以使用一行或多行的features試著去推測出label
一樣要使用多少 features 去預測 label 並沒有數量上的限制。

這邊我們再練習個幾題,確認大家到目前的觀念是清楚的:

  • 我們想要預測狗的品種,我們應該使用什麼 model? label是? features是?

    狗的種類為非連續值,使用classification model
    狗的品種是我們的預測目標,為label
    其他狗的相關特徵都可以作為我們預測結果前的參考資料,為features

  • 我們想要預測狗的體重,我們應該使用什麼 model? label是? features是?

    狗的體重為連續值,使用regression model
    狗的體重是我們的預測目標,為label
    其他狗的相關特徵都可以作為我們預測結果前的參考資料,為features

另外我們舉個特別的例子,例如現在有間銀行想要預測交易是否是詐騙,我們可以怎麼做?
很直覺的我們應該會想,不就只是分成兩類? 「詐騙交易」與「非詐騙交易」嗎?
確實如此,但在現實中會有些問題,例如我們如何「絕對的」從我們的分析肯定一定是詐騙交易?
他可能符合某些featureexample相似,但也有些不相似,這樣就會有誤判的可能。
所以我們還是會發現有些特別的case會因為我們訓練的限制而陷入模稜兩可的狀況。

我們的模型會需要蒐集更多的資料來判斷這種目前可能會模稜兩可的問題,
因此在前面課程中的所提到的 human in the loop 的概念這時顯得十分重要,
更多資料就能夠幫助我們分辨更多這些介於模稜兩可之間的分類問題。


本文同步發佈在: 第 11 屆 iT 邦幫忙鐵人賽
【Day 15】 Google ML – Lesson 1 – Supervised Learning 與 Unsupervised Learning 監督式學習與非監督式學習的介紹和比較


參考資料

⭐Google Machine Learning 相關文章整理⭐:
1.訂閱課程【Google ML】1 – Google ML – 參賽原因 與 就先從認識 coursera 與訂閱課程開始第一天吧
⭐ML 基礎知識篇⭐:
1.基礎ML知識什麼是ML? 為什麼ML最近才紅起來? 可參考:【Day 3】
2.設計ML問題如何設計一個ML問題?可參考:【Day 4】
3.ML與一般算法比較比較一般算法與ML算法,看出ML的優勢。可參考:【Day 11】
⭐ML 應用策略篇⭐:
1.ML的成功策略使用ML要成功,常需要的關鍵策略。可參考:【Day 5】
2.ML各階段與比重分配企業運行ML時,在ML的各階段應該放的比重與心力。可參考:【Day 6】
3.ML失敗的常見原因大部分企業使用ML卻失敗的前十大主因。可參考:【Day 6】
4.企業如何引入MLML在企業運行的五大階段與注意事項。 可參考:【Day 7】
⭐GCP 認識篇⭐:
1.在GCP上運行ML的階段在GCP上運行ML大概有哪五大階段? 可參考:【Day 2】
2.GCP上ML的介紹GCP上ML的介紹。可參考:【Day 8】【Day 11】
3.已訓練好的ML模型已訓練好的ML模型。建議可直接使用,不需要再自己訓練。如:Vision API(圖片辨識), Video intelligence API(影片辨識), Speech API(語音辨識), Translation API(語言翻譯), Natural Language API(自然語言處理)。介紹:【Day 4】詳細整理與比較:【Day 12】lab實作:【Day 14】
⭐GCP 上的 lab 實作篇⭐:
1.Lab 事前準備Lab 0 – 在GCP上開始lab前的事前準備與注意事項。可參考:【Day 9】
2.GCP上使用 VMLab 1 – 在GCP上分析地震資料與製圖,並儲存在雲端。可參考: 【Day 10】
3.BigQuery 與 DatalabLab 2 – 使用 BigQuery 與 Datalab 視覺化分析資料。可參考:【Day 13】
4.google ML APIsLab 3 – 使用google已訓練好的ML模型進行實作。如:Vision API(圖片辨識), Video intelligence API(影片辨識), Speech API(語音辨識), Translation API(語言翻譯), Natural Language API(自然語言處理)。可參考:【Day 14】
⭐ML中的不同學習種類⭐:
1.【Day 15】 監督式學習(Supervised Learning) 與 非監督式學習(Unsupervised Learning) 的介紹和比較
⭐訓練「一個」ML模型⭐:
(這裡以 監督式學習(Supervised Learning) 為例)
1. (訓練前)決定資料集與分析資料你想要預測的是什麼資料? 這邊需要先知道 example、label、features的概念。介紹可參考:【Day 15】而我們這次作為範例的訓練資料集介紹在:【Day 19】
2. (訓練前)決定問題種類依據資料,會知道是什麼類型的問題。regression problem(回歸問題)? classification problem(分類問題)? 此處可參考:【Day 16】與進階內容:【Day 17】
3. (訓練前)決定ML模型(ML models)依據問題的種類,會知道需要使用什麼對應的ML模型。回歸模型(Regression model)? 分類模型(Classification model)? 此處可參考:【Day 18】神經網路(neural network)? 簡介於:【Day 25】
4.(模型裡面的參數)ML模型裡面的參數(parameters)與超參數(hyper-parameters) 此處可參考:【Day 18】
5. (訓練中) 調整模型評估當前模型好壞損失函數(Loss Functions):使用損失函數評估目前模型的好與壞。以MSE(Mean Squared Error), RMSE(Root Mean Squared Error), 交叉熵(Cross Entropy)為例。此處可參考:【Day 20】
6. (訓練中) 調整模型修正模型參數以梯度下降法 (Gradient Descent)為例:決定模型中參數的修正「方向」與「步長(step size)」此處可參考:【Day 21】
7. (訓練中) 調整腳步調整學習腳步透過學習速率(learning rate)來調整ML模型訓練的步長(step size),調整學習腳步。(此參數在訓練前設定,為hyper-parameter)。此處可參考:【Day 22】
8. (訓練中) 加快訓練取樣與分堆設定batch size,透過batch從訓練目標中取樣,來加快ML模型訓練的速度。(此參數在訓練前設定,為hyper-parameter)。與迭代(iteration),epoch介紹。此處可參考:【Day 23】
9. (訓練中) 加快訓練檢查loss的頻率調整「檢查loss的頻率」,依據時間(Time-based)與步驟(Step-based)。此處可參考:【Day 23】
10. (訓練中) 完成訓練(loop) -> 完成重覆過程(評估當前模型好壞 -> 修正模型參數),直到能通過「驗證資料集(Validation)」的驗證即可結束訓練。此處可參考:【Day 27】
11. (訓練後)訓練結果可能問題「不適當的最小loss?」 此處可參考:【Day 28】
12. (訓練後)訓練結果可能問題欠擬合(underfitting)?過度擬合(overfitting)? 此處可參考:【Day 26】
13. (訓練後)評估 – 性能指標性能指標(performance metrics):以混淆矩陣(confusion matrix)分析,包含「Accuracy」、「Precision」、「Recall」三種評估指標。簡介於:【Day 28】詳細介紹於:【Day 29】
14. (訓練後)評估 – 新資料適用性泛化(Generalization):對於新資料、沒看過的資料的模型適用性。此處可參考:【Day 26】
15. (訓練後)評估 – 模型測試使用「獨立測試資料集(Test)」測試? 使用交叉驗證(cross-validation)(又稱bootstrapping)測試? 此處可參考:【Day 27】
16.(資料分堆的方式)(訓練前) 依據上方「模型測試」的方法,決定資料分堆的方式:訓練用(Training)、驗證用(Validation)、測試用(Test)。此處可參考:【Day 27】
⭐從所有ML模型的訓練結果中,找到「最好的」ML模型⭐:
( 原因:「訓練好一個模型」不等於「找到最好的模型」 )
1.(訓練模型)【Day 27】 使用「訓練資料集(Training)」訓練模型(調整參數),也就是「上方表格」在做的內容
2.(結束訓練)【Day 27】 訓練到通過「驗證資料集(Validation)」結束訓練(未達到overfitting的狀態前)
3.(模型再調整)【Day 27】 超參數(hyperparameters)調整或神經網路的「layer數」或「使用的node數」(一些訓練前就會先決定的東西)
4.(loop)【Day 27】 (模型再調整)後,重複上述(訓練模型)、(結束訓練),完成訓練新的模型
5.(找到最佳模型)【Day 27】 從「所有訓練的模型」中,找到能使「驗證用資料集(Validation)」最小的loss,完成(找到最佳模型)
6.(決定是否生產)【Day 27】 可以開始決定要不要將此ML模型投入生產。此時我們可以使用「獨立測試資料集(Test)」測試? 使用交叉驗證(cross-validation)(又稱bootstrapping)測試?
⭐訓練 ML 模型的小實驗⭐:
1.【Day 24】 TensorFlow Playground 的簡介與介面介紹
2.【Day 24】 learning rate 的改變對訓練過程的影響
3.【Day 25】 使用神經網路(neural network)分類資料
4.【Day 25】 觀察batch size如何影響gradient descent
⭐30天內容回顧與課程索引, 參賽心得, 未來計畫與感謝⭐:
1.【Google ML】30 – 30天內容回顧與課程索引, 參賽心得, 未來計畫與感謝
⭐【喜歡我的文章嗎? 幫忙按讚除了鼓勵外,我也會將部分所得捐出!
如果喜歡我的文章,請幫我在下方【按五下Like】 (Google, Facebook 免費註冊),會由 「LikeCoin」 贊助作者鼓勵繼續創作,扣除掉網站本身經營的成本 (可惜目前還是虧本的),我會將 【50% 收益全部捐出】 並公開發文,讀者們「只需幫忙按讚,完全不用出錢」哦!

likecoin-steps