➣ Reading Time: 21 minutes

前言

我們繼續 How Google does Machine Learning 的第五章節~

這次鐵人賽的30天中,我目前所寫文章的所有課程目錄如下:

Course – How Google does Machine Learning

第五章節的課程地圖: (紅字標記為本篇文章中會介紹到的章節)
* Python notebooks in the cloud
* Module Introduction
* Cloud Datalab
* Cloud Datalab
* Demo: Cloud Datalab
* Development process
* Demo of rehosting Cloud Datalab
* Working with managed services
* Computation and storage
* Lab: Rent-a-VM
* Intro to Qwiklabs
* Intro to Renting-VM Lab
* Lab: Rent-a-VM to process earthquake data
* Lab debrief <– (昨天到這邊)
* Cloud Shell
* Third wave of cloud
* Third Wave of Cloud: Fully-Managed Services
* Third Wave of Cloud: Serverless Data Analysis
* Third Wave of Cloud: BigQuery and Cloud Datalab
* Datalab and BigQuery
* Lab Intro: Analyzing data using Datalab and BigQuery
* Lab: Analyzing data using Datalab and BigQuery
* Lab Debrief: Analyzing Data using Datalab and BigQuery
* Machine Learning with Sara Robinson
* ML, not rules
* Pre-trained ML APIs
* Vision API in action
* Video intelligence API
* Cloud Speech API
* Translation and NL
* Lab: Machine Learning APIs
* Lab: Pretrained ML APIs Intro
* Lab: Invoking Machine Learning APIs
* Lab Solution


1. Cloud Shell

課程地圖
* Python notebooks in the cloud
* Cloud Shell

我們之前所做的事情是建立一個 Compute Engine VM,他幫我們實現了一些功能。
但其實以這樣的需求來說,這樣做是有點浪費的。

現在我們將來介紹 Google Cloud Shell
想要執行 Cloud Shell 只需要點選 GCP console 右上角的Activate Google Cloud Shell,即可開始執行。

https://ithelp.ithome.com.tw/upload/images/20190912/20120424DvdhBMWEFm.png

我們所開啟的視窗,稱為 Cloud Shell,他是一種小型的VM
雖然小,但當我們的目的只是嘗試些小事情(跑幾行code、複製東西…),Cloud Shell絕對夠用。

我們看到Cloud Shell的視窗,基本上我們可以做與Compute Engine VM幾乎相同的事情,
此外,Cloud Shell更適合給developers使用,
在Compute Engine VM中,我們可能還需要安裝一些軟體(因為是全新的環境),
但這些在Cloud Shell幾乎都不用,已經都裝好了。

這邊以git,git clone作為示範,可以看到我們能直接使用。

https://ithelp.ithome.com.tw/upload/images/20190912/20120424WAKyGOAC1h.png

但要注意的事情就是 Cloud Shell 是一個很短暫的 VM,
也就是說大概一陣子(可能大約一小時)沒使用,這VM的內容會被自動回收。
但我們也能隨時重新在啟動新的 Cloud Shell,
或者我們也可以按新的tab啟動另外一個 Cloud Shell (下圖”+”號),這仍是相同的VM。
當有兩個tab的時候,你可以執行其他指令在另外一個tab,
讓每個 Cloud Shell 所做的事情更清楚。

注意:仍是在同個VM下執行指令。

https://ithelp.ithome.com.tw/upload/images/20190912/20120424AMsJSGn4hS.png


2. Third Wave of Cloud: Fully-Managed Services

課程地圖
* Python notebooks in the cloud
* Third wave of cloud
* Third Wave of Cloud: Fully-Managed Services

https://ithelp.ithome.com.tw/upload/images/20190912/201204248Pnuy3PP3S.png

這邊講一點歷史,三波google雲的變化:
1. 原先的 Data lab 是由本機電腦拓展到雲端處理服務,
google從MapReduce,後來意識到困難(也可能是因應時代變化)。
1. 改為開發了Dremel和Colossus,Dremel是做SQL查詢用的,
Colossus是一個允許大量資料讀取的文件系統,
Dremel和Colossus作為BigQuery和Google Cloud Storage,
在Google Cloud Platform上提供,這就是指google的第二波雲。
1. 當然,這樣的事情不只google在做,所以就會有第三波雲。
最大的差別就是在,第二波雲主要在做的是租用基礎設施(之前lab在做的事情)。
第三波雲重點放在完全彈性的服務。
如果要處理比較新的項目,請使用第三波雲的Managed Services,
這個服務能提供open source軟體的標準使用方法,而且也不須擔心基礎結構。


3. Third Wave of Cloud: Serverless Data Analysis

課程地圖
* Python notebooks in the cloud
* Third wave of cloud
* Third Wave of Cloud: Serverless Data Analysis

而上面這些內容實際上對應到的是什麼,這邊我們做一個範例,
我們開啟BigQuery console,BigQuery是一個存放data的倉庫。

我們現在想查詢醫療保險索賠的public dataset,我想要查2014年的Medicare索賠。
而我們想做一個ad hoc(臨時的)query查詢,
所以我們也沒有創建indices,也沒有準備database使這查詢更有效率。

https://ithelp.ithome.com.tw/upload/images/20190912/201204249wNBKMniMY.png

我們只花了3秒左右查詢了276MB的資料,BigQuery是一個columnar database,
我們可以注意一下結果,它們在Medicare的公共數據中。

https://ithelp.ithome.com.tw/upload/images/20190912/20120424hoFl52acay.png

這個數據大約有2400萬行,因此我們能在幾秒鐘對一個大約2400萬行的數據集進行查詢,
而且在不建立任何VM、不安裝任何軟體下完成這樣的查詢操作。

當我們說第三波雲時,就是這件事,我們想做到完全的managed services,
到時我們只需要寫一些code,並交由他執行即可。


4. Third Wave of Cloud: BigQuery and Cloud Datalab

課程地圖
* Python notebooks in the cloud
* Third wave of cloud
* Third Wave of Cloud: BigQuery and Cloud Datalab

https://ithelp.ithome.com.tw/upload/images/20190912/20120424aNGJzT5ahy.png

在上面的小實驗中,我們看到了BigQuery的一些優點
1. 能快速地進行大量資料的查詢。

  1. 我們能使用SQL2011做一個ad-hoc(臨時的)查詢。

  2. 而想將資料傳入BigQuery也非常簡單,直接上傳檔案,
    或透過web GUI存到雲端中,再將它們的資料流向BigQuery。

  3. 另外匯出BigQuery的資料也非常簡單,google有提供非常多的APIs,
    運行SQL query並保存成任何你想要的格式結果。

  4. BigQuery資料儲存不貴。

  5. 最重要的目的是,因為有了BigQuery,
    Datalab可以與BigQuery有良好的整合,
    所以我們可以探索數據、運行query,
    並將結果以Pandas DataFrame的方式匯出,還能用Python來製圖。


5. ML, not rules

課程地圖
* Python notebooks in the cloud
* Machine Learning with Sara Robinson
* ML, not rules

這邊我們要稍微討論一下機器學習比起一般方法更強大的地方,
但要比較,我們就必須要先思考,「如果沒有機器學習,我們要怎麼解一樣的問題?

  • 問題1:請說明一個方法(rule),能分辨出下面的蘋果與橘子。

https://ithelp.ithome.com.tw/upload/images/20190912/20120424YVj4cvPPum.png

你可能會想說,我們只要分辨顏色就好了。 這是正確的方向。
如果我們的程式分辨出大多像素是紅色,就輸出apple;大多像素是橘色,就輸出orange。

但一樣的問題,如果我們今天拿到的是灰階的圖片呢?
* 問題2:請說明一個方法(rule),能分辨出下面的蘋果與橘子。

https://ithelp.ithome.com.tw/upload/images/20190912/20120424AMlwHV4i5Q.png

這時候我們可能就需要開始尋找表面的紋理或梗的形狀之類的。

但你會發現,我們會因此而要開始改寫我們的演算法,才能夠達到這題目正確的分類結果。
但正當你寫完的時候,如果我們突然想要分辨出三種水果呢?

https://ithelp.ithome.com.tw/upload/images/20190912/20120424QABqgxwizD.png

你到那時才會知道,你整個的算法又會需要再重寫了,
但這些圖片是如此的相似、都是接近一個橢圓形的立體、都是水果,
如果我們的任務改成相差很多的,或許就會變簡單了吧?
這裡就有一個例子,我們來分辨狗與拖把的圖片:

https://ithelp.ithome.com.tw/upload/images/20190912/20120424ZmZpuC2MUM.png

狗有生命且會呼吸,掃把沒眼睛、鼻子、嘴巴,
正當你想這個問題看來能夠輕易地被解決的時候,
突然有人請你分辨sheep dogs(羊狗)與拖把的差別時,你又崩潰了/images/emoticon/emoticon02.gif
況且這是一個連人由自己的眼睛分辨都很難的題目,

https://ithelp.ithome.com.tw/upload/images/20190912/20120424sboOqT5Yid.png

我們就不要再寫code(寫rules)解決這樣的問題了吧,
我們沒有必要特別針對特定的圖片多寫幾行code,只為了能多識別出那個圖像,
而且就算寫出來了,還有可能在別的情況下,這份code又沒有用了。

所以我們應該要改寫能自動幫助我們找到這些規則的code,
這時候我們就需要依靠ML。

https://ithelp.ithome.com.tw/upload/images/20190912/20120424fTcV9apSY0.png

Google Cloud Platform提供了兩種簡單的方式讓ML能加在我們自己的project中,
而且我們可以自己定義ML的功能,如圖的左邊,

  1. Tensorflow: Google Brain團隊提供的open source library,
    能讓我們使用自己的數據建構並訓練自己的ML模型。
  2. Cloud Machine Learning Engine: Tensorflow模型除了在自己的電腦跑之外,
    也能直接在google提供的架構下直接執行。

圖的右側指的是一些google已經訓練好的ML所提供的API,
google又稱之為”友善的機器學習”,可以透過REST API取得資料,
下個章節中,我們會把所有的API的應用做介紹並且demo每一個功能。


本文同步發佈在: 第 11 屆 iT 邦幫忙鐵人賽
【Day 11】 Google ML – Lesson 8 – Cloud Shell 的介紹與 google雲的三代變化, 使用ML與一般演算法的比較與優勢


參考資料

⭐Google Machine Learning 相關文章整理⭐:
1.訂閱課程【Google ML】1 – Google ML – 參賽原因 與 就先從認識 coursera 與訂閱課程開始第一天吧
⭐ML 基礎知識篇⭐:
1.基礎ML知識什麼是ML? 為什麼ML最近才紅起來? 可參考:【Day 3】
2.設計ML問題如何設計一個ML問題?可參考:【Day 4】
3.ML與一般算法比較比較一般算法與ML算法,看出ML的優勢。可參考:【Day 11】
⭐ML 應用策略篇⭐:
1.ML的成功策略使用ML要成功,常需要的關鍵策略。可參考:【Day 5】
2.ML各階段與比重分配企業運行ML時,在ML的各階段應該放的比重與心力。可參考:【Day 6】
3.ML失敗的常見原因大部分企業使用ML卻失敗的前十大主因。可參考:【Day 6】
4.企業如何引入MLML在企業運行的五大階段與注意事項。 可參考:【Day 7】
⭐GCP 認識篇⭐:
1.在GCP上運行ML的階段在GCP上運行ML大概有哪五大階段? 可參考:【Day 2】
2.GCP上ML的介紹GCP上ML的介紹。可參考:【Day 8】【Day 11】
3.已訓練好的ML模型已訓練好的ML模型。建議可直接使用,不需要再自己訓練。如:Vision API(圖片辨識), Video intelligence API(影片辨識), Speech API(語音辨識), Translation API(語言翻譯), Natural Language API(自然語言處理)。介紹:【Day 4】詳細整理與比較:【Day 12】lab實作:【Day 14】
⭐GCP 上的 lab 實作篇⭐:
1.Lab 事前準備Lab 0 – 在GCP上開始lab前的事前準備與注意事項。可參考:【Day 9】
2.GCP上使用 VMLab 1 – 在GCP上分析地震資料與製圖,並儲存在雲端。可參考: 【Day 10】
3.BigQuery 與 DatalabLab 2 – 使用 BigQuery 與 Datalab 視覺化分析資料。可參考:【Day 13】
4.google ML APIsLab 3 – 使用google已訓練好的ML模型進行實作。如:Vision API(圖片辨識), Video intelligence API(影片辨識), Speech API(語音辨識), Translation API(語言翻譯), Natural Language API(自然語言處理)。可參考:【Day 14】
⭐ML中的不同學習種類⭐:
1.【Day 15】 監督式學習(Supervised Learning) 與 非監督式學習(Unsupervised Learning) 的介紹和比較
⭐訓練「一個」ML模型⭐:
(這裡以 監督式學習(Supervised Learning) 為例)
1. (訓練前)決定資料集與分析資料你想要預測的是什麼資料? 這邊需要先知道 example、label、features的概念。介紹可參考:【Day 15】而我們這次作為範例的訓練資料集介紹在:【Day 19】
2. (訓練前)決定問題種類依據資料,會知道是什麼類型的問題。regression problem(回歸問題)? classification problem(分類問題)? 此處可參考:【Day 16】與進階內容:【Day 17】
3. (訓練前)決定ML模型(ML models)依據問題的種類,會知道需要使用什麼對應的ML模型。回歸模型(Regression model)? 分類模型(Classification model)? 此處可參考:【Day 18】神經網路(neural network)? 簡介於:【Day 25】
4.(模型裡面的參數)ML模型裡面的參數(parameters)與超參數(hyper-parameters) 此處可參考:【Day 18】
5. (訓練中) 調整模型評估當前模型好壞損失函數(Loss Functions):使用損失函數評估目前模型的好與壞。以MSE(Mean Squared Error), RMSE(Root Mean Squared Error), 交叉熵(Cross Entropy)為例。此處可參考:【Day 20】
6. (訓練中) 調整模型修正模型參數以梯度下降法 (Gradient Descent)為例:決定模型中參數的修正「方向」與「步長(step size)」此處可參考:【Day 21】
7. (訓練中) 調整腳步調整學習腳步透過學習速率(learning rate)來調整ML模型訓練的步長(step size),調整學習腳步。(此參數在訓練前設定,為hyper-parameter)。此處可參考:【Day 22】
8. (訓練中) 加快訓練取樣與分堆設定batch size,透過batch從訓練目標中取樣,來加快ML模型訓練的速度。(此參數在訓練前設定,為hyper-parameter)。與迭代(iteration),epoch介紹。此處可參考:【Day 23】
9. (訓練中) 加快訓練檢查loss的頻率調整「檢查loss的頻率」,依據時間(Time-based)與步驟(Step-based)。此處可參考:【Day 23】
10. (訓練中) 完成訓練(loop) -> 完成重覆過程(評估當前模型好壞 -> 修正模型參數),直到能通過「驗證資料集(Validation)」的驗證即可結束訓練。此處可參考:【Day 27】
11. (訓練後)訓練結果可能問題「不適當的最小loss?」 此處可參考:【Day 28】
12. (訓練後)訓練結果可能問題欠擬合(underfitting)?過度擬合(overfitting)? 此處可參考:【Day 26】
13. (訓練後)評估 – 性能指標性能指標(performance metrics):以混淆矩陣(confusion matrix)分析,包含「Accuracy」、「Precision」、「Recall」三種評估指標。簡介於:【Day 28】詳細介紹於:【Day 29】
14. (訓練後)評估 – 新資料適用性泛化(Generalization):對於新資料、沒看過的資料的模型適用性。此處可參考:【Day 26】
15. (訓練後)評估 – 模型測試使用「獨立測試資料集(Test)」測試? 使用交叉驗證(cross-validation)(又稱bootstrapping)測試? 此處可參考:【Day 27】
16.(資料分堆的方式)(訓練前) 依據上方「模型測試」的方法,決定資料分堆的方式:訓練用(Training)、驗證用(Validation)、測試用(Test)。此處可參考:【Day 27】
⭐從所有ML模型的訓練結果中,找到「最好的」ML模型⭐:
( 原因:「訓練好一個模型」不等於「找到最好的模型」 )
1.(訓練模型)【Day 27】 使用「訓練資料集(Training)」訓練模型(調整參數),也就是「上方表格」在做的內容
2.(結束訓練)【Day 27】 訓練到通過「驗證資料集(Validation)」結束訓練(未達到overfitting的狀態前)
3.(模型再調整)【Day 27】 超參數(hyperparameters)調整或神經網路的「layer數」或「使用的node數」(一些訓練前就會先決定的東西)
4.(loop)【Day 27】 (模型再調整)後,重複上述(訓練模型)、(結束訓練),完成訓練新的模型
5.(找到最佳模型)【Day 27】 從「所有訓練的模型」中,找到能使「驗證用資料集(Validation)」最小的loss,完成(找到最佳模型)
6.(決定是否生產)【Day 27】 可以開始決定要不要將此ML模型投入生產。此時我們可以使用「獨立測試資料集(Test)」測試? 使用交叉驗證(cross-validation)(又稱bootstrapping)測試?
⭐訓練 ML 模型的小實驗⭐:
1.【Day 24】 TensorFlow Playground 的簡介與介面介紹
2.【Day 24】 learning rate 的改變對訓練過程的影響
3.【Day 25】 使用神經網路(neural network)分類資料
4.【Day 25】 觀察batch size如何影響gradient descent
⭐30天內容回顧與課程索引, 參賽心得, 未來計畫與感謝⭐:
1.【Google ML】30 – 30天內容回顧與課程索引, 參賽心得, 未來計畫與感謝
⭐【喜歡我的文章嗎? 歡迎幫我按讚~ 讓基金會請創作者喝一杯咖啡!
如果喜歡我的文章,請幫我在下方【按五下Like】 (Google, Facebook 免註冊),會由 「LikeCoin」 贊助作者鼓勵繼續創作,讀者們「只需幫忙按讚,完全不用出錢」哦!

likecoin-steps