➣ Reading Time: 22 minutes

前言

今天的內容一開始的幾個part會跟昨天重複(步驟上的相同),
原因是今天整理完之後,覺得把昨天的步驟整理到今天放在一起會比較像一個完整的lab。

而昨天的lab內容我也會把這次lab 1的內容拿掉,
剩下的內容改成lab 0,代表運行lab前的準備,
這樣也有個好處,之後每個的lab開始前,
都會有跟lab 0差不多的步驟,這樣之後也就不用再贅述這部分了。
所以在今天的lab開始前,還是一樣需要先做lab 0的部分才能開始哦~
(雖然下面步驟也會貼心的再提醒就是了XD/images/emoticon/emoticon37.gif/images/emoticon/emoticon37.gif/images/emoticon/emoticon37.gif)

我們就繼續 How Google does Machine Learning 的第五章節~

這次鐵人賽的30天中,我目前所寫文章的所有課程目錄如下:

Course – How Google does Machine Learning

第五章節的課程地圖:(紅字標記為本篇文章中會介紹到的章節)
* Python notebooks in the cloud
* Module Introduction
* Cloud Datalab
* Cloud Datalab
* Demo: Cloud Datalab
* Development process
* Demo of rehosting Cloud Datalab
* Working with managed services
* Computation and storage
* Lab: Rent-a-VM
* Intro to Qwiklabs <– (昨天到這邊)
* Intro to Renting-VM Lab
* Lab: Rent-a-VM to process earthquake data
* Lab debrief
* Cloud Shell
* Third wave of cloud
* Third Wave of Cloud: Fully-Managed Services
* Third Wave of Cloud: Serverless Data Analysis
* Third Wave of Cloud: BigQuery and Cloud Datalab
* Datalab and BigQuery
* Lab Intro: Analyzing data using Datalab and BigQuery
* Lab: Analyzing data using Datalab and BigQuery
* Lab Debrief: Analyzing Data using Datalab and BigQuery
* Machine Learning with Sara Robinson
* ML, not rules
* Pre-trained ML APIs
* Vision API in action
* Video intelligence API
* Cloud Speech API
* Translation and NL
* Lab: Machine Learning APIs
* Lab: Pretrained ML APIs Intro
* Lab: Invoking Machine Learning APIs
* Lab Solution


Lab: Rent-a-VM to process earthquake data

課程地圖
* Python notebooks in the cloud
* Lab: Rent-a-VM
* Lab: Rent-a-VM to process earthquake data
* Lab debrief

在這裡,我們將建立一個 Compute Engine,並使用一些位於Cloud Storage的data,
並完成一個簡單的任務:使我們的網頁顯示現在的地震資料圖,並把這些資料儲存下來。


part 0 : (事前準備) 開啟 GCP console

請先參考 【Day 9】- 每次在google雲端上開始lab前都要的事前準備與注意事項 的內容,完成到運行中階段

part 1 : (準備機器) 在 GCP console 中建立一台VM,並執行 SSH

Step 1 : 在GCP console中,我們找到 MENU -> Compute Engine -> VM instances

https://ithelp.ithome.com.tw/upload/images/20190910/20120424bpGRFtaEof.png

Step 2 : 按下Create新的VM後,
1. 設定名字
2. 設定zone(可選擇靠近自己的地區的,或任意也沒關係,影片中示範:US Central 1-b)
3. 設定CPU(影片中示範:1 vCPU,已經很足夠使用)
4. 下方選擇”Allow full access to all the Cloud APIs”
5. 按下最下方的Create

https://ithelp.ithome.com.tw/upload/images/20190910/20120424siuQaGcG3i.png

Step 3 : 稍微等一下VM被建立,按下SSH,(這邊可能需要允許pop-ups)
https://ithelp.ithome.com.tw/upload/images/20190910/20120424Nl1h8CnfPg.png

Step 4 : 我們可以看到SSH的畫面顯示如下。
https://ithelp.ithome.com.tw/upload/images/20190910/20120424QE5bhZsAm7.png


part 2 : (準備資料) 在 SSH 中 下載必要資料

Step 1 : 在SSH中,我們會需要使用git,如果還沒有安裝,
我們輸入以下指令即可安裝git,

sudo apt-get install git

如果是安裝完成的,我們直接輸入git,會看到他的使用說明(如何下參數)。
https://ithelp.ithome.com.tw/upload/images/20190910/20120424Wm7KYBN11C.png

Step 2 : 再來我們要使用git來下載我們想要的資料,
我們輸入

git clone https://github.com/GoogleCloudPlatform/training-data-analyst

下載完我們輸入ls顯示當前資料夾,
如果有看到顯示training-data-analyst,那表示下載成功了。

我們接下來要來取用來自USGS的地震資料,
而這段script,google在剛剛clone的資料夾內已經幫我們寫好了。

Step 3 : 首先我們需要先切換資料夾

cd training-data-analyst/courses/machine_learning/deepdive/01_googleml/earthquakes

小技巧:使用tab,可以自動完成,不用完整的輸入資料夾名稱(如果資料夾存在)。

Step 4 : 接下來我們輸入這段程式碼,less可以幫助我們預覽這份script檔案。

less ingest.sh

使用方式為:
space:往下捲動
b:備份這個page
q:離開(quit)

https://ithelp.ithome.com.tw/upload/images/20190910/20120424JxzYNkeoxl.png

讓我們稍微解析一下這份scripts:
rm行:強制移除現有的”earthquakes.csv”檔案(如果存在的話)
wget行:從USGS下載最近的資料,並命名為”earthquakes.csv”

Step 5 : 執行這份script檔案,將我們要的檔案下載下來。

bash ingest.sh

Step 6 : 我們可以用head偷看一下這個下載檔案的前幾行。

head earthquakes.csv

我們可以看到有顯示時間、經緯度,與所有這幾週發生的地震資料。


part 3 : (跑程式) 轉換資料部分

Step 0 : 我們可以先在以下網址看結果與code的解釋:

基本上是取得地震資料,然後使用matplotlib製圖而成。

https://github.com/GoogleCloudPlatform/datalab-samples/blob/master/basemap/earthquakes.ipynb

Step 1 : 換我們自己動動手,首先先把我們所缺的python package都安裝起來:

basemap:可以畫製地理位置地圖
numpy:數字處理library
matplotlib:基礎圖形繪製library

bash install_missing.sh

Step 2 : 執行transform.py,這份code會執行與剛剛Step 0相同的內容:

python transform.py

Step 3 : 執行ls -lrt,這會照時間順序顯示我們最近所建立的新東西

ls -lrt

Step 4 : 我們會發現有個earthquakes.png被建立,到這邊這階段就完成了。


part 4 : (儲存結果) 建立bucket(雲端儲存資料的地方),並儲存資料。

現在我們想將這個生成的結果存在GCP的雲端上。

Step 1 : 我們先按一下Menu,選擇storage,並按下Create bucket。
https://ithelp.ithome.com.tw/upload/images/20190911/201204249YpTRICksH.png

Step 2 : 這是關於bucket的設定介面,我們一共需要設定的東西如下,
準備好就可以按Create了!

  • 名字:注意這名字一定要全球唯一!!!

    我們可以直接使用之前的part 0階段產生的 Projcet ID,我們能確保這是全球唯一的,
    除非真的是極度的不幸,不然這名字基本上不太可能被其他人使用過XD

  • storage class:可選multi-regional或regional

    看想不想要跨地區儲存(全球化的應用會需要),這邊我們先選regional

  • location:選地區

    基本上建議跟當初part 1所建立的 Compute Engine(VM) 在同一個位置,會比較快(減少資料取得時間)。
    所以這邊我們一樣選 us-central1

https://ithelp.ithome.com.tw/upload/images/20190911/20120424Xk4UPv6y7i.png

Step 3 : 現在我們該來把我們結果的圖片存進去剛剛建的bucket了,
我們回到我們的 SSH 中,我們直接使用GCP的gsutil工具來儲存資料。

gsutil cp earthquakes.* gs://<這邊填上你bucket的名字>/earthquakes/

稍微解析一下這段:
gsutil:GCP提供的指令工具
cp:copy
earthquakes.*:任何符合earthquakes.*格式的資料,*代表任意值
gs://<這邊填上你bucket的名字>/earthquakes/:目標路徑

https://ithelp.ithome.com.tw/upload/images/20190911/201204243X1zM5CSFS.png


part 5 : (顯示結果) 找到剛剛儲存的資料,並顯示結果。

Step 1 : 我們回到我們剛剛的bucket,重新整理後,應該會看到檔案已經被儲存了。
會看到三個檔案earthquakes.htm, earthquakes.png, earthquakes.cs
這表示這三個檔案已經透過剛剛的指令被複製進我們的bucket了。

https://ithelp.ithome.com.tw/upload/images/20190911/20120424jykRyauTXy.png

Step 2 : 再來我們要將我們在雲端所儲存的東西,製作成一個連結分享出去。
先在左方紅框處的地方打勾,然後再打勾右方紅框處(才會看到顯示Public link)。

https://ithelp.ithome.com.tw/upload/images/20190911/20120424H4AlbvDwKi.png

※新版的介面UI改了,我們改在 SSH 中執行以下指令,以達到一樣的效果:

gsutil acl ch -u AllUsers:R gs://<這邊填上你bucket的名字>/earthquakes/*

Step 3 : 點一下Public link,就會顯示剛剛結果圖了,我們也可將這結果分享給別人(公開的情況下)。

可以稍微注意網址:storage.googleapis.com/<我們bucket的名稱>/earthquake/earthquake.htm
這就像是一般我們常見的資料夾結構

https://ithelp.ithome.com.tw/upload/images/20190911/20120424ifjuteUV4H.png

到這邊我們就算完成我們這次的lab了,
這次的lab我們主要學習的目標有:
1. Compute Engine (VM) 的租用,並在上面運作程式碼
2. 使用 Cloud Storage 儲存資料

不過在之後的lab中,就不會再使用這個VM了。

這個lab主要的目的是在建立所有GCP上內容的基礎以及知識。
之後自己想做 Side Project 也必須用到這些觀念。

在之後大部分的課程中,我們將改使用 Managed Services
Managed Services 允許我們直接在上面跑程式,而不需要再自己配置VM、安裝軟體了。

Managed Services 是一種更高階的方式運用 Cloud Services。


本文同步發佈在: 第 11 屆 iT 邦幫忙鐵人賽
【Day 10】 Google ML – Lab 1 – Rent-a-VM to process earthquake data – 在google雲端上分析地震資料與製圖,並儲存在雲端


參考資料

⭐Google Machine Learning 相關文章整理⭐:
1.訂閱課程【Google ML】1 – Google ML – 參賽原因 與 就先從認識 coursera 與訂閱課程開始第一天吧
⭐ML 基礎知識篇⭐:
1.基礎ML知識什麼是ML? 為什麼ML最近才紅起來? 可參考:【Day 3】
2.設計ML問題如何設計一個ML問題?可參考:【Day 4】
3.ML與一般算法比較比較一般算法與ML算法,看出ML的優勢。可參考:【Day 11】
⭐ML 應用策略篇⭐:
1.ML的成功策略使用ML要成功,常需要的關鍵策略。可參考:【Day 5】
2.ML各階段與比重分配企業運行ML時,在ML的各階段應該放的比重與心力。可參考:【Day 6】
3.ML失敗的常見原因大部分企業使用ML卻失敗的前十大主因。可參考:【Day 6】
4.企業如何引入MLML在企業運行的五大階段與注意事項。 可參考:【Day 7】
⭐GCP 認識篇⭐:
1.在GCP上運行ML的階段在GCP上運行ML大概有哪五大階段? 可參考:【Day 2】
2.GCP上ML的介紹GCP上ML的介紹。可參考:【Day 8】【Day 11】
3.已訓練好的ML模型已訓練好的ML模型。建議可直接使用,不需要再自己訓練。如:Vision API(圖片辨識), Video intelligence API(影片辨識), Speech API(語音辨識), Translation API(語言翻譯), Natural Language API(自然語言處理)。介紹:【Day 4】詳細整理與比較:【Day 12】lab實作:【Day 14】
⭐GCP 上的 lab 實作篇⭐:
1.Lab 事前準備Lab 0 – 在GCP上開始lab前的事前準備與注意事項。可參考:【Day 9】
2.GCP上使用 VMLab 1 – 在GCP上分析地震資料與製圖,並儲存在雲端。可參考: 【Day 10】
3.BigQuery 與 DatalabLab 2 – 使用 BigQuery 與 Datalab 視覺化分析資料。可參考:【Day 13】
4.google ML APIsLab 3 – 使用google已訓練好的ML模型進行實作。如:Vision API(圖片辨識), Video intelligence API(影片辨識), Speech API(語音辨識), Translation API(語言翻譯), Natural Language API(自然語言處理)。可參考:【Day 14】
⭐ML中的不同學習種類⭐:
1.【Day 15】 監督式學習(Supervised Learning) 與 非監督式學習(Unsupervised Learning) 的介紹和比較
⭐訓練「一個」ML模型⭐:
(這裡以 監督式學習(Supervised Learning) 為例)
1. (訓練前)決定資料集與分析資料你想要預測的是什麼資料? 這邊需要先知道 example、label、features的概念。介紹可參考:【Day 15】而我們這次作為範例的訓練資料集介紹在:【Day 19】
2. (訓練前)決定問題種類依據資料,會知道是什麼類型的問題。regression problem(回歸問題)? classification problem(分類問題)? 此處可參考:【Day 16】與進階內容:【Day 17】
3. (訓練前)決定ML模型(ML models)依據問題的種類,會知道需要使用什麼對應的ML模型。回歸模型(Regression model)? 分類模型(Classification model)? 此處可參考:【Day 18】神經網路(neural network)? 簡介於:【Day 25】
4.(模型裡面的參數)ML模型裡面的參數(parameters)與超參數(hyper-parameters) 此處可參考:【Day 18】
5. (訓練中) 調整模型評估當前模型好壞損失函數(Loss Functions):使用損失函數評估目前模型的好與壞。以MSE(Mean Squared Error), RMSE(Root Mean Squared Error), 交叉熵(Cross Entropy)為例。此處可參考:【Day 20】
6. (訓練中) 調整模型修正模型參數以梯度下降法 (Gradient Descent)為例:決定模型中參數的修正「方向」與「步長(step size)」此處可參考:【Day 21】
7. (訓練中) 調整腳步調整學習腳步透過學習速率(learning rate)來調整ML模型訓練的步長(step size),調整學習腳步。(此參數在訓練前設定,為hyper-parameter)。此處可參考:【Day 22】
8. (訓練中) 加快訓練取樣與分堆設定batch size,透過batch從訓練目標中取樣,來加快ML模型訓練的速度。(此參數在訓練前設定,為hyper-parameter)。與迭代(iteration),epoch介紹。此處可參考:【Day 23】
9. (訓練中) 加快訓練檢查loss的頻率調整「檢查loss的頻率」,依據時間(Time-based)與步驟(Step-based)。此處可參考:【Day 23】
10. (訓練中) 完成訓練(loop) -> 完成重覆過程(評估當前模型好壞 -> 修正模型參數),直到能通過「驗證資料集(Validation)」的驗證即可結束訓練。此處可參考:【Day 27】
11. (訓練後)訓練結果可能問題「不適當的最小loss?」 此處可參考:【Day 28】
12. (訓練後)訓練結果可能問題欠擬合(underfitting)?過度擬合(overfitting)? 此處可參考:【Day 26】
13. (訓練後)評估 – 性能指標性能指標(performance metrics):以混淆矩陣(confusion matrix)分析,包含「Accuracy」、「Precision」、「Recall」三種評估指標。簡介於:【Day 28】詳細介紹於:【Day 29】
14. (訓練後)評估 – 新資料適用性泛化(Generalization):對於新資料、沒看過的資料的模型適用性。此處可參考:【Day 26】
15. (訓練後)評估 – 模型測試使用「獨立測試資料集(Test)」測試? 使用交叉驗證(cross-validation)(又稱bootstrapping)測試? 此處可參考:【Day 27】
16.(資料分堆的方式)(訓練前) 依據上方「模型測試」的方法,決定資料分堆的方式:訓練用(Training)、驗證用(Validation)、測試用(Test)。此處可參考:【Day 27】
⭐從所有ML模型的訓練結果中,找到「最好的」ML模型⭐:
( 原因:「訓練好一個模型」不等於「找到最好的模型」 )
1.(訓練模型)【Day 27】 使用「訓練資料集(Training)」訓練模型(調整參數),也就是「上方表格」在做的內容
2.(結束訓練)【Day 27】 訓練到通過「驗證資料集(Validation)」結束訓練(未達到overfitting的狀態前)
3.(模型再調整)【Day 27】 超參數(hyperparameters)調整或神經網路的「layer數」或「使用的node數」(一些訓練前就會先決定的東西)
4.(loop)【Day 27】 (模型再調整)後,重複上述(訓練模型)、(結束訓練),完成訓練新的模型
5.(找到最佳模型)【Day 27】 從「所有訓練的模型」中,找到能使「驗證用資料集(Validation)」最小的loss,完成(找到最佳模型)
6.(決定是否生產)【Day 27】 可以開始決定要不要將此ML模型投入生產。此時我們可以使用「獨立測試資料集(Test)」測試? 使用交叉驗證(cross-validation)(又稱bootstrapping)測試?
⭐訓練 ML 模型的小實驗⭐:
1.【Day 24】 TensorFlow Playground 的簡介與介面介紹
2.【Day 24】 learning rate 的改變對訓練過程的影響
3.【Day 25】 使用神經網路(neural network)分類資料
4.【Day 25】 觀察batch size如何影響gradient descent
⭐30天內容回顧與課程索引, 參賽心得, 未來計畫與感謝⭐:
1.【Google ML】30 – 30天內容回顧與課程索引, 參賽心得, 未來計畫與感謝
⭐【喜歡我的文章嗎? 歡迎幫我按讚~ 讓基金會請創作者喝一杯咖啡!
如果喜歡我的文章,請幫我在下方【按五下Like】 (Google, Facebook 免註冊),會由 「LikeCoin」 贊助作者鼓勵繼續創作,讀者們「只需幫忙按讚,完全不用出錢」哦!

likecoin-steps