前言
今天我們先進入 How Google does Machine Learning 的第五章節,之後再回到第四章~
這次鐵人賽的30天中,我目前所寫文章的所有課程目錄如下:
- 【Day 1】準備日 – 註冊coursera與訂閱課程
- Course – How Google does Machine Learning
Course – How Google does Machine Learning
第五章節的課程地圖:(紅字標記為本篇文章中會介紹到的章節)
* Python notebooks in the cloud
* Module Introduction
* Cloud Datalab
* Cloud Datalab
* Demo: Cloud Datalab
* Development process
* Demo of rehosting Cloud Datalab
* Working with managed services
* Computation and storage
* Lab: Rent-a-VM
* Intro to Qwiklabs
* Intro to Renting-VM Lab
* Lab: Rent-a-VM to process earthquake data
* Lab debrief
* Cloud Shell
* Third wave of cloud
* Third Wave of Cloud: Fully-Managed Services
* Third Wave of Cloud: Serverless Data Analysis
* Third Wave of Cloud: BigQuery and Cloud Datalab
* Datalab and BigQuery
* Lab Intro: Analyzing data using Datalab and BigQuery
* Lab: Analyzing data using Datalab and BigQuery
* Lab Debrief: Analyzing Data using Datalab and BigQuery
* Machine Learning with Sara Robinson
* ML, not rules
* Pre-trained ML APIs
* Vision API in action
* Video intelligence API
* Cloud Speech API
* Translation and NL
* Lab: Machine Learning APIs
* Lab: Pretrained ML APIs Intro
* Lab: Invoking Machine Learning APIs
* Lab Solution
1. Module Introduction
課程地圖
* Python notebooks in the cloud
* Module Introduction
這章基本的用文字介紹了一下雲端的環境,
我們會用python notebook做機器學習的開發,
而notebook的服務在google雲端上。
Cloud Datalab基本上是本章節使用的開發環境,
而此服務在VM上運行,包含python notebook,
我們同時也會教學Compute Engine的原理與Cloud Storage的知識。
既然是VM就必須提調VM的兩個特性:
- 可以實際控制與更改notebook的機器內容,且無須重寫
> 例如:添加GPU或增加更多memory - VM是短暫的,如果想保存內容須保存在VM外
> 而這點最方便的方法就是使用Cloud Storage。
我們將notebook的內容保存在Cloud Storage中,
同時還能達到版本控制的效果。
而這個章節的學習目標,我們可以參考如下:
Module Learning Objectives(這個module的學習目標)
* Carry out data science tasks in notebooks
練習使用notebooks完成資料科學的任務
* Rehost notebooks on the cloud
在雲上使用notebooks,並更改硬體規格
* Execute ad-hoc queries at scale
我們將將Cloud Datalab與BigQuery一起使用,BigQuery是雲上的數據分析服務,可以讓超越傳統數據庫的執行速度與規模進行queries的查詢
* Invoke pre-trained ML models from Datalab
能使用一些pre-trained ML models(前面的章節有介紹到),並在Cloud Datalab中運行。
2. Cloud Datalab
課程地圖
* Python notebooks in the cloud
* Cloud Datalab
* Cloud Datalab
* Demo: Cloud Datalab
* Development process
這章稍微介紹了一下Datalab的環境,以jupyter作為基礎的open source平台。
下面為Datalab的介面展示:
可以看到主要有三個部分:code, output, markup sections彼此交錯
也因為這樣的交錯才能使notebook如此實用,
code:
在此打你的python code
執行code的方式: 按shift+enter
或 按上方的Run botton
output:
注意output可以為圖形,不像command line一樣。
markup:
可以寫一些markup(markdown語法),可以解釋你這個部分在做什麼。
最後是綠色部分:
有可以將notebook匯出的按鈕,可以將此notebook下載下來。
可以commit code至Google Cloud Platform至code repository的按鈕。
Clear all
: 清除所有output
Run all Cells
: 執行所有Cells
所以整個Datalab的使用流程大概可以表示成下圖:
另外要特別強調的是,Datalab的一大特色是可以線上協同合作
傳統的notebook要線上合作有個基本的問題,誰當host?
一但host只要關機,任何人都無法繼續工作。
而Datalab解決了這個問題,而我們只要給一個URL就可以了。
另外一種Share的方式可以利用版本控制系統,例如Git,
而且只要我們想改動硬體的規格,任何人都可以直接改好後,
重新啟動VM,就直接以新的硬體規格來執行程式。
簡單來說,Datalab架於雲端的VM上,任何人只要連線即可開始工作。
而只要工作結束了,隨時也能將此VM刪除。
3. Demo of rehosting Cloud Datalab
課程地圖
* Python notebooks in the cloud
* Cloud Datalab
* Demo of rehosting Cloud Datalab
這個章節主要來介紹如何在Datalab中更換VM的硬體規格。
Step1. 先將想更改規格的VM打勾,上方按下暫停VM