Data science - GCP BigQuery 系列

[BQ 15] [數據分析實作一] Step 1: 建立 Cloud SQL instance,並上傳 CSV

前言:

寫到這裡的時候我覺得非常期待,前期我們前面花了一些時間介紹 BigQuery,並學會如何和他連線並做簡單的查詢。現在,我們終於可以在 GCP 操作ELT過程,並且打造自己的儀表板!

在這次的數據分析實作一中,整個架構順序如下:

今天要做的是這步:

準備材料:

cloud shell
Data

資料集介紹:

今天使用的是kaggle 上的影音串流平台的資料來源是: Netflix Disney+ Prime Video Hulu Shows Collection,因為目的主要是在雲端上熟悉環境,資料已經先做了以下的梳理:

title: 電影/影集名稱
YEAR: 電影/影集上映年份
AGE: 目標受眾年紀族群
Netflix: 在 Netflix 上可否取得
Hulu: 在 Hulu 上可否取得
Prime_video: 在 Prime_video 上可否取得
Disney: 在 Disney+ 上可否取得
Type: movie or TV show
IMDb_score: IMDb 分數
RT_score: Rotten tomatoes,爛番茄分數。

建置 GCS bucket:

到 cloud storage,點選建立

點選上傳檔案:

建置 Cloud SQL:

首先,打開 cloud shell:

先建置一個在GCP上的 Cloud SQL,在root-password這裡,請輸入你自己設定的密碼。:gcloud sql instances create mysql-instance \
–database-version=MYSQL_5_7 \
–tier=db-g1-small \
–region=us-central1 \
–root-password=\
–availability-type=zonal \
–storage-size=10GB \
–storage-type=HDD

大約等個幾分鐘,可以看到 cloud SQL上出現我們的實例。

gcloud sql connect mysql-instance –user root

建立 Database:

CREATE DATABASE bq_test_db;

SHOW DATABASES;

建立 Table:

CREATE TABLE bq_test_db.tv_shows(
ID integer,
title varchar(255),
YEAR integer,
AGE varchar(255),
Netflix integer,
Hulu integer,
Prime_video integer,
Disney integer,
Type integer,
IMDb_score integer,
IMDb_Total integer,
RT_score integer,
RT_Total integer
);

點選匯入:

select * from bq_test_db.tv_shows LIMIT 10;

Summary:

我們今天學會了在 GCP 上建置 cloud SQL,下一步要把資料匯出成 CSV 到 Cloud storage 存放!

Reference:

Netflix Disney+ Prime Video Hulu Shows Collection

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *