Data science - GCP BigQuery 系列

[BQ 14] BigQuery 吃什麼Data?

前言:

到目前為止,我們已經知道了四種和 BigQuery 溝通的方法,也知道如何查詢的公共數據集

但是在我們大部分的使用情境,還是會需要上傳自己的資料。那麼,BigQuery 又吃哪些類型的資料呢? 我們繼續看下去吧!

我們在前面介紹 BigQuery 的時候,就有提到 BQ的好處是彈性大,沒錯,他支援非常多種的資料類型,下圖我們列出幾個常用的資料類型:

資料類型:

Avro、Parquet和 ORC,這三個都是大數據文件的格式,並且是基於Hadoop文件系統優化出的存儲結構,關於這類型的數據請參考這裡

CSV相信大家都很熟,這裡就不再贅述。

JSON 也是很常使用的一種資料格式,JSON的全名是 JavaScript Object Notation ,主要是以 key value 的形式儲存,大概會長下面這個樣子:

資料來源:

Google cloud storage:

在 GCP 上的服務,是 Object Storage 的形式,使用上存在配額限制,比如單個檔案不能大於 5TB。

Google cloud bigtable:

在 GCP 上的服務,是 NoSQL Wide column的形式。

Google drive:

這個我們平常也很常使用,不再贅述。

Azure blob:

在 Azure 上的服務,是 Object Storage 的形式,

AWS S3:

在 AWS 上的服務,是 Object Storage 的形式。

Object storage

其他注意事項:

關於 BigQuery 的 datatypes,請參考這裡

關於資料的存放位置:

BigQuery 的資料是存在不同的國家和城市,使用上需注意儲存區域地區,以確保相關的服務可以互相串接。

Summary:

(1) BigQuery 支援的資料類型有非常多種格式,包含 Avro, parquet, ORC, JSON和 CSV
(2) BigQuery 支援的資料來源有很多種,包含 Google cloud storage, Google cloud bigtable, Google drive, Azure blob, AWS S3

Reference:

https://cloud.google.com/bigquery/docs/loading-data-cloud-storage-csv

大數據文件格式揭祕:Parquet、Avro、ORC

GCP 儲存空間 (上):常見雲端儲存服務簡介與比較

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *