Big Data、資料庫、數據庫

使用BigQueryML來預測新生兒體重
使用BigQueryML來預測新生兒體重

使用BigQueryML來預測新生兒體重

今天Cloud Ace的部落格,要帶大家體驗Google雲端服務的一個機器學習工具BigQuery ML。什麼是BigQuery ML,它是一個建立在BigQuery之上,一個方便產生跟執行機器學習的工具,目的是要讓使用者可以透過SQL指令,加速他們對既有資料的處理速度,而非透過複雜的程式產生、訓練模型,再對資料做預測分析。

0 Comments
BigQuery –匯入資料 part 3
BigQuery –匯入資料 part 3-Data Transfer and Exports

BigQuery –匯入資料 part 3

Data Transfer and Exports 這一篇我們繼續來說明BQ的資料轉移與資料匯出,之前篇章我們提到的資料載入都是一次性的工作。但若你的資料是要定期性的匯入資料進入 BQ呢?BQ提供了 “Data transfer Servie" ,讓你定期的自動將資料匯入到 BQ中。這一類的工作BQ提供了Web UI介面/bq command 及REST API的方式來執行這種重複性的工作。BQ的 transfer servicet除了本身就支援Cloud Storage 之外還支援多種資料來源,例如Google Ads, Google Play, AWS Redshift, YouTube Channel。另外需要注意一點,因爲我們之前提到過BQ是Region Level的服務,Cloud storage也是。所以在設計上時會建議Cloud storage及BQ是在同一個Region(例如台灣),哪麼 data…

0 Comments
BigQuery –匯入資料 part 2
BigQuery –匯入資料 part 2-Data Management ( DDL and DML)

BigQuery –匯入資料 part 2

Data Management ( DDL and DML) 這一篇我們來講一下在BQ上的資料管理,例如我們需要刪除資料可以用如下的命令bq rm dataset_name.table_name 是直接刪除單一個table或是bq rm -f -f dataset_name其中 -r 是 recursively, -f force也就是不管該dataset有什麼資料直接強制刪除而且也不用再跳出確認是否要刪除的訊息。以上是用BQ在cloud shell的作法,當然也可以在SQL語法直接做這一類的操作例如Drop table if exists dataset_name.table_name在之前的篇章也有提到也可以設定table自動到期就刪除了選項,範例請參考BigQuery –匯入資料此篇文章。BQ的DDL(Data Definition Language)跟一般的DataBase一樣有,create/drop/alter table的等操作。當然也有DML(Data Manipulation Language)--delete/insert/merge等功能可以使用,但到目前為止無法使用DML來copy…

0 Comments

BigQuery 資料型態與功能 part 2

BigQuery Data types,Functionspart 2 String字串功能 文字的運用應該是在資料庫裡最普遍使用,BQ內建了很多文字運用的語法功能。請看一下範例 with string as ( select * from unnest ([ 'Taipei', 'New York', 'Singapore' ]) as city ) select city , LENGTH(city) as len ,…

0 Comments

BigQuery 資料型態與功能 part 1

BigQuery Data types,Functions 這一篇我們要來介紹BQ的資料型態與它的功用,BQ支援數字/文字/時間/地理位置/結構化/半結構化等資料型態。底下為大家一一說明INT64這是一個數字的整數型的資料也就是數字沒帶小數點,範圍可以從10的負19次方到10的19次方。若是real-valued的數字哪麼就需要用FLOAT64的資料型態。Numeric提供小數點前38位數及小數點之後9個位數的數字型態,這一類的資料型態適合被拿來做計算。若您的資料有需要在資料庫做計算就是適合此類的資料型態。STRING文字字串,提供不特定長度的文字字串以Unicode為基礎。TimeStamp一個絕對數字的時間值資料型態DateTime這是一個日曆的時間型態,Dtae 跟Time可以分開來。Geography顯示的是經緯度的資料型態Struct/Array這個在我們前面的BQ SQL基本操作裡有提到並且有範例。 我們來看一個Numeric型態的例子 with examples as ( select 'Mon' as day, 1481 as numrides, 1051 as oneway union all select 'Sun', 2336, 2936 ) select *,…

0 Comments

BigQuery –Joining Tables (basic operation)

這一篇我們來教學如何在BQ在做基本joining tables的操作,雖然在BQ上是不太鼓勵做joining tables的操作。若是您要分析的資料是從一般的RDBMS的資料庫而來,哪麼建議您在ETL時就將RDBMS的資料做Denormalization的動作,這樣避免掉joining tables的所要的資源及時間後面會有篇章帶到如何在BQ上做joining tables的優化。BQ支援以下的joining tables的型態inner/outer/cross/anti/semi/anti-semi 請看底下的範例 With bike_rentals as ( Select count(starttime) as num_trips, extract(date from starttime) as trip_date From `bigquery-public-data`.new_york_citibike.citibike_trips Group by trip_date ), rainy_days As ( Select…

0 Comments

BigQuery—-Google Data Warehouse 解決方案

簡介 在現今的企業中,越來越多公司傾向以資料導向作為企業的決策依據。哪麼資料倉儲系統就是一個現代企業不可或缺的一部分。然而現今各種資料來源充斥著整個企業內部,越來越來的資料需要進行分析。傳統上的資料倉儲效能變得越來越糟而企業需要根據資料來做決策卻要越來越即時,因為市場瞬息萬變。而隨著市場的動態,分析的需求也是不固定的。若要準備夠大的資料倉儲系統應對則有資源浪費的狀況發生,資料倉儲太小則分析需求就會有效能太慢跟不及時的狀況發生, BigQuery就在此種狀況狀況下應運而生。 什麼是BigQuery(以下簡稱BQ) Google BQ是一個託管式及高擴充性的服務,也就是說不再需要再像傳統的資料中心一樣建立一堆的機器以及需要各式基礎建設的各類工程師來幫你搭建這個環境,例如在BQ服務下你不需要一個資料庫管理員來做幫你做Data replication/defragmentation/Disaster Recovery等等的工作, Google都會幫你處理這些問題。您只需要一個熟習一般傳統SQL語法的工程師幫你使用即可。Google BQ的效能能夠讓你在一秒內查詢TB及資料量或一分鐘內查詢PB及的資料量,也不再需要建立傳統資料庫為了加快資料量需要建立index機制。BQ除了是一個全託管的服務外,它的高效能也是因為BQ是一種分散式的SQL Engine。你可以使直接在Google的UI介面上使接使用這一項服務,甚至可以查詢的資料不是放在BQ之內,例如 CVS/JSON/Avro等類型的檔案。當然你也可以直接將這些檔案直接載入到BQ內的系統,由於BQ是雲端服務所以你也不用擔心會把BQ的儲存空間用滿,除非你有一天不再需要這些資料。BQ與一般傳統的資料倉儲系統不同在於,一般傳統的資料倉儲系統是 row base的設計,而BQ是用Column base的架構設計(如下圖)。 如何將資料載入BQ呢? 這時免不了的需要ETL這一類的工具拉幫助我們將資料載入到BQ內, GCP也有一套全託管的ETL服務。Extract -- Cloud Pub/Sub(Stream) or Cloud Storage(Batch)Transfer -- Cloud DataflowLoad -- BQ另外GCP也提供了另外兩項託管式服務Datalab --…

0 Comments

End of content

No more pages to load