ETL是什么?
ETL,是英文 Extract-Transform-Load 的縮寫,用來描述將數(shù)據(jù)從來源端經(jīng)過抽?。╡xtract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程。ETL是BI項目中重要的一個環(huán)節(jié),用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,*終按照預(yù)先定義好的數(shù)據(jù)模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去,為后續(xù)的數(shù)據(jù)分析提供數(shù)據(jù)支撐。
市場面上大多BI工具都不含ETL功能,在進(jìn)行數(shù)據(jù)分析項目時,通常會用到BI、ETL兩個工具,成本高、花費時間長。而Smartbi推出可視化ETL功能,通過簡單的拖拽就可以完成ETL過程。ETL通常是將多來源的異構(gòu)數(shù)據(jù),進(jìn)行處理后得到具備完整性、一致性的數(shù)據(jù)模型。
我們將從Smartbi中的自助ETL的應(yīng)用場景入手,帶你了解使用自助ETL是如何高數(shù)據(jù)的質(zhì)量!
自助ETL場景應(yīng)用
操作步驟
1、在Smartbi系統(tǒng)主界面的快捷菜單中選擇 數(shù)據(jù)準(zhǔn)備 > 自助ETL,進(jìn)入“自助ETL”管理界面。
2、在“自助ETL”管理界面中,選擇 新建自助ETL 按鈕,進(jìn)入“新建ETL”定制界面。
3、在此界面可以設(shè)計定制ETL工作流。
數(shù)據(jù)源
1、將關(guān)系數(shù)據(jù)源節(jié)點拖入畫布區(qū),在節(jié)點配置區(qū)設(shè)置關(guān)系數(shù)據(jù)源的參數(shù)。
2、在關(guān)系數(shù)據(jù)源上右鍵選擇 執(zhí)行到此處 ,運行當(dāng)前節(jié)點。
3、點擊查看輸出,可查看關(guān)系數(shù)據(jù)源節(jié)點輸出的數(shù)據(jù),如下:
將表的數(shù)據(jù)導(dǎo)入當(dāng)前工作流完成,下面對數(shù)據(jù)進(jìn)行 數(shù)據(jù)預(yù)處理 。
數(shù)據(jù)預(yù)處理
需要在表中添加序號,并去除采購金額字段的小數(shù)位。
1、將增加序列號節(jié)點拖入畫布區(qū),連接兩個節(jié)點,設(shè)置序列列名稱。
2、將派生列節(jié)點拖入畫布區(qū),連接兩個節(jié)點。在節(jié)點配置區(qū)選擇 派生列配置 按鈕。
3、將對應(yīng)函數(shù)和字段分別拖入添加/編輯表達(dá)式區(qū),點擊 確定 按鈕,添加一條“采購金額取整”的派生列。
4、在派生列節(jié)點上右鍵,選擇 執(zhí)行到此處 ,運行當(dāng)前節(jié)點。派生列節(jié)點輸出的數(shù)據(jù)如下:
數(shù)據(jù)預(yù)處理完成,下面將處理好的數(shù)據(jù)輸出。
目標(biāo)源
將處理好的數(shù)據(jù)輸出成一張新的表。
1、將關(guān)系目標(biāo)源家待拖入畫布區(qū),選擇輸出表的數(shù)據(jù)源、SCHEMA,并選擇 新建表 按鈕。
2、新的表命名為“產(chǎn)品銷售數(shù)據(jù)表”,點擊 創(chuàng)建表 按鈕。
3、點擊 運行 按鈕,創(chuàng)建一張新的表。
流程運行完成后,關(guān)系目標(biāo)源節(jié)點輸出的數(shù)據(jù)如下:
一般情況下,ETL過程設(shè)計是需要用到大量的代碼,且重復(fù)利用率較低。但Smartbi的自助ETL功能充分結(jié)合大量項目人員實施習(xí)慣,操作敏捷易用,通過封裝ETL算法,將技術(shù)分離,以數(shù)據(jù)源——數(shù)據(jù)預(yù)處理——目標(biāo)源的形式,實現(xiàn)業(yè)務(wù)人員進(jìn)行自助ETL操作。Smartbi自助ETL的主要應(yīng)用場景是將多來源的異構(gòu)數(shù)據(jù),進(jìn)行處理后得到具備完整性、一致性的數(shù)據(jù)模型。使用自助ETL可以提高數(shù)據(jù)的質(zhì)量、適應(yīng)不同的數(shù)據(jù)分析方法。