一区二区三区电影_国产伦精品一区二区三区视频免费_亚洲欧美国产精品va在线观看_国产精品一二三四

聯系我們 - 廣告服務 - 聯系電話:
您的當前位置: > 關注 > > 正文

每日時訊!什么是pdi檢測?Pentaho數據集成的步驟

來源:CSDN 時間:2023-02-15 11:29:31

概述


(相關資料圖)

PDI客戶端(Spoon)的Pentaho數據集成視角使您能夠創建兩種基本的文件類型:

轉換用于執行ETL任務。作業用于編排ETL活動,例如定義應該運行哪些順序轉換的流和依賴關系,或者通過檢查條件來為執行做準備。

PDI使用工作流比喻作為轉換數據和其他任務的構建塊。工作流是在您創建轉換和作業時使用步驟或條目構建的。每一個步驟或條目都由一個躍點連接起來,它將數據流從一項傳遞到下一項。

轉換

轉換是一個稱為步驟的邏輯任務網絡。轉換本質上是數據流。在下面的示例中,數據庫開發人員創建了一個轉換,該轉換讀取平面文件、篩選、排序并將其加載到關系數據庫表中。假設數據庫開發人員檢測到一個錯誤條件,并沒有將數據發送到一個虛擬步驟(它什么也不做),而是將數據記錄回一個表。本質上,轉換是一組邏輯數據轉換配置的有向圖。轉換文件名的擴展名是.ktr。

轉換圖

與轉換相關的兩個主要組件是步驟和躍點:

步驟是轉換的構建塊,例如文本文件輸入或表輸出。Pentaho數據集成的步驟很多,按照功能進行分組;例如,輸入、輸出、腳本等等。轉換中的每個步驟都被設計為執行特定的任務,例如從平面文件讀取數據、過濾行和記錄到數據庫,如上面的示例所示。您可以通過將步驟從Design選項卡拖放到畫布上或雙擊該步驟來添加該步驟。可以配置步驟來執行所需的任務。 躍點是連接步驟并允許元數據從一個步驟傳遞到另一個步驟的數據通道。在上面的圖像中,似乎有一個連續的執行發生。然而,事實并非如此。躍點決定了數據流通過的步驟,而不一定是它們運行的順序。當您運行轉換時,每個步驟在自己的線程中啟動并推送和傳遞數據。

注意:轉換中的所有步驟都是并行啟動和運行的,因此初始化順序是不可預測的。例如,這就是為什么您不能在第一步設置變量并嘗試在后續步驟中使用該變量的原因。

您可以將步驟連接在一起,編輯步驟,并通過單擊編輯步驟打開步驟上下文菜單。

步驟

一個步驟可以有許多連接。有些步驟將其他步驟連接在一起,而有些則作為另一個步驟的輸入或輸出。數據流通過步驟流到轉換中的各個步驟。躍點用勺子表示為箭頭。跳點允許數據從一個步驟傳遞到另一個步驟,也決定了數據通過這些步驟的方向和流程。如果一個步驟向多個步驟發送輸出,則數據可以復制到每個步驟,也可以在它們之間分布。

作業

作業是類似工作流的模型,用于協調資源、執行和ETL活動的依賴關系。

作業將各個功能塊聚合在一起,以實現整個流程。在作業中執行的常見任務包括獲取FTP文件、檢查條件(如是否存在必要的目標數據庫表)、運行填充該表的轉換以及在轉換失敗時通過電子郵件發送錯誤日志。例如,最后的作業結果可能是每晚的倉庫更新。

作業條目是如上例所示的單獨配置的部分,它們是工作的主要組成部分。在數據轉換中,這些單獨的部分稱為步驟。作業條目可以為您提供廣泛的功能,從執行轉換到從Web服務器獲取文件。一個作業條目可以多次放置在畫布上;例如,您可以使用不同的配置將單個作業條目(如轉換運行)多次放置在畫布上。作業設置是控制作業行為的選項和記錄作業操作的方法。作業文件名的擴展名為.kjb。

作業躍點指定執行順序和執行下一個作業條目的條件。您可以通過右鍵單擊作業躍點來指定評估模式。作業躍點只是一種控制流程。跳轉到作業條目的鏈接,并基于上一個作業條目的結果,確定接下來發生的事情。

注意:躍點在作業中使用時與在轉換中使用時的行為不同。

下面指定了作業躍點條件:

Unconditional:指定將執行下一個作業項,而與原始作業項的結果無關。

Follow when result is true:指定只有在原始作業輸入的結果為true時才執行下一個作業輸入。這意味著成功執行,如找到文件、找到表、沒有錯誤,等等。

Follow when result is false:指定僅當原始作業項的結果為false時才執行下一個作業項,即執行失敗、文件未找到、表未找到、出現錯誤等等。

躍點

躍點將一個轉換步驟或作業條目與另一個連接起來。數據流的方向由箭頭表示。要創建躍點,單擊源步驟,然后按SHIFT鍵并在目標步驟上畫一條線。或者,您可以通過將鼠標懸停在一個步驟上,直到鼠標懸停菜單出現來繪制跳躍。從源步驟拖動躍點畫師圖標到目標步驟。

繪制躍點

創建躍點的其他方法包括:

單擊源步驟按住鼠標中鍵,拖動跳轉到目標的步驟。使用CTRL和左鍵單擊選擇兩個步驟,右鍵單擊步驟并選擇New Hop。

要分割一個躍點,需要在兩個躍點之間插入一個新步驟,方法是在一個躍點上拖動該步驟。確認您要分割躍點。此特性僅適用于尚未連接到另一個步驟的步驟。

在轉換中不允許使用循環,因為Spoon在很大程度上依賴于前面的步驟來確定從一個步驟傳遞到另一個步驟的字段值。在轉換中允許循環可能會導致無盡的循環和其他問題。作業中允許使用循環,因為Spoon是按順序執行作業條條目。但是,請確保您不會創建無盡的循環。

在轉換中不允許混合具有不同布局的行。例如,如果您有兩個使用不同數量字段的表輸入步驟。混合行布局會導致步驟失敗,因為無法在預期的位置找到字段或意外數據類型變化。如果一個步驟正在接收混合布局,陷阱探測器將在設計時顯示警告。

您可以指定是否可以復制、分發數據,或者在離開一個步驟的多個躍點之間進行負載平衡。選擇步驟,右鍵單擊并選擇數據移動。

分割躍點

可以啟用或禁用躍點(例如為了測試目的)。右鍵單擊跳轉以顯示選項菜單。

PDI客戶端選項

PDI客戶端允許您自定義其行為的某些方面。要訪問選項,請選擇Tools>Options。下面介紹了處理轉換和作業的常規選項卡:

Preview data batch size:設置預覽數據緩沖區的批處理大小。在預覽數據時,此選項設置用于這些值的緩沖區大小。

Max number of lines in the logging windows:指定日志窗口中顯示的最大行限制。

Central log line store timeout in minutes:設置中央日志行存儲超時之前的分鐘數

Max number of lines in the log history:設置在日志歷史記錄視圖中顯示限制的最大行數。

Show welcome page at startup:控制在啟動PDI客戶端時是否顯示歡迎頁。

Use database cache:PDI客戶端緩存存儲在源和目標數據庫上的信息。在某些情況下,當您更改數據庫時,緩存會導致不正確的結果。為了防止錯誤,您可以完全禁用緩存,而不是每次都清除緩存。

Open last file at startup:自動從XML或存儲庫加載您使用(打開或保存)的最后一個轉換。

Autosave changed files:在運行前自動保存已更改的轉換。

Only show the active file in the main tree:通過只顯示當前活動的文件,減少左側主樹中的轉換和作業項的數量。

Only save used connections to XML:將轉換的XML導出限制為該轉換中使用的連接。這在交換示例轉換時很有幫助,以避免包含所有已定義的連接。

Replace existing objects on open/import:在導入期間替換對象,例如現有數據庫連接。如果還檢查了替換對象之前的詢問,則會在導入發生之前提示您。在替換對象之前請求權限(如導入期間的現有數據庫連接)。

Ask before replacing objects:在替換對象之前請求權限(如導入期間的現有數據庫連接)。

Show Save dialog:當轉換被更改時,允許您關閉收到的確認對話框。

Automatically split hops:禁用在分割躍點時啟動的確認消息。

Show Copy or Distribute dialog:禁用將步驟鏈接到多個輸出時出現的警告消息。此警告消息描述了處理多個輸出的兩個選項:

Distribute rows:目標步驟依次接收行(循環調度)。Copy rows:所有行被發送到所有目的地。

Show repository dialog at startup:控制在啟動時是否顯示Repository對話框。

Ask user when exiting:控制當用戶選擇退出應用程序時是否顯示確認對話框。

Clear custom parameters (steps/plugins):清除在插件或步驟對話框中設置的所有參數和標志。

Auto collapse palette tree:設置面板樹是否應該自動折疊。

Display tooltips:控制是否顯示主工具欄上按鈕的工具提示。

Show help tooltips:顯示幫助工具提示。工具提示是當您將鼠標指針懸停在PDI客戶機中的一個對象上時出現的簡短描述。

創建轉換

在Data Integration視圖中,您可以創建轉換、使用轉換并檢查轉換中的數據。

創建轉換

按照以下說明創建您的轉換:

執行下列操作之一:點擊File>New>Transformation;單擊工具欄中的New file 圖標并選擇Transformation;按住CTRL+N鍵。轉到Design選項卡。展開文件夾或使用步驟字段搜索特定的步驟。拖動或雙擊一個步驟將其放置在PDI客戶端畫布上。雙擊PDI客戶端畫布中的步驟以打開其properties窗口。要獲得關于填寫窗口的幫助,請單擊每個步驟中可用的help按鈕。要添加另一個步驟,可以拖動或雙擊Design選項卡中的步驟,將其放置在PDI客戶機畫布上。如果您將步驟拖到畫布上,您可以通過按SHIFT鍵并從一個步驟繪制到另一個步驟的跳轉來添加一個躍點;如果雙擊該步驟,則該步驟將在畫布上顯示,并帶有一個已經連接到上一步的躍點。

在您創建轉換之后,您必須先保存轉換,然后才能運行它。

使用轉換

您可以保存、打開和運行轉換。

檢查數據

您還可以獲得對數據的有價值的見解。

創建作業

在Data Integration視圖中,您可以創建和使用作業。

創建作業

按照以下說明創建您的作業:

執行下列操作之一:點擊File>New>Job;單擊工具欄中的New file 圖標并選擇Job;按住CTRL+ALT+N鍵。轉到Design選項卡。展開文件夾或使用條目字段搜索特定的條目。拖動或雙擊一個條目,將其放置在PDI客戶端畫布上。雙擊該條目以打開其properties窗口。要獲得關于填寫窗口的幫助,請單擊每個條目中可用的Help按鈕。要添加另一個條目,可以拖動或雙擊該條目,將其放置在PDI客戶機畫布上。如果您將條目拖動到畫布上,您可以通過按SHIFT鍵并從一個條目繪制一個跳轉到另一個條目來添加一個躍點;如果您雙擊它,該條目就會出現在畫布上,并帶有一個已經連接到前一個條目的躍點。

完成后,保存作業。

使用作業

您可以保存、打開和運行作業。

向轉換和作業添加注釋

向轉換和作業添加和管理注釋。

適配應執行層

Pentaho使用適配執行層(AEL)來運行不同引擎的轉換。AEL將從您在PDI中開發的轉換步驟調整為您環境選擇引擎中的本地操作符,例如Hadoop集群中的AEL- spark。AEL-Spark引擎更適合在Hadoop集群中運行大數據轉換。

當您選擇AEL-Spark引擎來運行轉換時,AEL將轉換中的步驟匹配到Spark引擎中的本地操作符。例如,如果您的轉換包含一個Hadoop文件輸入步驟,那么AEL將使用一個等效的Spark操作符。AEL為Spark構建了一個轉換定義,它將執行直接轉移到集群,利用Spark在多個節點上協調大量數據的能力。

AEL在使用的Spark引擎前必須配置。配置之后,您可以通過運行配置選擇Spark引擎。

虛擬文件系統

您可以使用虛擬文件系統(VFS)連接來代替傳統的本地文件系統窗口,通過一些轉換步驟和作業條目來訪問文件。

日志記錄和性能監視

配置日志記錄以監視轉換或作業性能。

責任編輯:

標簽:

相關推薦:

精彩放送:

新聞聚焦
Top 主站蜘蛛池模板: 德保县| 鄂伦春自治旗| 共和县| 蒙山县| 扎赉特旗| 林周县| 崇左市| 关岭| 南陵县| 玛沁县| 华坪县| 湾仔区| 比如县| 安新县| 通渭县| 堆龙德庆县| 嘉善县| 吉隆县| 白山市| 米易县| 榕江县| 育儿| 龙岩市| 五指山市| 五原县| 绵竹市| 文化| 特克斯县| 安徽省| 奈曼旗| 河间市| 札达县| 湘乡市| 宁城县| 三原县| 东山县| 连平县| 抚松县| 山丹县| 二连浩特市| 哈巴河县|