三分鐘快速搭建流式處理應用!簡單實用的分布式大數據處理框架,特點是零基礎操作,支持批處理和流式處理。
軟件架構
項目目前由core、xmlbuilder、JSONbuilder、Spark1、spark2、flink1和client七個模塊組成。
- core模塊封裝了各個部分的抽象組件。
- xmlbuilder和jsonbuilder模塊是以xml或json解析為執行配置來源的讀取模塊。
- spark1、spark2和flink1模塊為大數據引擎模塊,目前spark1模塊開發比較完整,是基于spark1.6版本。
- client模塊是客戶端調用模塊。
Magnet提供統一的配置接口,隻需要配置一次就可以在任何引擎上處理大數據,真正做到“ 一次編寫,到處執行 ”的效果。項目具備優秀的可擴展性,設計良好的接口可以兼容任何大數據引擎。架構圖中藍色部分為框架的核心模塊,非藍色部分均為可擴展模塊。你可以擴展配置文件的格式,可以是xml配置、json配置或自定義格式;你也可以擴展大數據處理引擎,Spark、Flink、Hive、Kafka或MapReduce;你也可以擴展各種标簽組件;你還可以擴展每個标簽組件的包裝wrapper,用于處理每個标簽組件的前置和後置操作。
使用說明文檔獲取方式:關注轉發之後私信回複【源碼】即可免費獲取
- 介紹
- 快速入門
- 配置文件結構
- 使用IDEA打包項目
- 在yarn上運行Magnet
- parameter參數标簽
- fragment碎片标簽
- datasource數據源标簽
datasource數據源概述讀取複雜JSON數據
- workflow工作流标簽
SQL标簽filter标簽distinct标簽output标簽valueMappers标簽splitFieldToRows标簽stringCuts标簽addFields标簽addSequence标簽rownum标簽
- 開發指南
框架結構介紹擴展新處理引擎擴展新标簽
項目源碼獲取方式:關注轉發之後私信回複【源碼】即可免費獲取
,