Hulu整個AI Platform可以分為三層,從上到下依次是AI服務層,ML數據層,基礎架構層。AI服務層主要是用于線上模型管理和部署,涉及到CICD, 監控,負載均衡等服務相關內容。ML數據層則包含了機器學習所用到的數據源,包含經過多個ETL pipeline清洗后生成的用于存放特征的數據倉庫。最底層則是基礎架構層,包括分布式存儲,計算和調度等等,本文重點介紹這一層。

万利棋牌Sophon是Hulu在HOLAP的一個嘗試。Hulu底層查詢引擎采用Impala,前端可視化采用類似MSTR和Tableau這樣的方案,而Sophon則是一個中間件,位于Impala查詢系統和可視化系統之間,起到數據建模、數據緩存和數據路由等功能(具體可查看這篇文章)。本文重點討論數據緩存部分的實現。

万利棋牌Impala是一個SQL on Hadoop的MPP查詢引擎,由Cloudera主導開發并捐獻給Apache軟件基金會,在2017年底正式孵化成為Apache頂級項目。Impala在Hulu的數倉中有很多應用,我們對Impala做了一些內核級別的開發和優化,希望能與大家共同探討。

万利棋牌Spark Streaming是Spark生態系統中的重要組成部分,在實現上復用Spark計算引擎。Spark Streaming的優勢是吞吐量大,響應時間也可以接受(秒級),并且兼容Spark系統中的其他工具庫如MLlib和GraphX。對于時間不敏感且流量很大的系統,Spark Streaming是更優的選擇。

万利棋牌同其他大部分分布式系統一樣,Apache Mesos為了簡化設計,也是采用了master/slave結構,為了解決master單點故障,將master做得盡可能地輕量級,其上面所有的元數 據可以通過各個slave重新注冊而進行重構,故很容易通過zookeeper解決該單點故障問題。本文介紹了同其他大部分分布式系統一樣,Apache Mesos為了簡化設計,也是采用了master/slave結構,為了解決master單點故障,將master做得盡可能地輕量級,其上面所有的元數 據可以通過各個slave重新注冊而進行重構,故很容易通過zookeeper解決該單點故障問題。

在大數據處理場景中,多表Join是非常常見的一類運算。為了便于求解,通常會將多表join問題轉為多個兩表連接問題。兩表Join的實現算法非常多,一般我們會根據兩表的數據特點選取不同的join算法,其中,最常用的兩個算法是map-side join和reduce-side join。本文將介紹如何在apache spark中實現這兩種算法。

万利棋牌-万利棋牌官网 万利棋牌-万利棋牌官网 万利棋牌-万利棋牌官网 菲彩国际_菲彩国际官网_Welcome 菲彩国际_菲彩国际官网_Welcome