首頁科技 > 正文

專訪英特爾戴金權|AI和大資料正在這樣重塑英特爾

2021-07-24由 量子位 發表于 科技

允中 發自 凹非寺 量子位 報道 | 公眾號 QbitAI

漢堡也能用大資料賣?

沒錯,而且可以賣得更好。

專訪英特爾戴金權|AI和大資料正在這樣重塑英特爾

漢堡王就正在展開這樣的實踐,在他們的選單顯示屏,可以基於使用者的點餐行為、背景資訊,給出個性化推薦。

而且還能結合時間、地點、氣候等因素……使用者下單更省心,賣家業績還更好。

懂技術的朋友或許早已看穿,背後必然有

 Transformer

模型加持,但可能意料之外的是,實現消費級商用的精準推薦,漢堡王這套系統不光是單純套用。

Transformer Cross Transformer(TxT),這是漢堡王推薦系統背後的核心模型技術。

此外,這套模型系統還是拿來就用的那種。

因為替漢堡王打造這套模型的,是一個名為

 Analytics Zoo

的端到端平臺,而這個端到端平臺的打造者,是不常出現在

 “軟體”

新聞裡的

 英特爾

但隨著AI浪潮深入、資料和軟體演算法當紅,這家過去以硬體奪目的公司,  軟  的那一面開始被更多注目。

而且這一面的代表人物,還是一位中國技術專家:

戴金權

,英特爾Fellow、大資料技術全球CTO,大資料分析和人工智慧創新院院長。

專訪英特爾戴金權|AI和大資料正在這樣重塑英特爾

以及兩大知名機器學習平臺

 BigDL

 Analytics Zoo

的專案創始人。

但在戴院長看來,軟體硬體只是技術的不同形式承載,背後更本質的趨勢是  資料  。

在量子位專訪中,他還強調,在AI和5G作用力之下,資料洪流所至,軟體在變,硬體更開放,過去按照軟硬劃分的疆界格局,變化已再明顯不過。

英特爾的軟實力

戴金權院長從大資料領域來舉例。

他說英特爾在該領域的研發投入,核心是源自需求的驅動。

分為三個階段:

第一階段:儲存和處理資料。

第二階段:查詢和分析資料,並且對於時延的要求越來越高,最終需要的是

 實時查詢和分析

第三階段:預測和推薦。

戴院長說,特別是在大資料平臺上進行各種機器學習、深度學習的資料建模和預測,成為了當前非常重要的技術和應用方向。

而從產業應用上看,消費網際網路領域,沒有哪家網際網路公司不在強化預測和推薦方面的能力。產業網際網路一側,也在追求更多業務數字化之後,能夠展現預測和推薦之力。

比如一開始提到的漢堡王。

所以對於英特爾而言,在此基礎上希望高舉高打,提供一個大資料統一應用平臺。

這種思路之下,誕生了

 BigDL

 Analytics Zoo

專訪英特爾戴金權|AI和大資料正在這樣重塑英特爾

特別是Analytics Zoo,作為開源大資料AI軟體平臺,核心要解決的就是幫助使用者將機器學習或深度學習等演算法模型,直接在分散式大資料平臺上執行,而且可以做到無縫擴充套件。

沒有這樣的平臺,路徑就會曲折得多。

通常情況下,會先建立一個分離架構,並以大資料叢集的方式訪問和處理資料湖資料。

大資料叢集處理之後,還可能需要深度學習叢集把儲存系統中的資料讀取出來,再進行深度學習或機器學習處理。

那Analytics Zoo能帶來什麼不同?

可以提供一個統一架構來支援端到端AI流水線。

使用者的資料還是儲存在資料湖、資料倉庫當中,可以執行在K8S上或Hadoop叢集上,或者部分使用者在雲裡面可能有幾臺虛擬機器例項,就可以有一個叢集,在這個叢集上利用Analytics Zoo就可以把基於Spark的大資料分析和基於TensorFlow、PyTorch、BigDL或OpenVINO等這樣的深度學習框架直接統一在一個架構中。

整個流程裡,一方面可以可以大大減少中間資料傳輸的開銷。

另一方面還能提升開發、部署和處理的整體效率。

這種效率的提升,戴金權引用了浪潮的實踐效率——

以前可能需要

 幾個季度

才能開發完的一個應用,現在只需要

 兩三個月

就可以了。

端到端的開發效率,顯著大幅提升。

而這種開發效率提升,在當前技術發展趨勢下,戴金權認為更加關鍵。

一方面是無論是5G還是AI,相關行業中的需求使資料呈現指數級增長。

另一方面,統一的大資料和AI處理分析,是下一個十年的關鍵性應用需求。

所以理解了這種對於未來確實的判斷,也就能看懂當前英特爾正在呈現的變化。

這家以硬體知名的巨頭,正在從硬體、軟體和整個生態層面,提供大資料、機器學習和深度學習方面的長期支援。

更加概括地來說,

 軟體和硬體不本質,本質的是如何處理、分析和使用資料。

而基於資料出發的本質認知,自然能理解英特爾何以越來越多元、開放和無處不在。

專訪英特爾戴金權|AI和大資料正在這樣重塑英特爾

專訪戴金權院長

量子位:

大資料和AI,給英特爾帶來的變化是什麼?

戴金權:

英特爾很早就開始投入大資料領域研發,比如跟UC伯克利基於Apache Spark,進行了許多技術開發和應用合作。

到後來隨著大資料的發展,我們明確了趨勢:從一開始的擴充套件、處理大量資料,到如何進行分析,再到如何在上面進行機器學習和深度學習的建模和預測未來。

我認為這和AI發展的趨勢也非常吻合。如果說現在AI有什麼趨勢?我覺得是AI變得無處不在。

可能開始是在一些網際網路公司,或者一家自動駕駛公司會使用大量AI技術……

但是今天不管餐飲行業還是電信運營商以及製造業,他們越來越多希望把AI用到各種各樣的應用場景中,所以AI從實驗室就慢慢進入了生產環節。

在實驗室中,很多時候大家關心的是用各種各樣的方法提高資料集上模型的準確率。

量子位:

AI在現實場景應用中會有什麼挑戰?

戴金權:

挑戰會很多,比如最直觀的大資料。現實環境中的資料量非常大,這就需要和現有生產資料結合。

我們曾經和一家大型網際網路公司合作,他們有很多AI研究員開發了AI模型後,想把其模型在生產資料上執行。

但是後來他們發現生產資料都在大資料系統中,他們根本不知道如何把AI執行在那些大資料上,於是就做資料複製,把資料從一個叢集複製到另外一個叢集。

很多時候我們需要跨資料中心的複製,那麼如何直接應用AI並將其擴充套件到相應大資料平臺上是一個很大挑戰。

量子位:

這也是為什麼會有Analytics Zoo這樣的平臺?

戴金權:

對,端到端的流水線非常重要。

並非只有一個AI模型,比如對模型進行訓練或者推理時,經常出現很長的端到端鏈路,包括資料匯入、資料處理、特徵提取、特徵轉換等。如何使端到端流水線更有效率也是很重要的因素。

當然,還有針對各種各樣的AI應用,如何使這些智慧計算支撐上層AI應用場景。

量子位:

所以英特爾開源開放一面越來越被關注。

戴金權:

英特爾其實做了非常多開源的工作,比如在Linux作業系統、虛擬化方面。

在大資料方面也是如此,我們基於大資料AI開源軟體生態做了非常多工作,英特爾在 開源社群 做了非常大的投入,目標是能夠將開源軟體應用在整個生態系統中,使用應用或技術得到很大提升。

比如當英特爾和加州大學伯克利分校開始合作的時候, Spark 只是他們的一個博士專案,我們共同做了很多開源和開發,最終Spark成為了一個Apache軟體基金會頂級開源專案。

包括在AI方面,在PyTorch、TensorFlow各個開源框架中的最佳化,以及我們構建的BigDL、Analytics Zoo開源平臺,英特爾一直希望透過開源的工作推動整個大資料和AI的生態建設。

量子位:

這個過程中,會有什麼其他收穫嗎?

戴金權:

我們會和很多使用者合作或互動,也會更加關注如何將下一代的技術發展趨勢和技術方向融合到軟體平臺中來。

福特曾經說,“如果問我們的使用者想要什麼,他們永遠說想要更快的馬車。但事實上他們要的是汽車。”

其實也是一樣的道理,我們會和很多使用者合作,當我們在做Apache Hadoop的時候,使用者提了很高要求,他們說需要更快的 Hadoop ,你們需要把它最佳化的更好。

但是我們意識到他們要的是類似Spark這樣的下一代大資料處理分析引擎,因為它能透過新技術、新架構解決其現有問題,而非在現有平臺上進行最佳化。

而我們在做BigDL和Analytics Zoo的時候也是如此。我們發現使用者的需求,就考慮如何將AI應用到大規模分散式的大資料場景和平臺中,以幫助其解決問題。

量子位:

現在有一種觀點是AI軟體正在重塑英特爾,你怎麼看?

戴金權:

無論在軟體還是硬體上,英特爾在AI領域都有非常多的工作,AI是英特爾非常重要的方向。

比如我們的XPU、CPU、GPU等,這些是硬體方面的工作。

在軟體方面,我們考慮的是如何提供更好的支援,因為今後的智慧計算肯定是一個超異構的XPU架構。

對於軟體開發者,他們希望有統一的程式設計介面。作為 資料科學家 ,我們並不希望處理不同的硬體。所以我們基於OneAPI這種能夠統一XPU的程式設計模式會做很多工作。

在此之前,我們針對各種硬體平臺以及深度學習、機器學習的庫或框架最佳化也會做很多工作,包括在PyTorch、TensorFlow等領域的各種各樣的最佳化。

我們希望為使用者不同的AI應用場景提供支援,以提高他們端到端的效能效率和開發效率。

包括大資料AI,其實我們的目標就是幫助使用者將端到端的AI流水線打通,使其能夠擴充套件到一個分散式的架構上。

量子位:

效率提升這條主線上,AutoML近年很火。

戴金權:

英特爾有一個工具是做低精度轉換的,在低精度上可以大幅提高效率,但需要大量人工操作才可以達到這個效果……於是我們利用AutoML,利用一個自動化工具把低精度的事情完成。

很多時間序列的應用場景,都可以自動化特徵提取、模型選擇、超參調整等。

量子位:

這其實也是降低AI應用門檻的需求反映,甚至在開發側,大家都在談低程式碼\無程式碼?

戴金權:

還是那句話,不存在一個解決方案可以支援所有場景。

業內會有不同的開發人員,有一些開發人員是硬核開發人員,基於OneAPI這樣的工具,可以幫助他們在底層效能和框架上進行開發。

有一些是資料科學家或資料工程師,他們會基於Python或Java這樣的平臺開發。還有更高層次的分析師,甚至一些人完全不是程式設計人員,比如希望對X光片進行分析的醫生。

這可能需要一些更高層次的應用,可能就不想寫程式碼,或者只是做一些簡單的工作,這是另外一個方向。

英特爾有一些工作會做得比較多,比如OneAPI,或是基於框架、大資料平臺的工作。

我們還有很多合作伙伴,包括在去年年底我們收購了一家專門做超參最佳化的公司叫SigOpt,它是業界對機器學習引數進行自動化最佳化的領先公司,還提供雲服務。

這樣的技術就可以整合到英特爾很多工具裡,進而把很多工作自動化,大幅提高開發效率。

我覺得這個可能在不同層面以及針對不同的受眾、開發人員會提供不同的技術給他們。

量子位:

上面談到的這種滿足需求,是現在英特爾“異構”談得越來越多的原因嗎?

戴金權:

AI有不同的細分市場。有CPU AI、GPU AI、以及各種各樣專用的加速器AI。英特爾有CPU、GPU、加速器(比如Habana方面的工作),也有邊緣和客戶端的一些工作。

其實各自有其更適合的場景,我們希望透過類似OneAPI這樣的軟體,可以將這些不同的超異構硬體結合起來。

比如我們也有可以使用FPGA來進行加速的場景。我們希望利用OneAPI將程式設計模式統一,而且OneAPI本身也是一個工業界的標準,並非英特爾獨有。

除支援英特爾自身的XPU硬體之外,它也可以支援其他硬體。比如有人在上面做ARM的支援等等。

從英特爾角度來說,我們看到的是XPU的超異構架構,不同的GPU、CPU、加速器等,針對不同場景的應用會有更好效果。

我們透過類似OneAPI這樣的軟體平臺不僅能夠幫助使用者輕鬆實現各個硬體平臺的高效率和高效能,還能高效開發跨平臺應用場景。

當你看到整個端到端的AI流水線,不能說它只能在某種場景下工作。CPU AI有CPU AI的優勢,GPU AI有GPU AI的應用場景,加速器AI有加速器AI的應用場景。

量子位:

所以如果從端到端的AI流水線、資料維度來看英特爾,其實軟體方面的努力是容易被忽視的?

戴金權:

我認為,對開發人員或資料科學家來說最看重的是軟體生態,這是英特爾過去幾十年一直在做的,包括我剛剛說的開源軟體以及各種各樣的工作,關鍵就是如何打造一個軟體生態。

比如BigDL更適合的軟體生態是Spark。我是Spark的使用者,很多資料工程師原來用Spark做了非常多資料處理、資料分析甚至機器學習相關工作。採用BigDL這樣的工具可以在Spark大資料生態中實現很高效的開發。

我們研發並推出BigDL,不是說要和 TensorFlow 或者誰競爭,這不是我們的目的。

我們希望針對不同的軟體生態使用者社群可以提供最好的工具給他們,所以在Analytics Zoo當中,我們會把像BigDL、TensorFlow、PyTorch或OpenVINO整合進來,最終幫助使用者解決問題。

我們的目的是採用所需工具解決新問題,也就是如何在大規模、分散式的大資料平臺上更好地擴充套件。

頂部