3d左右滑動切換頁面代碼(3d左右模式)
計算機圖形學(xué)要追求“更高、更快、更強”
編者按:VR(Virtual Reality)技術(shù)的應(yīng)用給人們搭建了一個精彩的虛擬世界,進階版的AR(Augument Reality)技術(shù)將真實世界信息和虛擬世界信息“無縫”集成,微軟早前發(fā)布的HoloLens更顛覆了許多人的“視”界。面對不斷更迭的科技浪潮,我們不禁好奇,在過去十幾年里,計算機圖形學(xué)到底發(fā)生了什么變化?當(dāng)前火熱的AR、VR又對圖形學(xué)提出了哪些新的要求?
本文中,微軟亞洲研究院網(wǎng)絡(luò)圖形組首席研究員童欣從多方面展現(xiàn)計算機圖形學(xué)的研究和發(fā)展情況,并對VR/AR技術(shù)的發(fā)展與當(dāng)前瓶頸做出了詳細解說。本文由雷鋒網(wǎng)授權(quán)轉(zhuǎn)載。
今天,電影已成為我們?nèi)粘I願蕵返囊徊糠?。從無聲到有聲,從黑白到彩色,從樸實的實景到炫目的特效,無疑,今天的電影畫面越來越好看,這背后自然離不開技術(shù)的發(fā)展。
11 月 16 日,ICEVE 2017 北京國際先進影像大會在北京電影學(xué)院召開,除了“影像作品”本身,這場大會更加關(guān)注與影像作品密不可分的前沿技術(shù)。微軟亞洲研究院網(wǎng)絡(luò)圖形組首席研究員童欣參加了這次活動,并接受了雷鋒網(wǎng)的專訪,在采訪中,他對計算機圖形學(xué)的發(fā)展問題提出了自己的見解。
童欣在ICEVE 2017 活動現(xiàn)場
Q1:您能介紹下近幾年的一些研究方向嗎?
童欣:我們在微軟亞洲研究院屬于網(wǎng)絡(luò)圖形組(Internet Graphics)。研究的方向主要集中在內(nèi)容生成和交互方面。
內(nèi)容生成是指如何幫助用戶快速高效地生成高質(zhì)量的可視內(nèi)容,核心包括三維內(nèi)容,展示方式是圖像、視頻,圍繞這些做一系列的工作,如材質(zhì)建模、形狀建模、動畫生成等。
另一方面研究集中在人機交互、AR和VR方面,VR/AR中自然地人機交互,比如,識別和捕捉對方人臉的動作,幫助用戶生成Avatar,手勢的自動生成,通過人體運動手段進行捕捉、重建,有了這些就可以方便用戶做識別和交互。
另外,是針對三維打印,軟體機器人方面的研究,這是圖形學(xué)的另外一個重要的應(yīng)用。生成虛擬的內(nèi)容后,現(xiàn)在隨著3D打印技術(shù)的進步,人們希望通過圖形學(xué)的手段把一些虛擬的東西,通過制造返回到真實的世界里,這就涉及到機器人相關(guān)、3D打印相關(guān)技術(shù)的前沿性研究。
展開全文
Q2:研究成果有哪些?如何跟微軟其他產(chǎn)品部門合作?
童欣:我們圖形組自成立以來,和微軟產(chǎn)品組一直有密切的合作。像以前Xbox和Direct3D中的渲染技術(shù)、建模技術(shù)、紋理映射技術(shù)很多都來自我們組的研究成果。圖形系統(tǒng)方面,比如這代Xbox游戲主機可以兼容上一代所有的游戲 ,這里面所涉及的圖形系統(tǒng)相關(guān)的技術(shù)都來自我們組。
跟產(chǎn)品部門的合作主要通過兩種方式進行,一是把我們最新的研究方向和研究成果展示給他們看,希望這些技術(shù)對產(chǎn)品的研發(fā)有一些啟發(fā),能給他們帶來新的應(yīng)用和場景;另一方面,他們也會把他們在產(chǎn)品開發(fā)中遇到的一些技術(shù)問題,反饋給我們,我們會根據(jù)這些問題做些特定的技術(shù)研究,幫助產(chǎn)品組把產(chǎn)品做的更好。
Q3:您平時關(guān)注電影特效嗎?現(xiàn)在的電影畫面有什么大的變化?
童欣:一部新的動畫電影出來了,除了欣賞精彩的故事,我也會看看電影中所包含的技術(shù)的相關(guān)分析文章。另外像SIGGRAPH這樣的行業(yè)會議上,做了新電影的人,都會到會上做很多專題的報告,分享他們解決了哪些技術(shù)問題,應(yīng)用了哪些新的技術(shù)。
跟十幾年前相比,CG在電影制作中已經(jīng)無處不在了,在十幾年前的電影中如果有個CG,就是大制作,現(xiàn)在你很難找到?jīng)]有CG的電影了,電視劇特效做的也非常普遍了。
這些特效,有些會呈現(xiàn)出奇幻的效果,還有一些可能你根本看不出來,會以為是實景。通過一些圖形學(xué)的技術(shù),把虛擬和真實結(jié)合在一起,這些東西從觀影角度已經(jīng)看不出來了。
同時,特效可以減少拍攝的成本,有些很真實的場景,拍攝難度很大,像馴服一只老虎,現(xiàn)在用計算機技術(shù),可以讓老虎看起來跟真實的一樣。
Q4:您從業(yè)的十幾年中,計算機圖形學(xué)學(xué)科有什么變化嗎?
童欣:計算機圖形學(xué)是個變化很快的學(xué)科,是和應(yīng)用結(jié)合較緊密的學(xué)科,同時也是比較開放的學(xué)科。在圖形學(xué)里,十年前就在討論的核心技術(shù)問題,今天也在討論,但同時應(yīng)用和關(guān)注的熱點一直都在擴展,發(fā)生變化。
對于研究圖形學(xué)的人來說,任何跟可視相關(guān)的內(nèi)容,我們都會視為研究方向的一部分,但隨著一些方向慢慢成熟,又會從圖形學(xué)中分離出去。可視化技術(shù)、計算機輔助制造、虛擬現(xiàn)實,這些都是圖形學(xué)催生出來又逐漸分化出去的。而圖形學(xué)自己又在尋找新的發(fā)展方向。
Q5:VR/AR對圖形學(xué)提出哪些新的要求?
童欣:VR/AR對圖形的渲染速度、圖形質(zhì)量有很高的要求。設(shè)備從一個像電影院這樣專門場所放映,到隨著VR設(shè)備普及,恨不得人手一個。這意味著應(yīng)用場景更大,我們對內(nèi)容制作的成本、時間、效率有更多的要求。不光是質(zhì)量上,速度和效率上也會有很多的挑戰(zhàn)。另一方面,當(dāng)我們在VR/AR環(huán)境中,提供了不同的體驗形式,這對交互也提出了很多挑戰(zhàn)。
Q6:您是如何看待現(xiàn)有的手勢識別技術(shù)的?為什么現(xiàn)在還無法大規(guī)模使用?
童欣:手勢識別是非常具有挑戰(zhàn)性的問題,即使到目前也沒有人敢說,實時三維手勢跟蹤完全解決掉了。即使基于深度攝像頭,一個非常魯棒的手勢識別和跟蹤系統(tǒng),到目前還是一個挑戰(zhàn)性的問題。大家也沒有非常魯棒的方案,這就是為什么大家在市面上看不到手勢識別被大規(guī)模使用。
這里面又幾個問題。從輸入狀態(tài)上說當(dāng)我們有鼠標(biāo)和鍵盤的時候,我們可以清楚的分清輸入狀態(tài)和非輸入狀態(tài),比如說鍵盤當(dāng)我們不敲擊它,是非輸入狀態(tài)。對手勢而言,什么時候是輸入,什么時候是非輸入,很難區(qū)分。因為我的手勢時時在做,假設(shè)我還戴著AR眼鏡,我怎么讓設(shè)備知道,我是對設(shè)備做的手勢,還是對你做的手勢。手勢沒有一個狀態(tài)去劃分,從邏輯上講,要把這個問題先解決掉。
語音的交互也面臨同樣的問題。所以我們看到,大家會給智能語音音響起個名字,這個名字就是為了讓你切換輸入狀態(tài)。當(dāng)我們?nèi)ソ羞@個音箱的時候,音箱知道,這句話后面是輸入命令。你平常講話的時候,它就不會記錄了,因為不是針對它講的輸入命令。
從效率上講,我們在科幻電影中看到的手勢識別非常漂亮,但是如果你去問問人機交互的專家,他們就會告訴你,如果你讓一個人做這樣的交互,沒有人能堅持十分鐘以上,就是說對很多場景,這不是一種非常自然的輸入方式。
鼠標(biāo)和鍵盤被發(fā)明出來,一個方面原因你可以說是因為不自然,需要學(xué)習(xí),一旦你習(xí)得后,它的效率是非常高的。比如說游戲控制器,你只需要通過一個很小的運動,就可以在虛擬世界中有很大的運動,這個在實際的手勢中很難做到。
最后,當(dāng)我手握手柄的時候,手柄不僅是一個輸入設(shè)備,同時也是輸出設(shè)備,它可以通過震動、力反饋給我一個輸出的反饋,當(dāng)我手在空氣中揮舞的時候,我一個輸出的渠道就消失了。
所以,我們要等到技術(shù)成熟,然后找到手勢識別和手勢驅(qū)動最有效的應(yīng)用場景,解決了里面的命令定義的問題,那么手勢識別才能得到使用。手部識別如果只是識別雙手的位置,這個技術(shù)是比較成熟的,但你想想如果識別手部每個手指的姿態(tài),這還是比較難的。
Q7:為什么對手部的實時追蹤這么難?
童欣:人手姿勢和關(guān)節(jié)的自由度是非常高的,雙手可以做各種各樣的手勢,再加上手臂的動作,自由度非常高,姿態(tài)空間非常大。
一個攝像頭的話,遮擋會非常的厲害,人臉可以認為是扁平的東西,手卻不是,手隨便做些姿勢,大拇指可能就看不見了,但我需要知道大拇指在哪 。這是手勢實時追蹤面臨的兩個挑戰(zhàn),姿態(tài)豐富,同時遮擋嚴重,這意味著你需要推測其他手指的狀態(tài),這也是很難的。這就需要機器學(xué)習(xí)的技術(shù)。
你可以想想人是怎么做的,不僅通過手勢,還要看你是不是沖著我,我們幾個人說話,你可能給我做一個手勢,我怎么知道這個手勢是對著我做的呢?
首先,我要有上下文,保持手勢在上下文中是可以被理解的,認為這個手勢是對我做的;第二,我要看整個人的狀態(tài),你沖著我嗎?這個手勢是不是對著我做的,對著我做手勢時,你可能還有其他相應(yīng)的肢體動作來表達這個動作是不是對我做的。
我們?nèi)耸怯幸惶走@樣的東西,那么機器需要從人這邊考慮這樣的場景,需要很多對上下文場景的識別,最后來做到正常的識別。同時,由于沒有清晰的定義這是輸入狀態(tài),還是非輸入狀態(tài),機器需要自動判定,什么時候是輸入,什么時候停止輸入。這是非常難的問題。
自然交互,本質(zhì)上來講是非常難的問題,做識別是第一步,真正做到好用自然,讓大家用起來沒有障礙,還有比較長的路要走。
Q8:如何看待VR/AR對人機交互的新需求?
童欣:VR/AR模擬的是真實三維環(huán)境中的交互,視野被覆蓋了,看不見鼠標(biāo)和鍵盤。輸入的內(nèi)容,不是文本,不是在二維界面上操作,你要在虛擬的三維環(huán)境中漫游,這些需求要有新的交互手段,不一定是手勢,但需要有新的交互方式。
大家之所以這么沉迷于做VR/AR,很重要的原因是我們生活的世界是三維的,我們有需求重現(xiàn)三維世界,或者創(chuàng)造一個虛擬的三維世界,這是來自人的本能的需求。
虛擬的三維,或者在真實世界中疊加的三維,決定了你必須創(chuàng)造出三維的內(nèi)容,因為我的視野隨時在變,我的光照隨時在變,我和物體隨時在交互,狀態(tài)隨時在變,傳統(tǒng)的視頻也好,圖像也好,解決不了這個問題,只有三維的圖像能解決這樣的問題。這也是為什么三維內(nèi)容的生成,在VR/AR中變得很關(guān)鍵的原因。
三維內(nèi)容生產(chǎn)本身一直是一個瓶頸問題,我們很多行業(yè)需要三維內(nèi)容,但只有專業(yè)人員才能把很多行業(yè)的內(nèi)容變成三維內(nèi)容,這個瓶頸就產(chǎn)生了,這需要技術(shù)的進步。
Q9:對現(xiàn)在AR的發(fā)展是怎么看的?
童欣:AR可以想的更廣泛一些,我們手機也好,耳機也好,都是AR,當(dāng)你走在街上戴著耳機聽歌的時候,這就是AR。在真實環(huán)境里,你聽到的是別人虛擬唱的歌曲, AR一直在,一直有需求,不過是從文字,聽覺,慢慢變成視覺。把原來虛擬世界的信息和真實世界的信息結(jié)合,本來你的信息是有真實世界的意義的,把它返回到真實世界中,用統(tǒng)一的界面呈現(xiàn)給你,這是最關(guān)鍵的。
Q10:AR和AI是怎樣的關(guān)系?
童欣:AR和AI是密不可分的。在AR 中一個關(guān)鍵是內(nèi)容生成。另外一個關(guān)鍵是全新的交互方式和體驗方式。
所謂交互,既要有輸入,也要有輸出。輸入就意味著,我們AR設(shè)備要對周圍的環(huán)境有感知和認知,這個感知和認知就是AI研究中很重要的技術(shù)。輸出,靠圖形,輸入要靠很多計算機視覺的技術(shù),一起來做,最后結(jié)合起來,才能成就AR這件事情。
Q11:計算機圖形學(xué)還有哪些需要解決的難題?
童欣:我們有句跟奧林匹克一樣的口號“更高、更快、更強”。大家對三維內(nèi)容的需求永遠高于我們的計算能力。
現(xiàn)在,我們的實時顯示達到 30 幀/每秒,那你看看從最早計算機上有圖形顯卡,到現(xiàn)在,顯卡的能力翻了不止百倍,甚至上千倍,我們的顯示速率還是 30 幀/每秒,那我們變得是什么? 是顯示內(nèi)容,真實感有了巨大的進步,但即使這樣跟我們真實場景的差別,大家還是能看出來的。一個計算機繪制出來的圖像,和一個真實照片,我相信大家還是能一眼看出其中的差別。
我們實時繪制的場景和一個照片相比,這里面有巨大的鴻溝。更不用說我們內(nèi)容生成的效率,生成高質(zhì)量的內(nèi)容。
從更高層面講,當(dāng)我們的客戶有一些意圖的時候,如何快速有效地把客戶模糊的創(chuàng)作意圖轉(zhuǎn)變成為具體的內(nèi)容,這件事本身也是非常難的。
后記:
去年,童欣對媒體曾預(yù)測AR發(fā)展的速度會超過VR,此次采訪,當(dāng)被問道關(guān)于目前手機AR的發(fā)展時,他認為這是很自然的現(xiàn)象,不管是手機AR,還是AR眼鏡,每種形式都有自己應(yīng)用的場景和需求。最開始大家會做不同的嘗試,這些嘗試要交給市場和用戶檢驗,其中一定會淘汰一些,最后留下來真正有需求的應(yīng)用。
人物介紹
童欣:1993年畢業(yè)于浙江大學(xué)計算機系,獲工學(xué)學(xué)士學(xué)位;1996年獲浙江大學(xué)計算機系碩士學(xué)位;1999年獲清華大學(xué)計算機系博士學(xué)位,同年加入微軟亞洲研究院。目前為微軟亞洲研究院網(wǎng)絡(luò)圖形組首席研究員,主要從事計算機圖形學(xué)方面的研究。
掃描二維碼推送至手機訪問。
版權(quán)聲明:本文由飛速云SEO網(wǎng)絡(luò)優(yōu)化推廣發(fā)布,如需轉(zhuǎn)載請注明出處。