WWDC 2023

, ,

設計解析 2023 年 WWDC 之前,覺得有必要先寫點前言。過去觀察 WWDC 通常都是某一個功能,技術進步導引的設計邏輯更新,或是哪些應用場景值得注意等等。但這次發現無法用這種角度解釋,最重要的技術進步當然指向新發表的增強實境頭戴顯示器 Vision Pro

Vision Pro 發表同時,代表的是一個時代的展開,毫不意外我們會談到這個部分,但是比較偏重技術,尤其是感知技術對於設計上的影響。對於一個劃時代的新產品使用到多少感知技術等於複雜度大考驗,所以會比較深入討論一些技術細節。

另外一個部份我想談談有關人工智能(AI)的表現,這部分包含 iOS 應用以及未來展望,以這兩個部分串聯起這次的設計解析。仔細想想這種過硬的內容比較適合有經驗的設計師與開發者,如果只想要知道輕鬆一點知識的話可能會滿失望,當然如果藉此對於現今 Apple 創新有所理解,甚至是指出我的邏輯有任何不足之處,我都非常歡迎討論。

Vision Pro

已知的 Vision Pro 規格已經出現,不用再猜用幾顆鏡頭,或是採用甚麼樣的黑科技,有趣的是,Vision Pro 的硬體邏輯完全不是過去一個平台-硬體-軟體的運作邏輯,像是 Apple Watch 使用自己的晶片-裝置-應用程式,而是完全使用現有科技結果。

讓我們來盤點一下規格,以及過去曾經使用在那些平台:

  • iPhone:Touch ID、MagSafe、LiDAR、
  • Apple Watch:Digital Crown、
  • Apple TV:TV Wall
  • Mac:M2 (Apple Silicon)、
  • AirPods:Touch Control、Head Tracking、Spatial Audio、Mic Array、
  • OS/SW:Keyboard、Guesture、Facetime、Universal Control
  • APP Store:Map、CarPlay、FreeForm、Workout(wellness)、Translation

就會發現這幾年的硬體創新全部用上了,這也是供應鏈大師庫克的傑作,如果不是體積過小,庫克搞不好也會要求跟 iPhone 設計共板(開玩笑的)。Vision Pro 雖然有點組裝感,但想要挑戰人類的邏輯依舊存在,這就是本次發表的最大焦點:空間預算。

Vision Pro 本身希望做到不需要任何控制器,使用虛擬鍵盤、語音與手勢互動就能夠完整空間運算體驗,代表著開發團隊對於 LiDAR 能夠做到的體驗深具信心。但我卻認為這或許有點考驗,尤其是使用者耐心,新科技對於使用者來說,通常是以有趣作為開始,但以過於困難或是無聊結束。我自己使用 VR 頭盔的經驗中,學習手勢是第一個門檻,而且許多人真的是無法隨心所欲控制虛擬物件而放棄使用,如果 Vision Pro 想要用自然手勢語言,理論上就必須要先捨棄對於控制器的依賴,或者說,如果要使用類似 VIVE/Quest 的手把,那就一點也不 Apple。

這讓我想起以前的歷史,回頭說一下有關 Apple 感知技術對於設計的影響。

感知技術(Sensory technology/function)是 Apple 設計團隊相當厲害且在行的技術進化準則,早期 Macbook 的「呼吸燈」或是磁吸充電「MagSafe」都是利用人類感知進行設計發想並且創造出人性化使用場景。Apple 設計團隊希望藉由微小且有效的感知互動達到人性化效果,也就是說,當我們感覺到某個燈號能夠反映狀態,或是隨手可得的流暢輸入體驗,都是感知技術所要達到的目的。這次 Vision Pro 也不讓人意外。

Vision Pro 使用到的感知技術應該是 iPhone 上市以來最多的項目,最大的就如同上面所寫的,有關手勢互動與空間感測就用上快 8 顆鏡頭,加上現在還所知不深的瞳孔辨識。根據前設計師 Sterling Crispin 透漏的技術細節,人類在虛擬環境裡最值得注意的現象就是「好奇心」驅使的行為,在好奇心發生的時候,腦內認知狀態能夠藉由眼球追蹤、腦波、心跳脈搏、臉部肌肉、腦的血液密度、血壓、皮膚溫度感知到一個人即將會做出的行為。

這在 Vision Pro 上實現的就是瞳孔辨識,行動前就能夠藉由瞳孔放大預先知道下一個目標介面(UI),然後產生特定的預測項目,如果使用者作出點擊等行為,毫無疑問的就是完整一個微小且有效的互動。這個類型感知互動讓 Apple 能夠不藉由任何控制器就能做到螢幕互動的效果。這類型創新重要性不下於多點觸控,甚至以後車用、智慧城市都有可能是應用場景。

瞳孔辨識看起來很神奇沒錯,但如果從個人角度上來看,Vision Pro 到最後仍舊需要控制器。舉個例子好了,正如 iPad 進入到大尺寸 iPad Pro 時發現手指的多點觸控做不到精細筆觸時,Apple Pen 正是運用陀螺儀與增強螢幕顯示更新率做出貢獻,形成自然筆觸互動,後來下放規格到 iPad/iPad Air 的殷鑑不遠。如果戴著 Vision Pro 但仍使用傳統無線鍵盤與滑鼠應該也是再自然不過,但或許,Apple TV 的電視遙控器也是可能的方向,這時候就必須要觀察使用者需要多精細、高解析度的應用:例如拿 Vision Pro 畫張圖看看?

市場定位

Meta Quest II、hTC VIVE 跟 VIsion Pro 正是成為三種不同定位與差價的增強實境市場區隔,現場介紹 Vision Pro 是一種「空間運算」,支字不提元宇宙的時候,就已經很明顯拉開與前兩者的定位差距:Vision Pro 很明顯站在個人生產力,也就是如何經由空間運算增強人類感知,然後形成沉浸式工作、溝通、開會與娛樂的全體驗。對比 Quest II 屬於社群/社交環境的延伸,而 VIVE 跟 PS5 一樣仰賴虛擬實境的遊戲體驗,Vision Pro 顯示必須要回到基礎生產力才能算是個強需求。

這點市場區隔一點也不意外,畢竟元宇宙初始設定就是屬於一群朋友的虛擬社交世界,只要是沒有朋友在裡面,使用VR的意義也就消失。這種市場定位也曾經在手機時代出現過,2011年 時 Facebook 與 hTC 合作設計專為社群使用的 HTC Salsa,最終結論也是不敵個人生產力的 iPhone 而黯然下市。這次又在增強實境市場陷入同一種邏輯,不得不說人類終究是無法從過去歷史中學習,更預告 Quest II 提前發表只是再一次讓自己陷入尷尬。

統整一下,未來虛擬/增強實境市場剩下三種選擇:社群(Quest II)、遊戲(VIVE/PS5 VR)與空間運算/個人化(Vision Pro)等,對應的內容也是根據需求不同而必須差異化。例如虛擬遊戲開發商就要去思考這三個平台哪一個市場份額比較大,因為硬體規格的差距,能在 Vision Pro 上運作的遊戲移植到 VIVE 不會有一樣的表現,這點會讓開發商傷透腦筋。

人工智慧

對於 WWDC 來說,這是市場進入到人工智慧熱潮裡,最後一個檢驗科技巨頭的場合,對應於 Google 的急迫性,感覺 Apple 好像還沒讓維人工智慧是個威脅。這在發表會上一覽無遺,整場發表裡並無直接提到 AI 二字,而是以機器學習、神經引擎、強化學習或是語音互動代替,可能也是不想捲入比較ㄉ

但但是 iOS17 更新裡,我們仍舊看到 Mac、iPhone、iPad、Apple Watch、Apple TV、AirPods 和新Vision Pro 或多或少都用到人工智慧:首先是對於隱私的保護跟硬體安全性都使用到人工智慧邏輯,這是完全隔離個人資料與公共雲的安全有效措施。

另外 iPhone 上的打字自動更正與文本有時候還是會有錯,或者建議跟使用者想像差很多的對應詞,這方面軟體團隊使用 Transformer 模型,一個跟 GPT-4 / Claude 同類型的語言模型,能夠提高系統預測能力,而且也能自動生成文本,同時保護使用者隱私。

Vision Pro 裡使用到人工智慧的場景則是自動生成虛擬頭像。被稱為 Persona 的虛擬頭像能夠透過內建攝影機掃描使用者臉部,快速創建一個栩栩如生的數位分身(Digital Twins)。 這意味著,當使用者戴上設備並加入 FaceTime 通話或其他視訊會議時,一個數字分身就會出現,代替著錯位的真人,他們的臉部表情和手勢將被真實映射出來。Persona 很明顯依賴機器學習的力量,並且更加精細的反映出生成圖像,這也是 Apple 常被提及需要作出更人性化互動的努力。

另外一個有用的人工智慧增強功能就是語音信箱。當有人撥號不通時留下語音信箱,就能夠展開此功能,會在螢幕上顯示語音訊息的內容,完全以文字為基礎。這代表著語音對文字的技術(T2T)已經到了能夠自然產生文本的功能。重要的是,以硬體內部的神經引擎晶片作為辨識功能,即可不透過雲端,完全保護個人隱私。此外,語音轉錄功能也能夠將單字轉化成文本,但對於過長的語音辨識率過低的文本品質來說,看起來還是有點不足。

Apple TV 的 Facetime 功能也是一個人工智慧應用,當使用者運用 iPhone 通話時,轉到 Apple TV 時會看到自己的實體影像,並且能夠縮小到一個小圈圈,類似於氣象預告時看到的效果。但這個效果所需要用到的臉部辨識與手勢,都會應用到機器學習與神經引擎。

最後是 iPhone 日記,新的 iOS17 裡使用者可以允許自動生成一個日記,包括自動納入當日圖片、運動與其他活動,自動呈現未完成的日記草圖。使用者根據意願能夠修改內容,或是就這樣傳到社群媒體,而這對於某些旅遊、餐飲與運動場景的分享中特別有用。不用說一定使用到 Transformer 語言與圖像模型,另外一點,Apple 開放日記的 API 對接,提供應用程式多一個顯示內容的方法。

另外就是AirPods個人化音量、允許使用者通過照片辨識狗跟貓、自動生成相簿等等,在不同場景裡實現人工智慧的應用,對於裝置面要大量應用到目前的生成式人工智慧應該也是指日可待。

小結

今年 WWDC 對於設計師與開發者來說,根本就是將過去創新一次打包的過熱狀態,對於開發者來說,尤其是對虛擬實境應用有興趣的開發者,終於一展長才的絕好機會。對於設計師來說,另外一個好消息是人機介面指南中文版終於問世。這是開發者版本以來的第一版中文,雖然很可惜的只有簡體中文,還是可以看出許多過去使用英文介面如何翻譯成中文:像 AR 過去統稱擴張現實,現在則是翻譯成增強現實等等。

對於一般消費者而言,應該在意的是未來虛擬實境會出現什麼樣新奇的應用,串流媒體或是遊戲已經佔好位置,現在就看想像力能否帶領我們到達從來沒想過的地方。人類即將進入到虛擬世界嗎,還是要再等等?這點就讓我們之後再來回看看吧。

Apple WWDC 2023

找尋更多未來 |

如果你喜歡這篇文章,或許可以請我喝杯咖啡

再生式企業特集