WWDC 2023

設計解析 2023 年 WWDC 之前，覺得有必要先寫點前言。過去觀察 WWDC 通常都是某一個功能，技術進步導引的設計邏輯更新，或是哪些應用場景值得注意等等。但這次發現無法用這種角度解釋，最重要的技術進步當然指向新發表的增強實境頭戴顯示器 Vision Pro。

Vision Pro 發表同時，代表的是一個時代的展開，毫不意外我們會談到這個部分，但是比較偏重技術，尤其是感知技術對於設計上的影響。對於一個劃時代的新產品使用到多少感知技術等於複雜度大考驗，所以會比較深入討論一些技術細節。

另外一個部份我想談談有關人工智能（AI）的表現，這部分包含 iOS 應用以及未來展望，以這兩個部分串聯起這次的設計解析。仔細想想這種過硬的內容比較適合有經驗的設計師與開發者，如果只想要知道輕鬆一點知識的話可能會滿失望，當然如果藉此對於現今 Apple 創新有所理解，甚至是指出我的邏輯有任何不足之處，我都非常歡迎討論。

Vision Pro

已知的 Vision Pro 規格已經出現，不用再猜用幾顆鏡頭，或是採用甚麼樣的黑科技，有趣的是，Vision Pro 的硬體邏輯完全不是過去一個平台-硬體-軟體的運作邏輯，像是 Apple Watch 使用自己的晶片-裝置-應用程式，而是完全使用現有科技結果。

讓我們來盤點一下規格，以及過去曾經使用在那些平台：

iPhone：Touch ID、MagSafe、LiDAR、
Apple Watch：Digital Crown、
Apple TV：TV Wall
Ｍac：M2 （Apple Silicon）、
AirPods：Touch Control、Head Tracking、Spatial Audio、Mic Array、
OS/SW：Keyboard、Guesture、Facetime、Universal Control
APP Store：Map、CarPlay、FreeForm、Workout（wellness）、Translation

就會發現這幾年的硬體創新全部用上了，這也是供應鏈大師庫克的傑作，如果不是體積過小，庫克搞不好也會要求跟 iPhone 設計共板（開玩笑的）。Vision Pro 雖然有點組裝感，但想要挑戰人類的邏輯依舊存在，這就是本次發表的最大焦點：空間預算。

Vision Pro 本身希望做到不需要任何控制器，使用虛擬鍵盤、語音與手勢互動就能夠完整空間運算體驗，代表著開發團隊對於 LiDAR 能夠做到的體驗深具信心。但我卻認為這或許有點考驗，尤其是使用者耐心，新科技對於使用者來說，通常是以有趣作為開始，但以過於困難或是無聊結束。我自己使用 VR 頭盔的經驗中，學習手勢是第一個門檻，而且許多人真的是無法隨心所欲控制虛擬物件而放棄使用，如果 Vision Pro 想要用自然手勢語言，理論上就必須要先捨棄對於控制器的依賴，或者說，如果要使用類似 VIVE/Quest 的手把，那就一點也不 Apple。

這讓我想起以前的歷史，回頭說一下有關 Apple 感知技術對於設計的影響。

感知技術（Sensory technology/function）是 Apple 設計團隊相當厲害且在行的技術進化準則，早期 Macbook 的「呼吸燈」或是磁吸充電「MagSafe」都是利用人類感知進行設計發想並且創造出人性化使用場景。Apple 設計團隊希望藉由微小且有效的感知互動達到人性化效果，也就是說，當我們感覺到某個燈號能夠反映狀態，或是隨手可得的流暢輸入體驗，都是感知技術所要達到的目的。這次 Vision Pro 也不讓人意外。

Vision Pro 使用到的感知技術應該是 iPhone 上市以來最多的項目，最大的就如同上面所寫的，有關手勢互動與空間感測就用上快 8 顆鏡頭，加上現在還所知不深的瞳孔辨識。根據前設計師 Sterling Crispin 透漏的技術細節，人類在虛擬環境裡最值得注意的現象就是「好奇心」驅使的行為，在好奇心發生的時候，腦內認知狀態能夠藉由眼球追蹤、腦波、心跳脈搏、臉部肌肉、腦的血液密度、血壓、皮膚溫度感知到一個人即將會做出的行為。

這在 Vision Pro 上實現的就是瞳孔辨識，行動前就能夠藉由瞳孔放大預先知道下一個目標介面（UI），然後產生特定的預測項目，如果使用者作出點擊等行為，毫無疑問的就是完整一個微小且有效的互動。這個類型感知互動讓 Apple 能夠不藉由任何控制器就能做到螢幕互動的效果。這類型創新重要性不下於多點觸控，甚至以後車用、智慧城市都有可能是應用場景。

瞳孔辨識看起來很神奇沒錯，但如果從個人角度上來看，Vision Pro 到最後仍舊需要控制器。舉個例子好了，正如 iPad 進入到大尺寸 iPad Pro 時發現手指的多點觸控做不到精細筆觸時，Apple Pen 正是運用陀螺儀與增強螢幕顯示更新率做出貢獻，形成自然筆觸互動，後來下放規格到 iPad/iPad Air 的殷鑑不遠。如果戴著 Vision Pro 但仍使用傳統無線鍵盤與滑鼠應該也是再自然不過，但或許，Apple TV 的電視遙控器也是可能的方向，這時候就必須要觀察使用者需要多精細、高解析度的應用：例如拿 Vision Pro 畫張圖看看？

市場定位

Meta Quest II、hTC VIVE 跟 VIsion Pro 正是成為三種不同定位與差價的增強實境市場區隔，現場介紹 Vision Pro 是一種「空間運算」，支字不提元宇宙的時候，就已經很明顯拉開與前兩者的定位差距：Vision Pro 很明顯站在個人生產力，也就是如何經由空間運算增強人類感知，然後形成沉浸式工作、溝通、開會與娛樂的全體驗。對比 Quest II 屬於社群/社交環境的延伸，而 VIVE 跟 PS5 一樣仰賴虛擬實境的遊戲體驗，Vision Pro 顯示必須要回到基礎生產力才能算是個強需求。

這點市場區隔一點也不意外，畢竟元宇宙初始設定就是屬於一群朋友的虛擬社交世界，只要是沒有朋友在裡面，使用VR的意義也就消失。這種市場定位也曾經在手機時代出現過，2011年時 Facebook 與 hTC 合作設計專為社群使用的 HTC Salsa，最終結論也是不敵個人生產力的 iPhone 而黯然下市。這次又在增強實境市場陷入同一種邏輯，不得不說人類終究是無法從過去歷史中學習，更預告 Quest II 提前發表只是再一次讓自己陷入尷尬。

統整一下，未來虛擬/增強實境市場剩下三種選擇：社群（Quest II）、遊戲（VIVE/PS5 VR）與空間運算/個人化（Vision Pro）等，對應的內容也是根據需求不同而必須差異化。例如虛擬遊戲開發商就要去思考這三個平台哪一個市場份額比較大，因為硬體規格的差距，能在 Vision Pro 上運作的遊戲移植到 VIVE 不會有一樣的表現，這點會讓開發商傷透腦筋。

人工智慧

對於 WWDC 來說，這是市場進入到人工智慧熱潮裡，最後一個檢驗科技巨頭的場合，對應於 Google 的急迫性，感覺 Apple 好像還沒讓維人工智慧是個威脅。這在發表會上一覽無遺，整場發表裡並無直接提到 AI 二字，而是以機器學習、神經引擎、強化學習或是語音互動代替，可能也是不想捲入比較ㄉ

但但是 iOS17 更新裡，我們仍舊看到 Mac、iPhone、iPad、Apple Watch、Apple TV、AirPods 和新Vision Pro 或多或少都用到人工智慧：首先是對於隱私的保護跟硬體安全性都使用到人工智慧邏輯，這是完全隔離個人資料與公共雲的安全有效措施。

另外 iPhone 上的打字自動更正與文本有時候還是會有錯，或者建議跟使用者想像差很多的對應詞，這方面軟體團隊使用 Transformer 模型，一個跟 GPT-4 / Claude 同類型的語言模型，能夠提高系統預測能力，而且也能自動生成文本，同時保護使用者隱私。

Vision Pro 裡使用到人工智慧的場景則是自動生成虛擬頭像。被稱為 Persona 的虛擬頭像能夠透過內建攝影機掃描使用者臉部，快速創建一個栩栩如生的數位分身（Digital Twins）。這意味著，當使用者戴上設備並加入 FaceTime 通話或其他視訊會議時，一個數字分身就會出現，代替著錯位的真人，他們的臉部表情和手勢將被真實映射出來。Persona 很明顯依賴機器學習的力量，並且更加精細的反映出生成圖像，這也是 Apple 常被提及需要作出更人性化互動的努力。

另外一個有用的人工智慧增強功能就是語音信箱。當有人撥號不通時留下語音信箱，就能夠展開此功能，會在螢幕上顯示語音訊息的內容，完全以文字為基礎。這代表著語音對文字的技術（T2T）已經到了能夠自然產生文本的功能。重要的是，以硬體內部的神經引擎晶片作為辨識功能，即可不透過雲端，完全保護個人隱私。此外，語音轉錄功能也能夠將單字轉化成文本，但對於過長的語音辨識率過低的文本品質來說，看起來還是有點不足。

Apple TV 的 Facetime 功能也是一個人工智慧應用，當使用者運用 iPhone 通話時，轉到 Apple TV 時會看到自己的實體影像，並且能夠縮小到一個小圈圈，類似於氣象預告時看到的效果。但這個效果所需要用到的臉部辨識與手勢，都會應用到機器學習與神經引擎。

最後是 iPhone 日記，新的 iOS17 裡使用者可以允許自動生成一個日記，包括自動納入當日圖片、運動與其他活動，自動呈現未完成的日記草圖。使用者根據意願能夠修改內容，或是就這樣傳到社群媒體，而這對於某些旅遊、餐飲與運動場景的分享中特別有用。不用說一定使用到 Transformer 語言與圖像模型，另外一點，Apple 開放日記的 API 對接，提供應用程式多一個顯示內容的方法。

另外就是AirPods個人化音量、允許使用者通過照片辨識狗跟貓、自動生成相簿等等，在不同場景裡實現人工智慧的應用，對於裝置面要大量應用到目前的生成式人工智慧應該也是指日可待。

小結

今年 WWDC 對於設計師與開發者來說，根本就是將過去創新一次打包的過熱狀態，對於開發者來說，尤其是對虛擬實境應用有興趣的開發者，終於一展長才的絕好機會。對於設計師來說，另外一個好消息是人機介面指南中文版終於問世。這是開發者版本以來的第一版中文，雖然很可惜的只有簡體中文，還是可以看出許多過去使用英文介面如何翻譯成中文：像 AR 過去統稱擴張現實，現在則是翻譯成增強現實等等。

對於一般消費者而言，應該在意的是未來虛擬實境會出現什麼樣新奇的應用，串流媒體或是遊戲已經佔好位置，現在就看想像力能否帶領我們到達從來沒想過的地方。人類即將進入到虛擬世界嗎，還是要再等等？這點就讓我們之後再來回看看吧。

Apple WWDC 2023