Windows 11的Copilot,與我對AI系統整合的想像
微軟在6月30日推出了整合AI功能的Windows 11測試版。這對一些人來說是興奮的一刻,但對於觀察AI應用發展一段時間的我而言,這個時刻還算冷靜。
對岸的Windows 11 + Copilot試用體驗:
其中提到現在可以用文字指令讓AI去做一些事情,「令人驚喜」。
從展示的內容來看,雖然新的Windows 11當然是一個進步,不過從我的角度來看是有點失望的。
不算整合的整合
因為這個測試版本(以後正式版說不定更好)做到的,只是將原本Edge瀏覽器與ChatGPT的整合,再提高到系統層級而已。就像ChatGPT和Edge一樣,還是兩個獨立的東西,只是建立了一個「自然語言通道」而已。
「連起來」跟「彼此整合」還是兩件不同的事情。
(這時候我想到的是紅酒的「mariage」,也就是酒和餐點間的最佳搭配,而非「放在一起就是菜」。)
以引文中提到的實際操作來說,輸入「幫我螢幕截圖」(目前似乎只能英文,但這沒關係)讓系統幫你截圖這個範例,真的是讓我笑了出來。對於不諳系統操作的人,這類指令或許是一個方便;但只要學會「正規」的快速鍵盤指令,大概就不會再去打這串字了。
(但也必須說,這種自然語言指令在行動裝置上會更方便;但最好是用語音輸入,而不是在小小的鍵盤上打「幫我螢幕截圖」。)
「求助」跟「輔助操作」是兩回事
不過對於新手而言,如果可以用「請教我如何截圖/檢查為什麼網路不通/改變螢幕解析度/改config……」的文字指令來求助,倒也是一個不錯的方式。
但「求助」跟「輔助操作」是兩回事,也需要不同的回應機制和介面。而即使是以自然語言下文字指令,目前用在後者上還是沒有整合到系統介面中、感覺也有點笨。
以引文中提到的「AI輔助」操作方式,即使是在非Windows系統的Edge上也可以做到(除了系統畫面截圖之外);但以系統層級整合來說,離我的想像還很遠。
(在Windows上,要能做到「幫我檢查周邊驅動程式並且更新」我才相信;但應該不難就是了。另外一個問題是,ChatGPT也還不完美,跟它深度整合會不會帶來其他問題?但這一點就先忽略了。)
有感與無感
我幾個月前寫的這篇文章,談的是系統與AI的整合應該做到「看不見它的存在,但是有感」的程度(所以我經常在掙扎要叫它「有感AI」還是「無感AI」):
在這篇文章中,我想像中好的AI功能應該是沒有介面(不需要一個像「Copilot」這樣硬生生加進來的額外介面),而是無所不在、但只在「AI發現你需要」的時候才出現。
例如螢幕截圖,除了真的不會時可以用語音或文字「請教我截圖」之外,例如當你在Mac上按下「command+shift」(或是其他系統的類似指令),但忘記接下來要按什麼的時候(例如停頓超過3秒),AI會發現你的意圖,並且顯示提醒、或是接手協助你把動作完成,不需要再反覆確認「你要做什麼」。
以類似的模式,當你在填寫表單、打開某個網站、回信給某人的時候,AI都可以依照你的操作習慣(通常到這個畫面會先做什麼事等等)、以及操作和輸入的內容,預測你的下一個動作或需求,然後幫助你完成、或是主動幫你尋找需要的資源。
這種「既無感也有感」、從使用脈絡(context)中發現並提供協助,但不需要額外指令和介面的AI,才是我心目中真正的系統整合。
(有些報導提到Windows 11有類似上述的「預測行為」能力,但我目前為止沒有看到使用範例。有人看到的話請告訴我。)
現在還是過渡期
Windows 11目前的作法,當然可能只是個過渡設計,實驗將瀏覽器中的整合再進一步推到系統層級,之後再來談更智慧化的介面,所以也很合理。
但目前來說,還只是一個更聰明的迴紋針(老用戶就知道這是什麼),而且更麻煩的是你還得打字跟它對話,從前還不用。
順帶一提:以我的理解,Apple即使已經在系統中整合AI技術,也不會像微軟一樣在過渡介面時就推出;而我也希望,任何一家未來推出的系統會更接近我想像中的設計。
從行銷角度來看,刻意講我有AI我顯示出來,會不會比隱藏在生活中的AI還要有效果(激勵股市?激勵人心?