Windows 11的Copilot，與我對AI系統整合的想像

Jul 04, 2023

對岸的Windows 11 + Copilot試用體驗：

其中提到現在可以用文字指令讓AI去做一些事情，「令人驚喜」。

從展示的內容來看，雖然新的Windows 11當然是一個進步，不過從我的角度來看是有點失望的。

因為這個測試版本（以後正式版說不定更好）做到的，只是將原本Edge瀏覽器與ChatGPT的整合，再提高到系統層級而已。就像ChatGPT和Edge一樣，還是兩個獨立的東西，只是建立了一個「自然語言通道」而已。

「連起來」跟「彼此整合」還是兩件不同的事情。

（這時候我想到的是紅酒的「mariage」，也就是酒和餐點間的最佳搭配，而非「放在一起就是菜」。）

以引文中提到的實際操作來說，輸入「幫我螢幕截圖」（目前似乎只能英文，但這沒關係）讓系統幫你截圖這個範例，真的是讓我笑了出來。對於不諳系統操作的人，這類指令或許是一個方便；但只要學會「正規」的快速鍵盤指令，大概就不會再去打這串字了。

（但也必須說，這種自然語言指令在行動裝置上會更方便；但最好是用語音輸入，而不是在小小的鍵盤上打「幫我螢幕截圖」。）

不過對於新手而言，如果可以用「請教我如何截圖／檢查為什麼網路不通／改變螢幕解析度／改config……」的文字指令來求助，倒也是一個不錯的方式。

但「求助」跟「輔助操作」是兩回事，也需要不同的回應機制和介面。而即使是以自然語言下文字指令，目前用在後者上還是沒有整合到系統介面中、感覺也有點笨。

以引文中提到的「AI輔助」操作方式，即使是在非Windows系統的Edge上也可以做到（除了系統畫面截圖之外）；但以系統層級整合來說，離我的想像還很遠。

（在Windows上，要能做到「幫我檢查周邊驅動程式並且更新」我才相信；但應該不難就是了。另外一個問題是，ChatGPT也還不完美，跟它深度整合會不會帶來其他問題？但這一點就先忽略了。）

我幾個月前寫的這篇文章，談的是系統與AI的整合應該做到「看不見它的存在，但是有感」的程度（所以我經常在掙扎要叫它「有感AI」還是「無感AI」）：

在這篇文章中，我想像中好的AI功能應該是沒有介面（不需要一個像「Copilot」這樣硬生生加進來的額外介面），而是無所不在、但只在「AI發現你需要」的時候才出現。

例如螢幕截圖，除了真的不會時可以用語音或文字「請教我截圖」之外，例如當你在Mac上按下「command+shift」（或是其他系統的類似指令），但忘記接下來要按什麼的時候（例如停頓超過3秒），AI會發現你的意圖，並且顯示提醒、或是接手協助你把動作完成，不需要再反覆確認「你要做什麼」。

以類似的模式，當你在填寫表單、打開某個網站、回信給某人的時候，AI都可以依照你的操作習慣（通常到這個畫面會先做什麼事等等）、以及操作和輸入的內容，預測你的下一個動作或需求，然後幫助你完成、或是主動幫你尋找需要的資源。

這種「既無感也有感」、從使用脈絡（context）中發現並提供協助，但不需要額外指令和介面的AI，才是我心目中真正的系統整合。

（有些報導提到Windows 11有類似上述的「預測行為」能力，但我目前為止沒有看到使用範例。有人看到的話請告訴我。）

Windows 11目前的作法，當然可能只是個過渡設計，實驗將瀏覽器中的整合再進一步推到系統層級，之後再來談更智慧化的介面，所以也很合理。

但目前來說，還只是一個更聰明的迴紋針（老用戶就知道這是什麼），而且更麻煩的是你還得打字跟它對話，從前還不用。

順帶一提：以我的理解，Apple即使已經在系統中整合AI技術，也不會像微軟一樣在過渡介面時就推出；而我也希望，任何一家未來推出的系統會更接近我想像中的設計。