自然語言界面:開啟人機交互的全新篇章

0 評論 3637 瀏覽 6 收藏 18 分鐘

隨著大模型的出現,現在,自然語言交互(NLI)闖入了我們的視野當中。那么,什么是自然語言交互(NLI)?自然語言交互未來會不會取代傳統圖形界面交互?這篇文章里,作者做了梳理和解讀,一起來看看,應該可以幫你更清晰地理解自然語言交互這個概念。

人機交互界面經過幾十年的發展,人與機器間的交互變得越來越容易,隨著ChatGPT等大語言模型的出現,一種我們既熟悉又陌生的交互方式再次進入大眾視野,它就是自然語言界面(NLI)。

那么什么是自然語言界面,它又會為人機交互帶來哪些新的變化,它會成為下一代主流的用戶界面嗎?

本文將從計算機UI的發展簡史出發,對比自然語言界面與傳統圖形界面的差異,帶你了解自然語言界面的應用場景和發展方向。

一、計算機UI發展簡史

首先讓我們回顧一下過去幾十年計算機UI的發展階段。

1. 穿孔紙帶(Punched tape)

1940-1960年代,早期的計算機通過穿孔紙向計算機輸入指令,帶孔為1,無孔為0,經過光電輸入機將數據輸入計算機。由于需要輸入二進制的機器語言,計算機在這個階段只被少數專家應用于專業領域。

2. 命令行界面(CLI)

20世紀60年代中期,命令行界面( CLI )作為穿孔紙帶的友好替代方案出現在計算機上。命令行界面是一種通過輸入被稱為命令行的文本行與計算機程序交互的方法,雖然它與人類語言有較大差異,但還是大幅降低了計算機的使用門檻,個人計算機(PC)隨之出現。

3. 圖形用戶界面(GUI)

命令行界面通常需要用戶記憶操作的命令,這對于普通用戶仍然是很困難的。GUI的出現正是為了解決這個問題:既然人類很難記住各種命令,那就讓機器提供可能的選項,人類只需要通過圖形元素進行選擇。

最早的圖像界面出現在1970年代,隨后蘋果和微軟讓GUI普及,短短二三十年,使用GUI交互的計算機和各類消費電子產品已經成為我們工作生活中不可缺少的一部分。

二、自然語言界面(NLI)的爆發

1. 什么是自然語言界面?

W3C是這樣定義的:自然語言界面是用戶與系統通過自然語言進行通信的用戶界面。用戶通過語音或某種其他方法提供輸入,并且系統以通過語音、文本或某種其他方法傳遞的話語的形式生成響應。

2. 自然語言界面是什么時候出現的?

最早的自然語言界面可以追溯到 20 世紀 60 年代。ELIZA是一個早期的自然語言處理計算機程序,由麻省理工學院的Joseph Weizenbaum教授于1964 年至 1967 年開發,旨在探索人類和機器之間的溝通方法。

ELIZA 通過模式匹配和替換來模擬對話,也就是說它通過檢測用戶輸入的內容中是否包含某些關鍵詞來做出響應,雖然它能做出的反應有限,更不能真正理解人類的語言,但這是人類第一次嘗試通過自然語言進行人機交互,也是后續自然語言處理(NLP)技術研究的一個里程碑。

3. 語音用戶界面(VUI)

自然語言處理(NLP)技術經過幾十年的發展,終于在2010年代迎來第一波應用爆發。2011年 Siri 作為 iOS 功能由 Apple 發布,隨后各家手機語音助手、智能音箱等VUI產品紛紛出現。但隨之出現了一個新的網絡名詞-“人工智障”。

雖然 Siri 相比 ELIZA 能做的事情更多了,但它們在體驗上仍沒有本質區別,Siri等產品依然需要用戶遵循特定的表述方式才能做出正確響應,可能換一個表述方式它們就聽不懂了,所以這個階段的自然語言界面更多是作為一種輔助交互方式。

4. 大語言模型(LLM)

ChatGPT 于2022年底開放測試,不到一年時間大語言模型(LLM)與AIGC應用已經遍地開花。大語言模型實現了NLP技術的階段性跨越,AI對自然語言的理解能力大幅提升,不僅能模仿人類對話,還具備文案寫作和問題分析等能力,并且這些能力還在飛速進步中,相信自然語言界面即將迎來第二次應用爆發。

三、自然語言界面的優勢

那么,自然語言界面相比傳統圖形界面又有什么優勢呢?

1. 低門檻

刻在我們DNA里的交互方式:

語言是我們與他人交互的主要“界面”,智人的言語出現于 50,000 至 200 萬年前,所以說這是刻在我們DNA里的交互方式。我們從小就學習閱讀、寫作和說話,因此通過自然語言界面與計算機交互幾乎不需要學習。

2. 高效率

GUI的思路是機器提供可能的選項,讓人類進行選擇。但復雜產品可能有幾百上千個選項,即便設計師努力按照最合理的邏輯整理、收納這些選項,用戶仍需要花大量時間精力尋找、理解、記憶這些選項。

1)酷家樂用戶問題

酷家樂用戶聯系客服的問題中較多是工具使用問題:怎么添加門把手、怎么把門翻轉、怎么顯示柜體尺寸。在幾十上百個功能中找到那一個功能都如此困難,對于需要用到多個“選項”組合操作才能實現的效果,那確實難以要求普通用戶做到。

但如果酷家樂支持自然語言交互,我只需要告訴它我們的訴求:“添加門把手”、“把門翻轉”、”顯示柜體尺寸“,軟件便會直接實現這些的效果。

通過自然語言輸入,用戶便可以忘記各家軟件各種復雜的交互邏輯,設計師也無需煞費苦心設計復雜的用戶引導和幫助系統,隨之客服人力成本也將大幅降低。

2)Tome

目前已經有一些產品在這么做了,Tome是一款制作提案PPT的產品,它可以通過自然語言輸入實現大部分操作,并且支持AI直接生成內容。

3. 不設限

早期計算機的輸入輸出完全靠機器語言,門檻很高。后來,普通用戶借助圖形界面和開發好的程序,也能輕松使用計算機,但同時我們也被其限制了。

美間站點:

以”美間“為例,美間站點有大量的海報模板,可以按用途、風格維度進行篩選,但用戶也只能按這兩個維度篩選。如果我想找出10月份用戶點擊最高的10個節氣海報模板,那對不起,辦不到,不是因為我們沒有這個數據,而是我們沒有提供個“選項”,通過SQL或者其他語言查詢數據庫就可以獲取到。

但如果美間的數據庫接入了大語言模型,那么直接問它,就能得到任何數據庫能提供的內容,因為現在LLM已經會自己寫代碼做數據分析工作了。

通過自然語言界面,我們可以最大程度發揮計算機和數據庫的價值。

四、自然語言會不會取代圖形界面?

自然語言界面這么強大,那它會不會取代圖形界面呢?答案是不會,受限于AI能力發展現狀和自然語言自身的局限性,自然語言界面有其適用范圍。

1. AI能力仍有限

理想情況是AI能完全理解我們的訴求、且能力能夠覆蓋,但現在還做不到。用戶隨便輸入一個需求,產品很可能做不到,這就需要我們通過GUI進行提示和引導。

2. 額外的處理時間

相比通過GUI直接對程序發出指令,用戶輸入自然語言LLM普遍需要幾秒鐘的處理時間,帶來更高的試錯成本,某些場景下我們使用GUI操作更加快捷。

3. 自然語言表達不夠精準

人與人的交流也常常存在歧義,更別說跟機器交流了,所以自然語言界面不適合做非常精細的操作。

美間提案PPT:

以美間提案PPT為例,如果我通過自然語言輸入:“把標題改成紅色”,那AI可能會反問:”哪個標題?哪種紅色?“。試想一下,如果要通過自然語言描述這些信息,是不是還不如通過鼠標選擇來的簡單。

4. 自然語言輸入也存在成本

自然語言輸入,用戶需要把需求組織成語言,然后打字或講出。也就是說用戶需要動腦子,這顯然與我們追求的”Dot let me think“原則相違背。

美間海報:

以美間海報場景為例,美間支持”AI生成“和”模板再創作“兩種海報創作方式。這兩種方式分別有各自的使用場景。

如果用戶需要一張元旦祝福海報,對于目標明確的用戶,他可以通過詳細描述畫面需求,生成個性化的海報方案。例如:”生成一張元旦節日海報,主題為:群核科技祝您元旦快樂,畫面要喜慶,插畫風格,包含煙花、燈籠、熱鬧的人群等元素“

但對于更多用戶來說,描述一個海報畫面是困難的,大部分用戶只需要一個通用的模板改改字就足夠了,這樣不但更輕松,而且得到的海報質量也更高。

五、NLI與GUI融合互補

所以,自然語言界面不會取代圖形界面,它們更多會融合互補,在各自的擅長領域發光發熱。

未來常見的用戶工作流將會是:NLI發散-GUI收斂,先使用NLI得到一個大概結果,再通過GUI完成確認或調整。

美間AI海報:

美間AI海報就是這樣的設計思路:基于自然語言輸入生成若干結果,選擇一個滿意的方案再二次編輯。

六、NLI還有哪些應用場景?

自然語言界面還有哪些應用場景?微軟表示:萬物皆可“Copilot”。

Copilot是微軟發布的依托于大語音模型的AI助手(AI Agent)。11月15日的微軟Ignite大會上,CEO納德拉向我們展示了Copilot最新的形態:一個入口連接無限可能。

Copilot可以連接各種應用和數據源,用戶只需要把需求告訴Copilot,Copilot就能自動完成全部應用和數據操作,甚至是跨應用和跨數據源的。

1)Copilot Studio

Copilot Studio是微軟面向B端用戶推出的AI助手,支持用戶自定義專屬的Copilot,以滿足行業、部門、角色等內外部場景的定制化需求。讓Copilot鏈接企業財務系統,你可以隨時問它各類財務預算的開支和剩余情況;Copilot還能雙向打通CRM、ERP等SAAS產品,自動化執行復雜的業務流程,比如辦理新員工入職、費用報銷等。

2)數據分析

Excel擁有強大的數據分析能力,但我們大部分人只用過Excel來制作表格,因為高階的函數、宏等功能對于普通用戶來說學習成本太高?,F在,Copilot與Excel結合,便可以實現通過自然語言寫代碼執行復雜的數據分析工作。

3)AIGC

AIGC是當前最熱門的AI應用領域之一,除了常見的文案生成、圖片生成,傳統的內容創作軟件結合AIGC能力也可以發揮出巨大的潛力。Copilot加持下的PPT,只需一句話,Copilot將自動幫你完成PPT的文案、配圖、排版等工作。

七、展望未來

自然語言界面將重塑現有產品的交互方式, 但自然語言也只是一種交互方式,未來隨著AI能力和硬件技術的發展,人類與機器間的交互成本還將進一步降低。

微軟在Ignite大會上演示了未來AI+MR設備的應用場景,借助MR設備AI可以看到、聽到、解釋、理解我們的意圖和我們周圍的世界,我們只需要極少的輸入就能得到需要的結果。以現在AI技術的發展速度,相信這些看似科幻電影中的場景用不了多久便會成為現實。

作者:山中,公眾號:群核科技用戶體驗設計

本文由 @酷家樂用戶體驗設計 原創發布于人人都是產品經理,未經許可,禁止轉載

題圖來自 Unsplash,基于CCO協議。

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!