再談人因工程,和UX的同與不同(下):認知工適學(下)

--

在上篇文章中我介紹了一些認知工適學的理論基礎,在這些基礎之上,到底認知工適學是如何做研究呢?有哪些常用的研究法?又需要注意哪一些研究上的細節的?與UX的接點又在哪裡呢?在這篇文章中,就讓我們更深入了解認知工適學的各種工具與研究方式。

接續前文

由於一個人特定的神經或認知活動常常無法直接精準的測定,我們只能透過間接的方式來試著從結果中分離出可以代表該認知活動的訊息,而一旦測定的內容需要主觀意識的介入,比方說進行判斷,那就很容易產生偏差。就連反應速度這個看來比較基礎的項目測定上都有很多問題了,更不要說其他有包含更多意識與認知的功能了,比方說感情、記憶、學習、推理等等,而偏偏這一些才是實務上大家想要量化了解的內容。也因此認知工適學在實驗設計上必須要非常的小心,而在實驗分析與結果上的討論與解讀通常也都比較複雜。

心理實驗法與實驗設計

在大致了解了認知工適學的內容後,大家可能會好奇這麼多的數據是如何測定出來的,因此在我們開始舉研究方法之前,必須要先認識兩門做為一切認知工適學核心的項目 —實驗設計(Experimental Design) 與實驗法(Experimental Methodology),這兩個項目在之前介紹的人體工適學的同樣是基礎之一,但在認知工適學領域尤其重要。

實驗設計(Experimental Design)

實驗設計總覽,來源:https://plant-breeding-genomics.extension.org/experimental-design/

實驗設計(Experimental Design)並非是心理學專屬,任何從事科學和社會科學研究的人都必須要對其有著足夠的理解,也是所有想要從事以人為研究對象的研究者的必修內容,其主要的內容在如何正確地設計出一個實驗並選擇合理的分析方式以得到可信的結果。在心理與認知工適學領域,實驗設計討論如何在控制條件下對某種行為或心理現象進行研究,除了被動的觀察外,也探討如何合理且有效地透過某些主動的手段調整(manipulate)某些因子(Factor)來影響心智認知活動以便取得對應的反應結果。

在實驗設計中最重要的一點就是對於假設的建立,透過觀察和過去的研究資料來建立檢設,並回推建立整著可以驗證該假設的研究方式。在建立研究框架後,最重要的就是如何挑選正確的因子,定義相對應的操弄(treatments),設計新的或沿用既有的實驗典範(experimental paradigms),依照過去研究的紀錄與統計檢定力(statistical power)來決定要多少受試者(sample size)與刺激次數(trial),並控制(control)所有可能的干擾變量(confounders,或叫共變因、干擾因子)來以讓實驗有效(Valid),白話來說就是讓你得到的實驗結果可以反映出你想測量的東西而不被其他的因素所干擾,且可以確定你所觀察到的結果是真實的而非隨機出現的。

對於很多轉行,沒有研究背景的人來說,實驗設計可以說是第一個門檻。其不僅是一門學問,也是態度和習慣,也就是人們所說的用科學的方式理性思考問題,但只知道實驗設計是不夠的,還需要知道該如何進行自己規劃實驗,了解需要注意的細節,因此實驗設計還需要搭配上相對應的實驗/研究法。

實驗法/研究法(Experimental/Research Methodology)

心理或認知科學相關實驗法/研究法是認知工適學裡另一個重要的環節,前面提到任何牽扯到人類認知的歷程都很難直接進行測定,且僅透過觀察法很難得到理想的結果,所以很大一部分的研究都必須要仰賴實際上的操弄,也因此須要面對大量的干擾因子,因此研究者必須要對如何控制這些混淆變相有著高度的理解,而實驗法正是探討如何進行有效的實驗設計的學問。

舉個簡單的例子,我們想知道解兩條不同的數學問題要花上多少時間來解,如果我們的對象是某台特定的電腦,在確保電腦是乾淨的(clean install)的情況下我們只要分別把兩個問題給電腦運算就可以直接拿到可以比較的結果。但如果是某個特定的人就有點複雜了,說不定他以前看過其中一個問題,說不定他在解完第一個問題後就耗盡腦力,說不定他在解其中一個問題時有人經過導致分心,又說不定他看錯了某個數字。這些干擾因子無關乎這個人的能力但卻會對實驗結果造成很大的影響,所以必須要透過良好的控制來確保我們得到可信的結果。

實驗法根基於實驗設計上,針對特定研究領域的實驗設計相關知識,不同的研究主題會有相對應的實驗法,比方說心理實驗法、認知科學實驗法、人因工程實驗法等等。實驗法羅列了古今中外無數研究者針對該領域研究時可能會遭遇的混淆變相以及應對方式,提出合理的實驗操弄方式與分析方法,並列舉經典的研究案例與方法。雖然說很多在業界進行的研究都很難在之中找到完全對應的項目,但在熟悉實驗與研究法的狀況下往往能夠隨機應變導出可行的方案。

研究倫理

實驗設計和實驗法除了講述實驗技巧外,還包含了一個常常被人忽略的環節: 研究倫理(Research Ethics)。由於實驗法是透過操弄某些因子來觀察其效果,所以受試者勢必會受到那些因子所影響,如果操作不當可能會造成使用者短期或長期的影響。心理學史上有數個經典實驗,包含Little Albert Experiment, Milgram Obedience Experiment和Stanford Prison Experiment,這些實驗的結果至今仍然被各大教科書和影視出版品引用,但由於實驗過程中沒有盡到保護者的義務,很多實驗參與者在實驗後都出現了心理上的後遺症,而在醫學界更是嚴重,特別是二戰期間很多的祕密實驗造成了受試者的傷殘,隨著民主與人權的進步,世界各國開始對人體時進行規範,從1947年的紐倫堡守則(Nuremberg Code),1964年的赫爾辛基宣言(Declaration of Helsinki),1974年美國的National Research Act,到1978年的貝爾蒙特報告書(Belmont Report),逐步訂立對了人類研究受試者的保護規範,隨後各大學與研究機構也成立了IRB (Institutional Review Board)或類似的組織以審查研究內容。現階段任何於學界機構進行的研究都必須先通過審查,而業界研究組織如果有意發表其研究結果於學術期刊也必須要預先通過審查(比方說微軟內部有Microsoft Research Ethics,坊間也有獨立的IRB公司/機構提供審查服務)以保護實驗者。其審查原則在於

  1. 尊重受試者: 受試者的參與需要出於自願並理解該研究的內容與可能造成之結果下同意
  2. 行善原則: 研究者應該盡一切所能保護受試者,減少風險的同時並盡可能地從研究中最大化的獲取對整體社會之利益
  3. 公平正義原則: 該研究所獲得的利益與可能的風險是否有被公平的分配

附帶一提,很多我們在UX業界常使用的實驗法,比方說去家訪,焦點團體,使用者測試等等如果有牽扯到個人隱私理應受IRB的審查,HF實驗法由於研究操弄使用較多所以也應要通過IRB。對業界來說,由於鮮少有發表的需求,所有大部分都沒有IRB相關要求,這種情況之下就需要仰賴研究員對於研究的理解和專業判斷了。

認知工適學的測量方法與限制

看完上面的一長串介紹,這邊就讓我們實際看一下認知工適學是如何測量我們心智歷程吧。認知工適學很大的一個研究目的在於量化人的感受,人對於光的敏感性、溫度、聲音的感受力,對於各種動作熱量的消耗,在各種情境中對生理與心理的影響等等,所以認知工適學非常重視系統性的的實驗與操弄。由於認知工適學的領域非常的廣,所以這邊僅較高層次的列舉幾個我有在使用且和一般UX與產品設計比較有關連的方法。

行為和反應(Behavior & Responses)

行為觀測是任何對人研究的基礎,認知工適學也不例外。行為的觀測可以分為觀察法與實驗法,觀察法由於研究者的介入少,所以可以觀察到最真實的反應,但卻難以對結果進行因果或關聯性推論,而實驗法則相反,因為有著良好的變項控制所以可以得到更有信度的資料。由於認知工適學期望可以找到因果性(Causality),再不然也要有理解關聯性(Correlation),因此多半使用實驗法,透過創造一個有良好混淆變相控制的情境並觀察在該情境下使用者的行為與反應。

舉例來說,如果我們想要測試一隻耳機主動降噪的效果,如果單純讓使用者帶回家使用,雖然比較符合真實使用狀況,但研究者無從得知使用者到底都在哪些環境使用,聽了哪些音樂,所以為了更好的量化感受,研究者可以讓使用者在一個安靜的聲音實驗室中,聽著選定好的音樂,並在背景撥放各種情境的噪音,去觀察使用者對於音量與降噪程度的調整,如此就可以更好的量化該降噪耳機的效果。在一些搜索與注意力相關的研究中,也可以透過觀察眼動(eye-movement)的軌跡與凝視點(fixation)來理解使用者有沒有注意到相關的刺激並做出反應。

微軟的聲音實驗室可以達到-20.35 dBA,是金氏世界紀錄全世界最安靜的地方

在量測行為反應時,心理測時法(Mental chronometry)是認知科學的觀測心智歷程的基礎方法之一,透過受試者的快速反應(respond as fast as possible)來測量從受試接收到外在刺激,在腦中處理後,到身體可以做出反應的時間。其原理在於愈是複雜、模糊的訊號,我們的大腦就要花費愈的時間處理,反應時間(Response/Reaction Time, RT)也會跟著變長。除此之外,如果使用者分心,分配給外在刺激的處理資源變少了,也會導致RT的增加。如果反應的時候需要使用到外在的裝置,那RT也包含了外在裝置的影響。

RT是最經典的測定項目之一,很多的認知科學與人因工程實驗都是根基在其之上。在產品設計這一塊,過去提到過的Fitt’s Law就是一個例子,透過使用者反覆點擊目標不同大小與距離的目標,由於任務本身是一樣的,我們可以假設心智歷程花費時間相同,這時候時間的差異就可以反應外在裝置,比方說不同滑鼠或觸控板在使用上的差異。也可以應用在UI設計上,比方說在下面同色的UI設計,我們可以要使用者在看到圖案時按鍵判斷是方塊還是圓形,並觀察在這兩個設計中的RT是否有不同來推論該UI設計是否影響到使用用者的判斷效率。

除此之外,RT也可以用來反應使用的心智狀態(Mental State),比方說分別在上班前和上班後做一樣的反應測試並比較RT,此時的差異就可以用來量化因工作上可能產生的心理疲勞(Mental fatigue)。

這裡要特別說一下RT和UX研究中常用的任務完成時間(Task completion time)不一樣,一般RT講求盡快反應,並且反應的目標與需要的心智歷程也較為單純的,如果任務內容太複雜導致或是步驟太多,會影響到RT對於實際心智歷程處理時間的代表性。

另外一個常用的研究方式為雙任務典範(Dual-task paradigm),前面有提到認知工適學除了要理解人在普通情況下的感受力與反應能力,也要理解其在高負荷的情境下的能力變化,研究者因此設計了雙任務典範。簡單來說,就是要求受試者同時執行兩件任務,比方說在默默讀秒的同時閱讀並理解文章,由於人的注意力資源是有限的,當其中一項任務佔據的大部分的認知資源時,另一項任務的效率就或下降,錯誤率也會上升。這個典範被廣泛應用在很多產品研究上,比方說要求使用者一邊看影片並記憶內容,一邊留意會出現在螢幕個角落的彈出訊息,結合上面的眼動我們就可以知道彈出訊息的位置要在哪裡才可以最有效的抓住使用者的注意力卻不會干擾到其使用。

訊息要呈現在哪個位置才會最能引人注意卻又不會造成干擾呢? 圖片節自微軟官網

行為與反應研究方法是目前人因工適學的主流研究法,但其侷限性也很明顯,首先是刺激的差異性必須要大到能夠從外在觀測,其次是由於每個人的能力、經驗、習慣、甚至受試時的精神狀態都會有差異,這個會導致觀察者無法得到乾淨可重現的結果。最後是受試者行為容易受到自己主觀意識的干擾,比方說著名的霍桑效應,因為受試者知道自己正在被觀察著所以改變了行為模式。這些都使得單純的觀察行為與反應有時難以對刺激的效果進行有效的推斷,也因此開始有研究者尋求一些更加客觀的測定方式--直接對生理訊號進行測量。

生理反應(Physiological Responses)

人對於外在的刺激,會同時產生生理與心理的反應,相比於心理狀態和感受,包含腦電波、心律、膚電反應、眼動、瞳孔變化、呼吸韻律等生理反應可以被直接而客觀的測量,也因此很多認知工適研究者會嘗試透過紀錄生理的變化來量化感受。相較於主觀的回報,這些生理訊號可以做到即時的回饋,讓我們了解到心理狀態的即時變化,某些情況下我們主觀上無法注意到的感受,也可以透過生理變化來捕捉。Dr. ‪Raja Parasuraman在2003年將之命名為神經人因工程學(Neuroergonomics)。

透過生理來推測心理狀態的一個經典的例子就是測謊器(Polygraph)。測謊器透過記錄人在的膚電反應Galvanic Skin Responses, GSR)、血壓、脈搏、呼吸、身體動作等來比較一個人在說謊語說實話時的反應。

測謊儀。取自https://futurism.com/polygraphs-do-not-work-why-do-we-still-use-them

另外一個最近很紅的例子就是腦電技術。腦電技術透過安置於頭上各處的電極來即時的紀錄腦神經細胞的電位改變,並透過電位的變化來量化心理狀態,最常見的應用是用於睡眠與冥想狀態的指引,或是即時的分析人的精神狀態以適當的輔助使用者的,比方說如果偵測到飛機駕駛的心理疲勞(mental fatigue)太高而無法專注便即時由自動駕駛系統接手(這領域名為適應性自動化, Adaptive Automation),甚至可以作為一種新的輸入方式拿來與電腦裝置互動,稱為腦機互動(Brain-Computer Interface/Interaction, BCI)

面向消費者的EEG 裝置
透過腦電來進行拼字

在UX與產品設計上,這種生理反應也可以作為一個指標。舉個例子來說,我們要研究一種監控設備的設計,看使用者能否順利地同時監控數項資訊,而我們知道人的瞳孔在心理負荷(Mental workload)增加時會放大,心律變率(Heart rate variability, HRV)會變小,也會改變我們腦波(Electroencephalogram, EEG)的Theta頻段與Alpha頻段的比值,因此我們就可以透過這些生理訊號來即時的評估一個人心智負荷的程度,進而比較不同設計之間的差異。

由NASA所研製的Multi-Attribute Task Battery II常被拿來進行多攻下的心智負荷程度測試

雖然上面說的好像很美好,但實際上透過生理變化來判斷人的心理狀態一直都存在著很大的爭議。很大的一個原因就是人的生心理運作非常複雜,我們很難分離出哪個訊號是源於刺激哪些是雜訊,除此之外每個人的心理運作和生理反應也不盡相同,適用於一個人的判定不一定適用於另一個人,就算是同一個人,在不同時空背景下,及生理反應也可能會有很大的差異。而最麻煩的一點就是難以類比,比方說一個人等下要考試,跟等下要面試都會可能會感到焦慮,但這個焦慮是否是同一種焦慮,所觸發的生理反應是否類似,也是個很困難的問題,也因此為了更好的瞭解結果的有效性,研究者們也會將結果與主觀的問卷回饋進行參照。

問卷(Questionnaire)和量表(scale)

做為最古老也是最廣為使用的方法,問卷和量表(以下統稱問卷)也是認知研究的基礎之一,畢竟到頭來我們還是相信受試者對於自身的感受會比研究者來的清楚,所以問卷仍然是最常用的研究法。相較於行為觀察難以量化而生理反應有太多雜訊,問卷是少數可以簡單量化使用者感受與體驗的方法。

問卷的設計是非常困難的,特別在認知科學領域,要如何把感受或是認知歷程透過問卷來量化是一直在被研究的議題,原因在於任何用語的改變都會影響到使用者對於問題的理解,而對問題的理解則會影響到回答,所以研究者比較傾向於使用由學界發展已經經過驗證的問卷。

問卷大致上可分為兩種,第一種是客製化、偏向捕捉使用者意見(Opinion)的問卷,比方說UX領域常用的SUS(System Usability Scale),NPS(Net Promoter Scores),和SUPR-Q (Standardized User Experience Percentile Rank Questionnaire)。這一類的問卷主要是產品導向,目的在於了解使用者對產品/服務/設計的想法,除了上面的幾個標準問題外,也會針對研究目標撰寫額外的問題,比方說"你覺得在該鍵盤打字上的手感如何""你覺得該螢幕在顏色的顯示上感受如何"等等。

第二種則是標準化的量表,通常用來捕捉量化受試者的狀態(state)或對受試者本身的個人特質進行量化。舉例來說性格分析的MBTI(Myers-Briggs Type Indicator),測定壓力(Stress)狀態的DSSQ(Dundee Stress State Questionnaire),和測定心智負荷的NASA-TLX (NASA Task Load Index)。這種量表的透過把一個比較模糊的概念(比方說壓力是一個很廣意義的詞)拆解成數個因子(Factors),針對每個因子制定問題,之後再將各因子所得到的結果透過加權來整合,如此確保可以捕捉受試者對於該概念的所有可能感受。這類型的問券其設計背後通常都有完整的理論支持,並且經過多次的驗證確保其有效性,研究者通常不會任意更動,而且由於問卷本身已經已經依照因子分類,所以有經驗的研究者也可以依照研究問題從中挑出需要的項目來進行分析。但要使用這類問券除了要注意版權外還必須要對想探討問題的理論基礎與該問卷的設計原理有一定程度的了解以免誤用或解讀錯誤。

NASA-TLX

無論是用哪一種問券,一個很重要的注意事項就是需要建立一個跨研究的標準,包含固定的問題與回答方式,比方說每次都會使用SUS而且都是使用五點量表,以方便未來進行跨研究的比較,也容易幫助非研究員理解與解讀研究結果。

目前在HF與UX界問卷大致上是處於信者恆信,不信者恆不信的狀態,有人認為問券是最直接得到使用者想法的媒介,並有著容易得到大量樣本,可以量化的優勢,但也有人認為問卷已經被過度使用,且很多問題在設計上不盡理想,其中的語句很容易影響到使用者判斷,使用者間對於問題的解讀也不一定相同,比方說,"疲勞"一詞有的人可能會認為是心理上的,有人認為是"生理上的"。除此之外,受試者也很容易受到社會期許(Social Norm)的影響而偏向選擇符合社會預期的答案,因此是否真能得到想要的結果是個大問號,還不如實際觀察或使用儀器測定。但即便是以客觀的量測方式如肌電圖、眼動、反應時間等為主的研究,通常也還是會利用問卷和量表來讓使用者回報其主觀的感受或作為參考資料。

寫在最後,HF與UX的接點

人因工適學由於發展較久,所以已經有著較為完整的資料庫,如Human Factors and Ergonomics Design Handbook一書中就詳細的紀載各種人類的感知數據,而Humanscale套書中則詳細記載各種人體部位測量數據以及常見空間的規範,這也影響到了人因工適學對數據量化與研究嚴謹度的要求。相較之下UX做為一門較為年輕的學門,由於更加專注於使用者的個人感受,所以多以質化為導向,但近年來隨著大數據的出現,量化UX研究也開始被重視。而UX雖然已經有很多非常有價值的數據資料,但在整理統合上仍然並不完善,例如我過去所待過的微軟HITS團隊,便致力於整合公司內部大量的使用者研究成果以建立可供內部眾多研究者搜尋參照的資料庫。(可以參考這篇文章)

大家讀到這裡應該也已經看出來,上面提到的各種研究方法並不是認知工適學的專利,隨著專業人才的流動,現在已經有不少UX研究也開始採用HF這種比較偏向實驗心理學或神經/生理科學的實驗法,也會參照人因工適學的手冊來進行設計上的建議。而HF也開始用上UX常用的訪談和易用性測試方法以更加了解個別使用的使用情境與心智模型,兩者的界線已經開始模糊。我之前所實習的Dell,便同時運用HF和UX方法來對研究問題建立更完整的理解,而微軟內部也同樣在進行著兩者的合作與整合。唯有互相理解彼此的研究方法的長處與短處,才有辦法跟進這個日新月異的時代,回答更加有挑戰性的問題。

隨著這幾年科技的發展,越來越的的新研究與分析方法被引進,機器學習、大數據、生理監控設備的微型化,我們能夠獲得的資訊也越來越多豐富,但這些技術的使用與數據的解讀最終還是仰仗於人因工適學、認知科學、心理學的各路專家們,透過無限的創意與嚴謹的驗證旁敲側擊人類心智歷程這個黑盒子來推動此領域的進步。

人因工適學的文章到此就告一個段落了,期待這一系列的文章能夠讓普羅大眾更了解人因工適學這個看似熟悉卻又陌生的領域,並成為想往此領域發展者的敲門磚。如果有任何的問題或是回饋,也歡迎留言告知與交流。

https://medium.com/as-a-product-designer

--

--

Steven Dong
AAPD — As A Product Designer

Ex-Sr. Human Factors Engineer @ Microsoft. Write about UX, HF, US life, and ACGN. 微軟資深人因工程師、隨手寫關於UX、人因工程、旅美生活、動漫遊戲,ACGN文章https://medium.com/@sunlight75atus