人文化天下

機(jī)器倫理的哲學(xué)基礎(chǔ)、基本特征與實(shí)現(xiàn)方法

時間：2024-04-11 16:56:15 發(fā)布：tgy 來源：《中國社會科學(xué)》2024年第2期第一對焦：機(jī)器倫理

　　【ZiDongHua 之人文化天下收錄關(guān)鍵詞：機(jī)器倫理人工智能自動駕駛】

　　機(jī)器倫理的哲學(xué)基礎(chǔ)、基本特征與實(shí)現(xiàn)方法

　　摘要：隨著人工智能系統(tǒng)自主決策能力的不斷提升，如何賦予智能體的決策以足夠倫理考量成為一個備受關(guān)注的重要挑戰(zhàn)。解決這一問題的關(guān)鍵途徑是建立機(jī)器倫理，即將人類倫理價值觀和道德規(guī)范嵌入人工智能系統(tǒng)，使其具備倫理對齊能力。機(jī)器倫理建立在人類倫理的基礎(chǔ)上，但具有與人類倫理不同的基本特征。首先，當(dāng)前的智能機(jī)器尚無現(xiàn)實(shí)主義意義上的主體性和體驗(yàn)性，表現(xiàn)為在倫理決策方面的弱主體性。其次，機(jī)器的決策反映的是受其行為影響的人類利益相關(guān)方的倫理考量，因此,機(jī)器的倫理決策需要在不同利益相關(guān)方的價值訴求之間取得平衡，即具備社會平衡性。再次，機(jī)器在倫理決策時容易受到文化因素的影響，應(yīng)能反映文化差異性。最后，機(jī)器需要向人類主體解釋倫理決策、理解情感表達(dá)，并進(jìn)行責(zé)任歸因，因此必須具備良好的人機(jī)交互性。

　　關(guān)鍵詞：倫理對齊可解釋性大語言模型知識表示與推理

　　作者廖備水，浙江大學(xué)哲學(xué)學(xué)院教授（杭州310058）。

　　隨著互聯(lián)網(wǎng)、大語言模型等技術(shù)的迅猛發(fā)展，智能系統(tǒng)變得更加先進(jìn)而復(fù)雜，越來越多的人類任務(wù)正在被機(jī)器所取代。在本文中，我們用“機(jī)器”來指稱各種具有行動和信息處理能力的程序或智能系統(tǒng)。為了增加人們生產(chǎn)和生活的便利性、提高效率，機(jī)器被賦予了更多的自主決策能力，并由此帶來機(jī)器決策的倫理問題。一方面，這種把決策的自主性賦予機(jī)器的方法已經(jīng)成為一種必然趨勢。例如，全球范圍內(nèi)許多醫(yī)院缺少陪護(hù)人員，將導(dǎo)致家庭陪護(hù)機(jī)器人開始進(jìn)入家庭。這些機(jī)器人將面對道德權(quán)衡問題，比如，是重在保護(hù)隱私還是重在保護(hù)病人的健康和安全。如果這些機(jī)器人可以作出道德推理，那么它們可以在出現(xiàn)倫理困境時作出更好選擇。又如，隨著大語言模型的日益普及，人們不得不在許多情況下使用大語言模型生成的內(nèi)容。對于用戶來說，難以完全弄清楚在這些內(nèi)容中是否存在誤導(dǎo)信息或?qū)θ祟愑袀Φ男畔?。另一方面，倫理決策具有復(fù)雜性，這使得并非在所有情況下人類的判斷和決策都是可以勝任的。例如，當(dāng)需要考慮的決策因素較多時，人類經(jīng)常忽視某些相關(guān)因素，或者無法處理由沖突因素之間的各種關(guān)系所帶來的復(fù)雜性。在一些具有義務(wù)沖突和因果復(fù)雜性的環(huán)境中，人類倫理學(xué)家無法給行動制定一種通用的、完全決策的原則。這種復(fù)雜性可能來源于多種原因。首先，幾個可能的義務(wù)相互沖突，如在特定情境中是應(yīng)該去給電池充電以確保機(jī)器的可用性，還是應(yīng)該給病人送藥。其次，設(shè)計(jì)者無法事先規(guī)定所有潛在情況下的因果組合。在大語言模型的使用中，這種復(fù)雜性就更加明顯。由于義務(wù)沖突和因果復(fù)雜性，決策者將面對一種開放的道德上不同的情境，因此無法預(yù)先羅列所有決策原則。這時，決策者需要平衡錯誤否定和錯誤肯定的風(fēng)險，因此希望機(jī)器能夠自動實(shí)現(xiàn)或輔助人們進(jìn)行倫理決策，實(shí)現(xiàn)與特定社會背景下的倫理對齊。

　　由此可見，機(jī)器倫理研究對于推動新一代人工智能的健康發(fā)展以及為人類創(chuàng)造福祉具有極為重要且迫切的意義。本文以人類倫理為參照，分析機(jī)器倫理的哲學(xué)基礎(chǔ)與基本特征，并以現(xiàn)有工作為基礎(chǔ)，探討符合這些特征的機(jī)器倫理實(shí)現(xiàn)方法，以促進(jìn)機(jī)器倫理這一新研究領(lǐng)域的發(fā)展。

　　一、機(jī)器倫理的哲學(xué)基礎(chǔ)

　　機(jī)器倫理研究如何在計(jì)算機(jī)、機(jī)器人或其他自動機(jī)器中設(shè)計(jì)、實(shí)現(xiàn)和產(chǎn)生倫理決策。通過研究人類如何思考、學(xué)習(xí)和作道德決策，能夠以此為參考來建立機(jī)器倫理方法。依據(jù)倫理學(xué)理論，人類倫理可以分為描述性的和規(guī)范性的兩種。前者是指在特定社會背景下自然形成的道德信念、道德判斷和道德行為的模式。這些模式實(shí)際上存在或者產(chǎn)生于現(xiàn)實(shí)世界。后者則依據(jù)特定的倫理理論，規(guī)定在特定社會中，相關(guān)主體應(yīng)該遵循的倫理規(guī)范。這兩類倫理學(xué)理論為實(shí)現(xiàn)機(jī)器倫理奠定了方法論基礎(chǔ)。

　　描述性倫理學(xué)由道德心理學(xué)家建立，強(qiáng)調(diào)道德情感和道德直覺，通過研究人們作出道德判斷的方式來獲得理論。有名的描述倫理學(xué)包括道德基礎(chǔ)理論和二元道德理論。前者基于五種基本的道德情況分析情境，后者分析關(guān)于傷害的道德。規(guī)范性倫理學(xué)由道德哲學(xué)家建立，強(qiáng)調(diào)作道德決策時的理性，旨在建立標(biāo)準(zhǔn)來確定在不同視角下行動的對與錯，包括美德、義務(wù)、效用以及正義等。決策的相關(guān)方面主要包括決策主體、決策自身以及決策后果。與普通決策相比，道德決策強(qiáng)調(diào)對他人目標(biāo)、偏好和約束的考量。依據(jù)對決策相關(guān)方面的考慮重點(diǎn)不同，有不同的倫理學(xué)理論。當(dāng)把決策主體作為最相關(guān)的方面時，重點(diǎn)考慮的是決策主體的目標(biāo)、意圖和動機(jī)（反映主體的美德），而依此建立的倫理學(xué)理論稱為美德論；當(dāng)把決策選項(xiàng)及決策本身作為最相關(guān)的方面時，所建立的倫理學(xué)理論稱為道義論；當(dāng)把決策結(jié)果作為最相關(guān)的方面時，所建立的理論稱為功利論或結(jié)果論。其中，美德論規(guī)定的不是如何決策，而是主體的意圖、目標(biāo)和偏好。因此，美德倫理學(xué)把一個行動定義為道德上好的，如果主體可以體現(xiàn)道德美德。道義論規(guī)定在一系列規(guī)則下，一個決策的正確性應(yīng)該基于一個選擇自身是對的或錯的，而不是誰執(zhí)行它。因此，道義論把一個行動定義為道德上好的，如果它與特定的可應(yīng)用道德規(guī)則或義務(wù)相符。最后，結(jié)果論把一個行動定義為道德上好的，如果它可以極大化福祉或效用。

　　除了上述三類方法，也可以采用混合的方法，并規(guī)定特定的層次關(guān)系。如，一個以道義論為主的系統(tǒng)首先使用規(guī)則來作決策，但當(dāng)規(guī)則發(fā)生沖突時，采用極大化效用來消除沖突。

　　把上述理論作為實(shí)現(xiàn)機(jī)器倫理的哲學(xué)基礎(chǔ)存在一些挑戰(zhàn)。首先，對于道義論來說，挑戰(zhàn)不僅來自對沖突規(guī)則的處理以及存在不精確規(guī)則和例外,還來自規(guī)則的獲取問題、規(guī)則的情境依賴性問題等。其次，對于結(jié)果論來說，挑戰(zhàn)來自效用的確定問題和聚合問題。對于效用的確定，有一些衡量尺度，但是選擇不同的尺度會得到不同的結(jié)果。即使給每個結(jié)果指派一個效用，簡單合成它們可能也不適當(dāng)。最后，對于美德論說，挑戰(zhàn)來自沖突的美德，以及美德的具體化問題。此外，道義論和結(jié)果論的共同挑戰(zhàn)是難以適應(yīng)快速變化的環(huán)境。其中，道義論試圖建立固定的規(guī)則集合，而結(jié)果論則試圖辨別特定行為的結(jié)果。對于一個快速變化的世界，難以確定特定決策的結(jié)果到底是什么。

　　此外，依據(jù)不同的情境，機(jī)器經(jīng)常需要應(yīng)用不同的倫理學(xué)理論。這是因?yàn)槿祟惖牡赖率菑?fù)雜的，難以被一種單一的經(jīng)典倫理學(xué)理論所刻畫。因此，倫理學(xué)理論需要與領(lǐng)域相關(guān)的倫理相結(jié)合。有些工作把民間道德用于機(jī)器倫理。不過，民間道德也有自己的問題，包括哪些人及其價值應(yīng)該被考慮，如何獲得他們的價值，以及如何合成他們的價值等。

　　二、機(jī)器倫理的基本特征

　　盡管機(jī)器倫理與人類倫理有很強(qiáng)的關(guān)聯(lián)性，在實(shí)現(xiàn)機(jī)器倫理時可以基于人類倫理，但也存在本質(zhì)上的差異性，需要著重進(jìn)行研究。第一，目前的機(jī)器還沒有現(xiàn)實(shí)主義意義上的主體性和體驗(yàn)性，機(jī)器充當(dāng)?shù)墓δ苋匀灰怨ぞ咝詾橹?。第二，與人類個體的決策不同，機(jī)器的倫理決策需要代表多個利益相關(guān)方的倫理考量，存在如何權(quán)衡各方利弊并作出選擇的問題。第三，與人類倫理相比，機(jī)器倫理需要更多考慮（跨）文化的差異性。第四，機(jī)器倫理強(qiáng)調(diào)機(jī)器作為人類的代理必須具備與人類進(jìn)行有效交互的能力。

　　（一）弱主體決策性

　　機(jī)器是否可以具備倫理決策能力在哲學(xué)上是有爭議的。這主要取決于機(jī)器是否擁有責(zé)任和權(quán)利，而后者跟機(jī)器是否有主體性（agency）和體驗(yàn)性（experience）有關(guān)。其中，主體性指的是主體進(jìn)行思考、推理、規(guī)劃和實(shí)現(xiàn)意圖的能力，體驗(yàn)性則指主體體會情感和感覺的能力，如疼痛和恐懼等。主體性要求主體有意向行動的能力。我們說一個行動是意向性的，當(dāng)它是由主體的意向心智狀態(tài)（如信念、愿望等）所引發(fā)的。關(guān)于意向性，有兩種不同的理解。一種是在強(qiáng)的“現(xiàn)實(shí)主義”意義上，要求主體的意向行動具有理解的能力以及現(xiàn)象意識的能力，這個較難在機(jī)器上實(shí)現(xiàn)。另一種是在較弱的“工具主義”意義上，允許更加直接的歸因。這時，信念和愿望是否可以歸因于一個實(shí)體完全取決于這種歸因是否有助于解釋其行為。除了意向性，倫理主體需要其他條件，如理解對其他主體責(zé)任的能力，按照其倫理義務(wù)和其行動可能引發(fā)的可預(yù)見性傷害，監(jiān)視自己行為的能力等。如果機(jī)器能夠在現(xiàn)實(shí)主義意義上理解其義務(wù)或者可以預(yù)見其行動的傷害，那么它被認(rèn)為可以對任何由它造成的傷害負(fù)責(zé)。然而，這些是在意向主體性的強(qiáng)意義下作出的推論。一些哲學(xué)家認(rèn)為僅僅在工具主義含義下的意向性不足以給機(jī)器定義重要權(quán)利或義務(wù)。希馬（K.E.Himma）認(rèn)為，在主體性概念的基礎(chǔ)上，道德主體性是指主體有能力來作出自由選擇，思考什么應(yīng)該做，并在范例中正確理解和應(yīng)用道德規(guī)則。

　　一般認(rèn)為，機(jī)器只有“工具主義”意義上的意向性且不具有體驗(yàn)性。正如陳小平所言，AI確實(shí)不應(yīng)該、也不可能承擔(dān)主體責(zé)任。此時，可以把機(jī)器理解為人類的工具或代理，它們具有一定的“自主”決策或行動能力, 因此可依據(jù)具體情況作出不同的選擇，并導(dǎo)致不同的倫理后果。我們說機(jī)器的這種自主性是工具主義意義上的。依據(jù)倪梁康的觀點(diǎn)，機(jī)器的“自主”決策仍是計(jì)算，而非思考，即不具有在意志自由前提下進(jìn)行自行選擇和自行決定的能力。為了與現(xiàn)實(shí)主義意義上的自主性概念作出區(qū)分，也可以把機(jī)器的“自主”決策理解為“自動”決策。進(jìn)而，我們把這種機(jī)器的倫理決策稱為“弱主體決策”，意指這種倫理決策不是由人類主體作出的，而是由能夠反映人類主體道德訴求的無法承擔(dān)主體責(zé)任的人工主體作出的。依據(jù)拉奧和喬治夫（A. S. Rao和M. P. Georgeff）的理論，基于BDI邏輯的人工智能主體可以基于當(dāng)前的信念形成愿望和意圖，并在意圖的約束下行動。此時，該人工智能主體雖然可以用信念、愿望和意圖來解釋行動，但不具有意向性和體驗(yàn)性。隨著新一代人工智能技術(shù)尤其是生成式人工智能的發(fā)展，機(jī)器可以產(chǎn)生人類無法完全預(yù)知的內(nèi)容。不過，從工作原理上看，目前的生成式人工智能模型仍然基于大數(shù)據(jù)訓(xùn)練而成。這樣的模型可以理解為一個復(fù)雜的函數(shù)，它是靜態(tài)的，與現(xiàn)實(shí)世界是分離的，因此缺少人類心靈那樣可以定向到對象的指向性，在本質(zhì)上也不具有意向性。

　?。ǘ┥鐣胶庑?/p>

　　機(jī)器決策的弱主體性決定了其決策所反映的不是自身的意志，而是受其行為影響的人類利益相關(guān)方的倫理考量。例如，對于一種無人駕駛汽車的行為，涉及多個利益相關(guān)方：政府管理者關(guān)心機(jī)器行為的合法性和公平性，汽車設(shè)計(jì)者、開發(fā)者及制造商關(guān)心責(zé)任問題和企業(yè)形象問題，用戶和行人等關(guān)心自己的利益和人身安全等。這些利益相關(guān)方所堅(jiān)持的倫理價值和偏好經(jīng)常相互沖突。再如，對于自動駕駛汽車，當(dāng)發(fā)生不可避免的傷害時，應(yīng)該更加傾向于保護(hù)車上的人還是行人？對于一個護(hù)理機(jī)器人，它在給病人送藥時，應(yīng)該更加尊重其隱私，還是更加重視醫(yī)囑？由于各個利益相關(guān)方存在相互沖突的倫理訴求，因此需要“平衡”這些倫理訴求，達(dá)成滿足一定條件的集體意見。

　　首先，集體意見應(yīng)該具有透明性。與人類個體的倫理決策不同，機(jī)器決策通常基于大數(shù)據(jù)和機(jī)器學(xué)習(xí)算法。機(jī)器學(xué)習(xí)算法的不可解釋性給倫理決策的透明性帶來技術(shù)上的挑戰(zhàn)。換句話說，如果機(jī)器的決策是不可解釋的，那么人類社會的哪些倫理考量最終會影響到機(jī)器的決策就無法被清晰描述與評價。由此帶來的進(jìn)一步問題是機(jī)器的行為難以被準(zhǔn)確預(yù)見，這在一定情況下是災(zāi)難性的。目前的大語言模型基于大數(shù)據(jù)和機(jī)器學(xué)習(xí)技術(shù)，盡管它們也能依據(jù)用戶的問題或提示給出“解釋”，但這種解釋的正確性并沒有保障。其根本原因是大語言模型所產(chǎn)生的解釋與其生成的其他內(nèi)容同屬于一個對象層次，缺乏在元層次上對其所生成的內(nèi)容進(jìn)行評價的機(jī)制。

　　其次，集體意見應(yīng)能反映深層的邏輯沖突。許多倫理沖突不僅僅是決策選項(xiàng)上的不相容，而且存在復(fù)雜的邏輯上的沖突關(guān)系。在由規(guī)范來實(shí)現(xiàn)的倫理決策中，不同的沖突處理邏輯會產(chǎn)生不同的決策結(jié)果。例如，有個機(jī)器人在一次決策中受到來自不同利益相關(guān)方的規(guī)范約束： “如果公司在歐洲注冊，那么這算作我們公司在歐洲合法做生意”（公司），“如果一個公司在歐洲合法做生意，那么它必須遵守GDPR”（法律），“如果在公司所收集數(shù)據(jù)中包含一個對社會存在重大威脅的信息，那么可以未經(jīng)用戶許可收集用戶的進(jìn)一步信息”（公司）。假設(shè)有如下背景信息：公司A在歐洲注冊，它在所收集數(shù)據(jù)中發(fā)現(xiàn)一個對社會存在重大威脅的信息；“遵守GDPR”與“未經(jīng)用戶許可收集用戶進(jìn)一步信息”在邏輯上矛盾。機(jī)器人為了依據(jù)這些倫理考量作出決策，需要能夠處理由這些規(guī)范所帶來的內(nèi)在邏輯沖突。

　　最后，集體意見應(yīng)該體現(xiàn)公平性。對于“公平”這一概念，不同學(xué)科有不同的定義。從機(jī)器學(xué)習(xí)的角度看，公平意味著在敏感特征方面對不同的人給予相同的對待,這對應(yīng)于算法偏見或算法歧視。從機(jī)器倫理集體決策的角度看，不僅要反映不同利益相關(guān)方受到機(jī)器行為影響的程度，而且要保障所有利益相關(guān)方的意見受到公平對待。在特定背景下，利益相關(guān)方受到機(jī)器行為影響的程度不同。

　?。ㄈ┪幕町愋?/p>

　　傳統(tǒng)上，道德被認(rèn)為是對錯之間的明確界限，但一項(xiàng)針對無人駕駛汽車的研究表明，文化價值觀可以改變這條界限。這不僅對無人駕駛汽車這樣的具體應(yīng)用領(lǐng)域具有重要意義，而且對更廣泛的領(lǐng)域也是如此。當(dāng)一個國家的“正確”與另一個國家的不同時，國際化的決策就會變得復(fù)雜得多。與此同時，那些刻畫特定文化與特定地理場域中人們的行為習(xí)慣的“風(fēng)土性因素”也會在倫理決策時產(chǎn)生重要影響。

　　在特定社會中，文化與價值緊密關(guān)聯(lián)。道德規(guī)范因文化而異。文化規(guī)范和由文化所塑造的情感對道德領(lǐng)域和道德判斷過程產(chǎn)生重大影響。在廣泛的社會科學(xué)研究領(lǐng)域，價值是理解跨文化差異的重要工具。依據(jù)羅克奇（M. Rokeach）的理論，價值是每個人和社會內(nèi)部理想的核心概念，是指導(dǎo)一個人行動的信念的基礎(chǔ)，也是社會層面上指導(dǎo)原則的基礎(chǔ)。因此，從文化的視角研究人類道德對于人類倫理學(xué)理論發(fā)展非常重要，對機(jī)器倫理也是如此。

　　每種文化都有自己的規(guī)則來規(guī)定什么是對的，什么是錯的。然而，在道德決策時，經(jīng)常存在差異。由于每個普遍性的背后都有一些文化的差異，道德的普遍性難以找到。亨利希（J. Henrich）等人的研究表明，大多數(shù)人反對在經(jīng)濟(jì)博弈中采取完全自利的行為，但不同文化對于在這些博弈中判定什么構(gòu)成公平的行為有不同預(yù)期。這樣，在不同的文化背景下有不同的道德規(guī)范：不同的基礎(chǔ)（關(guān)懷、公正、忠誠等）在道德基礎(chǔ)網(wǎng)絡(luò)中的影響力取決于文化背景。同時，不同文化背景下的人們對相同的情境持有不同的態(tài)度。

　　這種文化的差異性對于機(jī)器倫理的發(fā)展也會產(chǎn)生重要影響。為了使得機(jī)器的行為跟特定文化背景下的倫理對齊，準(zhǔn)確刻畫特定文化背景下人們的倫理偏好是一個重要前提。例如，在無人駕駛領(lǐng)域，文化對人們進(jìn)行道德判斷產(chǎn)生重要影響：除了對拯救人類生命、拯救更多生命和拯救年輕人生命有較多的一致性意見外，關(guān)于性別或社會地位的偏好在不同國家之間存在重要差異。在什么情況下可以犧牲一人來拯救多人，在不同文化背景下，關(guān)于這個問題的普遍性和差異性，有著復(fù)雜的模式。對于每個犧牲的定量可接受性，國家之間有實(shí)質(zhì)的不同。例如，低關(guān)系流動性與拒絕為更大的利益作出犧牲有著強(qiáng)烈的聯(lián)系。

　?。ㄋ模┤藱C(jī)交互性

　　由于弱主體性，機(jī)器的決策所依據(jù)的是人類的倫理考量。為了讓決策結(jié)果最終被人類所接受和信任，機(jī)器必須具有對決策過程和結(jié)果的解釋能力。換句話說，即使機(jī)器能與人類標(biāo)準(zhǔn)的倫理對齊，如果它不能夠解釋和辯護(hù)自己的決定，仍然難以替代人類的決定。因此，可解釋人工智能對于建立可信的和可靠的機(jī)器非常重要，即機(jī)器能夠解釋一個決定背后的倫理理由。這種解釋的能力可以改善機(jī)器在一個社會系統(tǒng)中適配道德要求的能力。同時，由于人工智能系統(tǒng)的決策牽涉多個利益相關(guān)方，因此當(dāng)其作出決策并采取相應(yīng)行為而導(dǎo)致相關(guān)后果時，如何進(jìn)行責(zé)任歸因是一個重要問題。通常，一個群組應(yīng)該負(fù)責(zé)任是清楚的，但其中每個個體應(yīng)該負(fù)什么責(zé)任卻不清楚。在一個人工智能系統(tǒng)中，一個行為的后果經(jīng)常牽涉到設(shè)計(jì)、開發(fā)、部署、使用、監(jiān)管等各個環(huán)節(jié)。亞茲丹帕納（V. Yazdanpanah）等人提出，在這種情況下，需要建立有效的責(zé)任推理機(jī)制來實(shí)現(xiàn)責(zé)任歸因。為了實(shí)現(xiàn)可解釋性和責(zé)任歸因，要求機(jī)器能夠用人類可理解的語言來表示和交流道德推理，包括機(jī)器決策的實(shí)際推理過程。在一個道德復(fù)雜的領(lǐng)域中，人類倫理學(xué)家無法制定清晰的基于輸出的方法來監(jiān)視機(jī)器的行為，基于理由的解釋就顯得尤為重要。這時，機(jī)器不僅需要自動產(chǎn)生與決策過程和結(jié)果相關(guān)的交互內(nèi)容，而且需要以人類可理解的語言表達(dá)這些內(nèi)容，實(shí)現(xiàn)有效交互。

　　人機(jī)對話涉及對話策略和對話語言。以解釋為目的的對話策略需要機(jī)器了解用戶背景，在忠實(shí)于決策過程和結(jié)果的前提下，使得解釋內(nèi)容極小化，解釋過程極短化。對話語言主要包括自然語言和表情。由于機(jī)器在決策時所采用的語言不是自然語言，因此如何把決策過程和結(jié)果轉(zhuǎn)化為自然語言描述，以及如何把用戶的自然語言描述轉(zhuǎn)化為機(jī)器的內(nèi)部表達(dá)，是人機(jī)交互的重要方面。此外，情感表達(dá)與機(jī)器倫理有緊密關(guān)系。一方面，一些倫理決策結(jié)果可以通過情感表達(dá)傳遞給用戶；另一方面，來自用戶的情感表達(dá)可以被轉(zhuǎn)化為機(jī)器倫理模型輸入的一部分。

　　三、實(shí)現(xiàn)機(jī)器倫理的主要方法

　　由于機(jī)器倫理的弱主體決策性，實(shí)現(xiàn)機(jī)器倫理的主要方式是倫理對齊，即使得機(jī)器的行為與人類社會的倫理價值對齊。為了建立倫理對齊方法，可以參照人類倫理學(xué)中的描述性倫理和規(guī)范性倫理產(chǎn)生方法。與規(guī)范性倫理相對應(yīng)，形式化規(guī)范倫理通過表示一組抽象的原則來形成一個有效的算法；與描述性倫理相對應(yīng)，形式化描述倫理通過特征化基于案例的直覺，來刻畫人們所關(guān)心的倫理特征。從而，形式化的描述性/規(guī)范性倫理可以明確表示隱藏于我們判斷中的倫理考量。目前，人工智能算法的實(shí)現(xiàn)途徑包括知識驅(qū)動、數(shù)據(jù)驅(qū)動或數(shù)據(jù)知識雙驅(qū)動。參照這些實(shí)現(xiàn)途徑，可以建立對應(yīng)的機(jī)器倫理實(shí)現(xiàn)方法。第一，知識驅(qū)動方法基于給定的知識進(jìn)行決策，可以建模與人類規(guī)范性倫理對應(yīng)的機(jī)器倫理。第二，數(shù)據(jù)驅(qū)動方法依據(jù)數(shù)據(jù)集/案例集進(jìn)行決策或產(chǎn)生一般性知識，可以建模與人類描述性倫理對應(yīng)的機(jī)器倫理。第三，把知識驅(qū)動方法和數(shù)據(jù)驅(qū)動方法結(jié)合起來，可以建模能夠反映實(shí)際案例的、可解釋的機(jī)器倫理。

　?。ㄒ唬┲R驅(qū)動方法

　　知識驅(qū)動方法通過把倫理價值和規(guī)范表示為知識，并通過推理來實(shí)現(xiàn)道德決策。我們從義務(wù)論的角度分析知識驅(qū)動方法，以及這種方法如何處理機(jī)器倫理的社會平衡性和文化差異性問題。

　　在基于義務(wù)論的知識驅(qū)動方法中，第一個核心問題是價值和規(guī)范的表示問題。有些規(guī)范用于表達(dá)特定情境中智能主體應(yīng)該執(zhí)行的動作或達(dá)成的目標(biāo)。規(guī)范通常與價值相聯(lián)系。下面是來自伊索寓言故事《螞蟻和蚱蜢》中一些有關(guān)價值與規(guī)范的例子：

　　N1: 為了快樂，夏天應(yīng)該不勞動。

　　N2: 為了生存，夏天應(yīng)該勞動。

　　N3: 出于公平，應(yīng)該不要把食物送給不勞動者。

　　N4: 出于憐憫，應(yīng)該把食物送給不勞動者。

　　在這個例子中，對價值(快樂、生存、公平、憐憫)的不同排序決定著主體對各自行為的不同選擇。例如，在炎熱的夏天，螞蟻傾向于長遠(yuǎn)的生存價值，因此螞蟻認(rèn)為N2優(yōu)先于N1，而蚱蜢傾向于即時的快樂，因此蚱蜢認(rèn)為N1優(yōu)先于N2。

　　進(jìn)一步地，可以把規(guī)范分為三種基本類別：規(guī)制型規(guī)范、建構(gòu)型規(guī)范和許可型規(guī)范。其中，規(guī)制型規(guī)范要求主體在特定條件下“應(yīng)當(dāng)”做什么，如上面的N1至N4四條規(guī)范。建構(gòu)型規(guī)范把特定情境規(guī)定為“制度事實(shí)”，如“在特定文書上簽字算作合同”。在這里，“在特定文書上簽字”是天然事實(shí)，而“合同”是制度事實(shí)。許可型規(guī)范規(guī)定特定情境中主體的哪些行為是被許可的。例如，“在遇到緊急事件時，允許打破玻璃窗”。在標(biāo)準(zhǔn)道義邏輯中，通常將“許可”看作“應(yīng)當(dāng)”的對偶，即“并非應(yīng)當(dāng)不做某事”等價于“許可做某事”。在實(shí)際的道德推理中，也可以把“許可”看作“應(yīng)當(dāng)”的例外。例如，在通常情況下應(yīng)該愛護(hù)玻璃窗，但在遇到緊急事件時，允許打破玻璃窗。

　　在明晰了規(guī)范和價值的概念之后，可以選擇特定的形式語言來表達(dá)規(guī)范和價值。在人工智能領(lǐng)域，通常采用可廢止規(guī)則來表示規(guī)范。這里的可廢止規(guī)則形如“如果p,那么通常情況下q”,其中p和q是命題，意指當(dāng)p為真時，q通常為真，除非存在反面證據(jù)。通常，把p稱為該規(guī)則的前提，q稱為該規(guī)則的結(jié)論。例如，當(dāng)用藥時間到的時候，（為了保護(hù)病人的健康）應(yīng)該給病人服藥。采用這種方式，可以把每個利益相關(guān)方的倫理考量表示為一個規(guī)范系統(tǒng)。該系統(tǒng)規(guī)定了用于表示規(guī)范的邏輯語言以及由該語言表示的規(guī)范集合。

　　在明確地表達(dá)了利益相關(guān)方的規(guī)范系統(tǒng)之后，第二個核心問題是滿足社會平衡性要求的倫理困境消解問題。

　　一般地，我們把“應(yīng)當(dāng)p”和“應(yīng)當(dāng)非p”看作一個倫理困境。例如，把“夏天應(yīng)該勞動”和“夏天應(yīng)該不勞動”看成一個倫理困境。由于規(guī)范是一種可廢止規(guī)則，可以從規(guī)則的結(jié)論中分離出義務(wù)命題。例如，對于規(guī)范“當(dāng)用藥時間到的時候，（為了保護(hù)病人的健康）應(yīng)該給病人服藥”和“當(dāng)病人正在處理緊急事件的時候，（為了保護(hù)病人的安全）應(yīng)該不給病人服藥”，當(dāng)前提“用藥時間到”和“病人正在忙”同時成立時，可以分離出兩個義務(wù)命題“應(yīng)該給病人服藥”和“應(yīng)該不給病人服藥”。這種從規(guī)范中分離出義務(wù)命題，并由此判斷是否存在倫理困境的方法，可以由不同的邏輯工具來實(shí)現(xiàn)，如缺省推理、結(jié)構(gòu)化論辯等。給定一個規(guī)范系統(tǒng)，對于每個倫理敏感事件，是否存在倫理困境取決于在推理結(jié)果中是否存在兩個不相容的義務(wù)命題。例如，如果依據(jù)缺省推理，得到兩個外延（通常把每個可接受的命題集合稱為一個外延），其中一個外延包含命題“應(yīng)該給病人服藥”，另一個外延包含命題“應(yīng)該不給病人服藥”，那么就存在一個倫理困境。

　　在這種推理中，機(jī)器倫理的社會平衡性體現(xiàn)在來自不同利益相關(guān)方的規(guī)范及價值的相互作用。如果綜合了不同利益相關(guān)方的規(guī)范和價值的知識導(dǎo)致倫理困境，那么就需要采取適當(dāng)機(jī)制來解決該困境。目前的常用機(jī)制有兩種。第一，通過對相關(guān)規(guī)范進(jìn)行排序的方式處理倫理困境。這種方法在如下情況下有效：可以獲得特定背景下規(guī)范之間的排序，同時在排序之后，所推出的結(jié)論不存在倫理困境。第二，通過社會聚合，找到社會層面可接受的方案。當(dāng)?shù)谝环N方法不能滿足要求時，可以通過判斷聚合的形式，進(jìn)一步獲取社會層面的一致意見。例如，把每個利益相關(guān)方的觀點(diǎn)表達(dá)為一個基于規(guī)范系統(tǒng)的抽象論辯框架，通過基于論辯框架的聚合，獲得社會層面的一致結(jié)果。目前，對這種社會聚合方法的評價基于一些特定的原則，而關(guān)于這些原則的合理性還有待進(jìn)一步研究。此外，一些價值對齊系統(tǒng)假定有一個價值系統(tǒng)，但在多數(shù)情況下由于價值的多元性，需要從多個不同的個體價值系統(tǒng)出發(fā)，得到一個一致的價值系統(tǒng),以決定一個人工智能系統(tǒng)應(yīng)該跟什么道德價值對齊。

　　值得注意的是，上述基于規(guī)范/價值排序或判斷聚合的形式來處理倫理困境存在一定的局限性：(1)在許多情況下，一個行動或事件的好壞往往涉及多個因素，這些因素又依賴于情境及相關(guān)主體的價值觀，因此在一些實(shí)際應(yīng)用中關(guān)于規(guī)范/價值排序的處理往往比較復(fù)雜；(2)有些倫理困境無法僅僅通過運(yùn)用利益相關(guān)方給出的規(guī)范及價值排序進(jìn)行推理就可消解；(3)在處理沖突過程中如何定義和實(shí)現(xiàn)公平性存在困難。

　　為了克服上述第一個局限性，一種可能的途徑是在有些應(yīng)用中，通過發(fā)揮數(shù)據(jù)驅(qū)動方法的優(yōu)勢，利用有監(jiān)督的數(shù)據(jù)來反映人類個體對特定情境中某個事件的綜合判斷。這時，相關(guān)主體對某個行動或事件的好壞有個綜合判斷，而不需要明確指出相關(guān)規(guī)范、價值及其排序。

　　對于上述第二個局限性，一種可能的解決途徑是對倫理困境的處理過程進(jìn)行分級，以適應(yīng)不同的情境。例如，在初始級，可以由各個利益相關(guān)方分別依據(jù)自己的規(guī)范和價值進(jìn)行推理，給出結(jié)果。如果所有利益相關(guān)方的結(jié)果綜合在一起時不存在倫理困境，則指示機(jī)器按照利益相關(guān)方給出的綜合方法行動。否則，進(jìn)入下一級，把各個利益相關(guān)方的規(guī)范和價值綜合起來，并在此基礎(chǔ)上進(jìn)行推理，看是否可以解決倫理困境。如果困境仍未解決，則進(jìn)入第三級，通過引入情境相關(guān)的元規(guī)范，對利益相關(guān)方進(jìn)行排序。這樣處理的優(yōu)點(diǎn)是可以在計(jì)算時間和倫理困境處理質(zhì)量方面取得一定平衡。不過，關(guān)于如何處理倫理困境消解帶來的公平性問題，仍有待于進(jìn)一步研究。

　　此外，在知識驅(qū)動方法中，文化差異性表現(xiàn)在利益相關(guān)方所提供的規(guī)范和價值。例如，對于病人拒絕在規(guī)定時間服藥，在西方文化背景下，可能偏向于尊重病人的自主權(quán)，而在東方背景下，可能偏向于強(qiáng)調(diào)監(jiān)護(hù)人的監(jiān)護(hù)責(zé)任，把相關(guān)情況通知監(jiān)護(hù)人。

　　知識驅(qū)動方法可以直接表達(dá)人類水平的知識，推理過程和結(jié)果均有良好的可解釋性。不過，對于知識的獲取，尤其對于不同文化背景下的知識獲取，單獨(dú)運(yùn)用知識驅(qū)動方法難以實(shí)現(xiàn)。

　　（二）數(shù)據(jù)驅(qū)動方法

　　數(shù)據(jù)驅(qū)動方法通過學(xué)習(xí)人類決策或偏好，在一定程度上實(shí)現(xiàn)倫理對齊。對于有監(jiān)督的機(jī)器學(xué)習(xí)，人類專家或公眾對每個訓(xùn)練案例進(jìn)行標(biāo)識，指出什么選項(xiàng)是好的，什么選項(xiàng)是不好的。依據(jù)機(jī)器學(xué)習(xí)方法的不同，可以得到用于倫理對齊的規(guī)則或者符合特定倫理要求的模型。前者基于案例和歸納邏輯編程，具有良好的可解釋性；后者基于一般的機(jī)器學(xué)習(xí)方法，尤其是深度神經(jīng)網(wǎng)絡(luò)，需要進(jìn)一步建立可解釋方法來提高模型的可解釋性。

　　下面以基于歸納邏輯編程的方法為例，說明數(shù)據(jù)驅(qū)動方法的特點(diǎn)。這種方法的輸入是一組案例集合。每個案例由一個情境和兩個動作組成。每個動作的結(jié)果表示為一個特征向量，用于反映特定情境中執(zhí)行該動作所帶來的倫理后果。人類專家或用戶依據(jù)特定情境從兩個動作中選擇一個倫理上比較好的動作并加以標(biāo)記。在獲得一組包含標(biāo)記的案例集合之后，機(jī)器學(xué)習(xí)算法通過學(xué)習(xí)獲得可以反映人類專家或用戶倫理選擇的原則，使得所有正例都被該原則所覆蓋，而沒有負(fù)例被該原則覆蓋。在這里，每個原則表示為一個特征向量，反映的是執(zhí)行某個動作而不執(zhí)行另一個動作所帶來的倫理后果的差異。我們說一個案例被一條原則覆蓋，意指該案例的特征向量的每個元素的值都不低于該原則中相應(yīng)的倫理差異的下界。

　　由上述分析可知，與知識驅(qū)動方法不同，數(shù)據(jù)或案例驅(qū)動的方法通過使用機(jī)器學(xué)習(xí)方法來訓(xùn)練與具體道德問題有關(guān)的人類描述以預(yù)測人類的道德判斷。這種方法有點(diǎn)像兒童學(xué)習(xí)道德，預(yù)設(shè)機(jī)器在接收到足夠多的帶標(biāo)記的數(shù)據(jù)后，可以學(xué)會如何決策和行動。由于深度神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果具有不確定性，在一些情況下可能出現(xiàn)凸現(xiàn)性質(zhì)。這種凸現(xiàn)原則上是無法預(yù)知和被控制的。為了避免造成意外傷害的可能，一種可能的途徑是把數(shù)據(jù)驅(qū)動與知識驅(qū)動方法相結(jié)合，由顯式表達(dá)的規(guī)范性知識來引導(dǎo)機(jī)器的決策和行為。

　　對于數(shù)據(jù)驅(qū)動方法，也需要聚合來自不同個體的社會價值，以得到統(tǒng)一的意見，實(shí)現(xiàn)社會平衡性。與知識驅(qū)動方法不同的是，數(shù)據(jù)驅(qū)動方法需要聚合的不是多個利益相關(guān)方的規(guī)范和價值排序，而是多個個體對某一行動或事件在倫理上的不同看法。在數(shù)據(jù)驅(qū)動方法中，人類專家或用戶對特定案例的倫理判斷基于個人直覺，反映的是其綜合的價值觀。因此，在數(shù)據(jù)驅(qū)動方法中，既不需要也無法事先預(yù)設(shè)某種倫理理論。這將導(dǎo)致兩個相互聯(lián)系的結(jié)果。一方面，由于不同的主體有不同的價值取向而且倫理事件具有很強(qiáng)的背景相關(guān)性，通過數(shù)據(jù)或案例的形式可以解決在各種倫理敏感情境中難以套用某種單一倫理理論的困難。另一方面，由于主體所堅(jiān)持的價值觀隱含于其倫理選擇中，因此缺乏對倫理考量的顯式表達(dá)和可解釋途徑。關(guān)于社會平衡性中的沖突消解和公平性問題，數(shù)據(jù)驅(qū)動方法也存在局限性。其一，由于人類專家或用戶的規(guī)范和價值沒有得到顯式表達(dá)，因此缺乏細(xì)粒度的規(guī)范及價值沖突處理機(jī)制。其二，基于多數(shù)專家或用戶觀點(diǎn)的數(shù)據(jù)統(tǒng)計(jì)方法容易引起多數(shù)暴力問題，如何確保合理性和公平性，是值得進(jìn)一步研究的問題。

　　此外，數(shù)據(jù)驅(qū)動方法，尤其是基于大語言模型的方法，對于處理機(jī)器倫理的文化差異性有獨(dú)特優(yōu)勢。我們知道，語言作為文化的最重要組成部分之一，是人們相互交流、建立關(guān)系和形成社群的基本途徑。近年來，隨著大語言模型的快速發(fā)展，把大語言模型用于捕捉文化背景的差異成為一個重要研究方向。一般來說，語言模型不應(yīng)該被用于規(guī)定倫理，而是從描述性的視角處理道德規(guī)范推理問題。因此，可以通過修改提示來讓語言模型產(chǎn)生不同文化下的道德規(guī)定。在沙姆羅夫斯基（P. Schramowski）等人的工作中，基于大語言模型，可以捕捉到有關(guān)社會規(guī)范、道德規(guī)范以及價值的知識，包括道德偏見以及道德正確和錯誤的行動等。在一些設(shè)定下，多語言預(yù)訓(xùn)練模型能夠識別文化規(guī)范和偏見，包括說不同語言的文化下的道德規(guī)范。不僅如此，單一語言的預(yù)訓(xùn)練模型也可以編碼關(guān)于道德規(guī)范的文化知識，即單一語言的預(yù)訓(xùn)練模型可以精確地推理出跨越多個文化的道德規(guī)范。此外，當(dāng)文化背景變化時，倫理機(jī)制也跟隨變化，因此基于大語言模型建立靈活的、可解釋的框架來刻畫這種變化是一個重要的研究方向。另外，有學(xué)者通過把用戶價值編碼為一組規(guī)則或一個模型，可研究情景的改變?nèi)绾斡绊戇@些編碼。

　?。ㄈ?shù)據(jù)知識雙驅(qū)動方法

　　上述的知識驅(qū)動方法與數(shù)據(jù)驅(qū)動方法有各自的優(yōu)缺點(diǎn)，且這些優(yōu)缺點(diǎn)是互補(bǔ)的。一方面，知識驅(qū)動方法可以直接反映人類的規(guī)范與價值，且有良好的可解釋性，但需要預(yù)設(shè)特定的倫理學(xué)理論，且無法靈活處理文化差異性和動態(tài)性。另一方面，數(shù)據(jù)驅(qū)動方法可以靈活反映各種不同情境中人類專家或用戶的倫理考量，且可以通過大語言模型獲取跨文化背景下的倫理知識及其差異性，但可解釋性差，且無法受到人類倫理和規(guī)范的直接導(dǎo)向。鑒于該原因，把兩種方法的優(yōu)勢結(jié)合起來，建立數(shù)據(jù)知識雙驅(qū)動的方法，成為一個新的發(fā)展方向。

　　知識與數(shù)據(jù)的結(jié)合可以采取不同的途徑，典型的包括組合型的和集成型的。組合型的途徑把數(shù)據(jù)驅(qū)動方法和知識驅(qū)動方法串聯(lián)起來，前者實(shí)現(xiàn)知識的獲取功能，后者實(shí)現(xiàn)知識推理與決策功能。例如，林方真等人把大語言模型與自動推理機(jī)相結(jié)合來實(shí)現(xiàn)形式化知識的自動獲取和自動推理。其中，大語言模型可以把用自然語言表示的知識翻譯為一階邏輯公式，而自動推理機(jī)則完成推理功能。由于自動推理機(jī)可以處理復(fù)雜的邏輯關(guān)系，大語言模型與自動推理機(jī)的結(jié)合可以提高系統(tǒng)的整體性能?；谶@個思路，一種可能的研究途徑是通過大語言模型，把由利益相關(guān)方產(chǎn)生的由自然語言表達(dá)的規(guī)范及價值轉(zhuǎn)化為形式化的規(guī)范系統(tǒng)，或者挖掘出包含于自然語言文本中的論證及其關(guān)系。在此基礎(chǔ)上，通過規(guī)范推理或論辯推理，實(shí)現(xiàn)自動倫理決策。這種系統(tǒng)的決策利用了自然語言文本中的人類知識水平，而不僅僅是自然語言文本的數(shù)據(jù)特征。因此，可以為細(xì)粒度處理和解釋利益相關(guān)方的價值沖突、建立具有公平性的系統(tǒng)奠定基礎(chǔ)。

　　集成型的途徑把數(shù)據(jù)驅(qū)動方法和知識驅(qū)動方法交叉集成起來，使得前者的輸出作為后者的輸入，同時后者的輸入作為前者在進(jìn)行算法優(yōu)化時的依據(jù)之一（通過損失函數(shù)）。例如，在我們的前期工作中，把基于論證的知識表示與大數(shù)據(jù)驅(qū)動的機(jī)器學(xué)習(xí)結(jié)合起來，建立可理解的決策模型。在這種方法中，對一個案例是否為詐騙案的判斷，依據(jù)的是關(guān)于詐騙的法律條款和來自數(shù)據(jù)集的各種特征。首先，建立一棵基于雙極論證的知識樹。這棵樹的節(jié)點(diǎn)和邊都有直觀的含義。然后，依據(jù)給定的數(shù)據(jù)集，通過學(xué)習(xí)這棵樹的節(jié)點(diǎn)和邊的權(quán)值來建立一個模型，使得該模型的預(yù)測精度到達(dá)最優(yōu)。把這種方法應(yīng)用于倫理決策，可以發(fā)揮數(shù)據(jù)驅(qū)動方法與知識驅(qū)動方法的互補(bǔ)性。一方面，對于每個特定倫理行動或事件，通過建立基于規(guī)范和價值的知識樹來顯式表達(dá)利益相關(guān)方的規(guī)范性知識。另一方面，通過大數(shù)據(jù)驅(qū)動的機(jī)器學(xué)習(xí)，來調(diào)整知識樹中各個成分的權(quán)重，以反映隱藏于數(shù)據(jù)中的描述性知識。由于知識樹中節(jié)點(diǎn)和邊的內(nèi)容信息都是人類可理解的，因此可以為實(shí)現(xiàn)人機(jī)交互性提供前提。同時，知識樹中節(jié)點(diǎn)和邊的權(quán)重可以綜合反映情境信息和用戶偏好信息，因此有助于克服知識驅(qū)動方法的局限性問題。

　?。ㄋ模┤藱C(jī)交互方法

　　人機(jī)交互既要忠實(shí)反映智能系統(tǒng)的內(nèi)在邏輯關(guān)系，又要在了解用戶心理活動的情況下實(shí)現(xiàn)基于自然語言的對話。人機(jī)交互方法的核心主要包括如下四個方面：

　　一是智能系統(tǒng)內(nèi)在邏輯關(guān)系的表達(dá)。一方面，在知識驅(qū)動的方法中，可以直接利用顯性知識以及基于該知識的推理關(guān)系。在基于規(guī)范與價值的知識驅(qū)動方法中，支持一個結(jié)論的理由可以用規(guī)范的可實(shí)施性來表示。比如，結(jié)論“應(yīng)該給病人服藥”成立的理由是：前提條件“用藥時間到”成立，并且規(guī)則“當(dāng)用藥時間到的時候，應(yīng)該給病人服藥”是可實(shí)施的。另一方面，由于一般的數(shù)據(jù)驅(qū)動方法不具有可解釋性，無法把隱性的模型知識表達(dá)出來用于給用戶提供解釋。不過，通過數(shù)據(jù)與知識的結(jié)合所建立的數(shù)據(jù)知識雙驅(qū)動模型具有可理解知識，因此可以被用于人機(jī)交互。

　　二是最簡解釋與用戶模型。由于智能系統(tǒng)內(nèi)在的邏輯關(guān)系可能十分復(fù)雜，通常不是將所有內(nèi)容完全表達(dá)給用戶。例如，加科拉（R.Jaakkola）等人依據(jù)用戶模型建立充分而最簡的解釋。因此，解釋內(nèi)容的選擇與被解釋的用戶有關(guān)。為了讓用戶理解推理依據(jù)和過程，通常需要了解用戶的信念。對一個智能系統(tǒng)來說，它關(guān)于用戶的信念具有不確定性。阿杜（E.Hadoux）等人通過建立概率模型來描述用戶信念和關(guān)注點(diǎn)。這樣，系統(tǒng)可以依據(jù)這個模型選擇對話內(nèi)容，更好地完成解釋或說服任務(wù)。

　　三是對話語言與機(jī)制。自然語言是與人類進(jìn)行對話的主要語言。目前，大語言模型的出現(xiàn)為把人工語言轉(zhuǎn)化為自然語言提供了重要的技術(shù)支撐。同時，在對話機(jī)制方面，依據(jù)不同的對話目的（如說服、協(xié)商、信息獲取、查詢、發(fā)現(xiàn)因果等），建立特定的對話協(xié)議。在此基礎(chǔ)上，依據(jù)智能系統(tǒng)的內(nèi)在邏輯表達(dá)和用戶模型，采取適當(dāng)?shù)膶υ挷呗蚤_展人機(jī)對話，實(shí)現(xiàn)對話目標(biāo)。

　　四是基于情感表達(dá)的交互機(jī)制。情感表達(dá)是人類或人機(jī)交互的重要途徑。借助一些技術(shù)工具，尤其是大語言模型，機(jī)器可以檢測到人類情感并模仿人類的情感表達(dá)。由于情感在機(jī)器的道德決策中起重要作用，需要有機(jī)結(jié)合由自然語言表達(dá)的知識和由情感表達(dá)的知識。因此，除了情感知識的獲取與表達(dá)，如何建立可以包含情感知識的推理與決策模型，也是一個值得進(jìn)一步研究的關(guān)鍵問題。

　　四、問題與展望

　　在新一代人工智能背景下，人工智能技術(shù)的發(fā)展日新月異，但由此帶來的潛在問題也將持續(xù)且深刻地影響到人類社會的方方面面。如果說人工智能為人類社會的發(fā)展進(jìn)步提供了技術(shù)上的強(qiáng)大支撐，那么這種能力能否轉(zhuǎn)化為人類福祉，在很大程度上取決于機(jī)器的自主決策和行動能否很好地滿足人類社會的倫理要求。作為一個新的研究方向，有關(guān)機(jī)器倫理的哲學(xué)基礎(chǔ)、特征和方法等都尚不明確。本文嘗試從文理交叉的角度，系統(tǒng)分析機(jī)器倫理的這幾個核心要素，以澄清思路，并帶來進(jìn)一步的思考和探索。接下來列舉幾個需要進(jìn)一步探索的有關(guān)機(jī)器倫理的挑戰(zhàn)性問題。

　　第一，即使對于人類來說，作出道德判斷也是困難的。人們對什么是適當(dāng)?shù)膫惱砝碚撝挥杏邢薜睦斫?。不僅人們在這一話題上存在不同見解，個體對倫理直覺和信念也存在沖突。同時，道德判斷具有高度情境依賴性，不同的背景可能導(dǎo)致迥異的判斷。這里的情境信息包含所關(guān)聯(lián)主體的社會關(guān)系、文化背景、歷史背景等。

　　第二，盡管大語言模型的出現(xiàn)為推動機(jī)器倫理的研究和實(shí)驗(yàn)提供了新的視角，但相比對倫理理論的不充分理解，機(jī)器對常識和世界知識的缺乏是更大挑戰(zhàn)。比如，對于阿西莫夫三定律，如果要求機(jī)器人實(shí)現(xiàn)“不要傷害人類”，那么機(jī)器首先要能在現(xiàn)實(shí)世界中理解什么構(gòu)成傷害。對于“極小化傷害”這樣的規(guī)則，讓機(jī)器遵守它看起來是無害的。然而，如果機(jī)器決定通過殺死所有人來實(shí)現(xiàn)長遠(yuǎn)的“極小化傷害”則是災(zāi)難性的。

　　第三，由于具有倫理推理能力的機(jī)器無法確保倫理對齊，可能存在道德上錯誤的結(jié)論。對于個體人來說，一些錯誤是個例，因此是可接受的，但對于機(jī)器來說，由于大范圍應(yīng)用，類似錯誤有可能變成系統(tǒng)性的和不可接受的。同時，機(jī)器的犯錯可能與人類不同，在缺乏可解釋性的條件下，許多錯誤難以預(yù)測和管理。此外，機(jī)器的倫理推理能力可能易受攻擊，由此引發(fā)新的嚴(yán)重問題。

　　第四，知識（數(shù)據(jù)）驅(qū)動方法依賴于人類提供的知識或數(shù)據(jù)，由此可能會引起機(jī)器的“數(shù)據(jù)繭房”問題。而當(dāng)它面對現(xiàn)實(shí)世界中復(fù)雜的決策情況時，在其不具備“自我意識”和“理解”的條件下，沒有“舉一反三”能力的機(jī)器在“知識殘缺”的不利情況下如何具備社會平衡性，仍然是有待進(jìn)一步研究的挑戰(zhàn)性問題。

　　第五，機(jī)器倫理與人類倫理存在區(qū)別，其原因在于機(jī)器與人類在主體性和體驗(yàn)方面存在差異。在涉及生命和死亡的情形下，對人和機(jī)器的道德規(guī)范（人們對主體應(yīng)該做什么的期望或偏好）和道德判斷（主體實(shí)際決策后人們的道德評價）存在差異。當(dāng)面對駕駛、法律、醫(yī)療和軍事等事件中的生命和死亡問題，人類喜歡由人作決策，而不是機(jī)器。一些學(xué)者的研究表明，人們要求自動駕駛汽車比他們自己駕駛安全得多，而同時過分高估他們自己駕駛的安全性。對于機(jī)器失誤，人的反應(yīng)會更加強(qiáng)烈。與其他領(lǐng)域不同，人們對道德有很強(qiáng)的信念，而這些信念塑造了文化認(rèn)同。與其他決策不同，道德決策深植于情感，且機(jī)器缺乏完整的心智，這使得人們不一定支持機(jī)器進(jìn)行道德決策。

　　第六，為了評估倫理機(jī)器，需要建立領(lǐng)域相關(guān)的測試基準(zhǔn)。基于領(lǐng)域?qū)＜业挠^點(diǎn)，需要建立數(shù)據(jù)集，以包含特定領(lǐng)域的典型案例，依據(jù)這些案例來評估倫理機(jī)器。領(lǐng)域?qū)＜宜J(rèn)同的典型任務(wù)以及對應(yīng)答案的收集非常重要。因此，需要計(jì)算機(jī)專家、哲學(xué)專家、領(lǐng)域?qū)＜乙约吧缈茖W(xué)科專家一起，確保倫理機(jī)器的交互和效果達(dá)到期望要求。

　　綜上所述，目前的機(jī)器倫理還面臨著一系列挑戰(zhàn)性問題。進(jìn)行倫理對齊的機(jī)器依賴于人類所提供的知識和數(shù)據(jù)，因此，在機(jī)器沒有自我意識，不能理解符號的意義、不理解外部物理世界的意義、不理解人類社會行為的價值意義的前提下，倫理機(jī)器的決策也自然無法具備通用人工智能的特征。關(guān)于如何使機(jī)器具有意識，學(xué)術(shù)界已有許多探索。例如，通過建立自我升級智能體有可能使機(jī)器具有“功能意識”。不過，關(guān)于人工意識的可能性和實(shí)現(xiàn)途徑，仍然是一個開放問題，而與此相關(guān)的機(jī)器倫理研究也任重而道遠(yuǎn)。鑒于此，需要從多學(xué)科角度進(jìn)一步推進(jìn)機(jī)器倫理這一新方向的發(fā)展：

　　首先，從哲學(xué)角度，進(jìn)一步探索機(jī)器倫理的本質(zhì)，深化對機(jī)器倫理基本特征及方法論的研究。具體來說，關(guān)于機(jī)器倫理的弱主體決策性、社會平衡性、文化差異性、人機(jī)交互性等概念和方法，需要從哲學(xué)上進(jìn)行更深層次的挖掘與分析。關(guān)于新一代人工智能技術(shù)所具有的能力、局限和風(fēng)險，也需要進(jìn)行深入的解剖與評估。這些研究不僅可以為實(shí)現(xiàn)機(jī)器倫理奠定基礎(chǔ)，而且也有助于促進(jìn)哲學(xué)尤其是倫理學(xué)研究的發(fā)展。其次，從心理學(xué)和實(shí)驗(yàn)科學(xué)角度，研究各種文化背景下機(jī)器倫理的內(nèi)在規(guī)律、機(jī)器倫理與人類倫理的關(guān)系，以及情感表達(dá)在機(jī)器倫理中的作用機(jī)制等。與西方文化不同，中華文化有自己的內(nèi)在特質(zhì)。如何借助大語言模型，探究東西方文化的共同點(diǎn)和差異性以及它們對機(jī)器倫理的影響，是一個值得研究的重要課題。這些研究不僅有助于加深對機(jī)器倫理本質(zhì)和特點(diǎn)的認(rèn)識，也可以為制定政策和法律規(guī)范提供依據(jù)。再次，從邏輯學(xué)角度，研究包含規(guī)范、價值、偏好、情感等因素的邏輯系統(tǒng)的形式化表達(dá)和推理機(jī)制。盡管邏輯系統(tǒng)的適用性有特定的范圍，但在給定條件下，可以確保機(jī)器在決策時具備良好的功能和性能。例如，通過建模，讓機(jī)器的行為滿足特定的條件，可以防止機(jī)器在決策和行動時發(fā)生重大錯誤。與此同時，邏輯學(xué)方向的研究也可以把哲學(xué)層面的概念及方法與人工智能層面的算法連接起來，起到重要的橋梁作用。最后，從計(jì)算機(jī)科學(xué)和人工智能角度，研究具有可解釋性、透明性和因果性的人工智能系統(tǒng)，建立能夠與人類開展自然交互的對話系統(tǒng)，以及設(shè)計(jì)領(lǐng)域相關(guān)的機(jī)器倫理測試標(biāo)準(zhǔn)等。這些技術(shù)上的進(jìn)步不僅可以提高機(jī)器為人類服務(wù)的能力，而且可以為實(shí)現(xiàn)機(jī)器倫理提供有效手段。值得注意的是，隨著機(jī)器自主決策和行動能力的不斷提高，機(jī)器與人類相互影響的程度日益加深。在此背景下，研究如何利用技術(shù)來管理技術(shù)，將是一個長期發(fā)展的重要路徑。例如，借助機(jī)器的可解釋能力和基于因果的責(zé)任歸因能力，可在機(jī)器決策及行動帶來倫理和法律問題時，提供技術(shù)上的支撐。

　　由于機(jī)器倫理研究具有很強(qiáng)的學(xué)科交叉性，上述分學(xué)科討論只是為了論述上的方便。為了解決機(jī)器倫理所面臨的挑戰(zhàn)性問題，通常需要多學(xué)科概念和方法的交叉運(yùn)用和綜合集成。其中，哲學(xué)、心理學(xué)和實(shí)驗(yàn)科學(xué)等領(lǐng)域的研究可以明晰概念、發(fā)現(xiàn)規(guī)律、提供方法和原理；邏輯學(xué)、數(shù)學(xué)等領(lǐng)域的研究可以在相關(guān)概念和原理的基礎(chǔ)上建立邏輯模型、數(shù)學(xué)模型；計(jì)算機(jī)和人工智能等領(lǐng)域的研究則可以基于特定的哲學(xué)原理、邏輯模型及數(shù)學(xué)模型，建立相應(yīng)的算法、系統(tǒng)和驗(yàn)證工具。反過來，新的人工智能系統(tǒng)產(chǎn)生的數(shù)據(jù)、知識、社會影響等又會促進(jìn)哲學(xué)社會科學(xué)以及經(jīng)驗(yàn)科學(xué)的研究。通過這樣的良性循環(huán)，相信機(jī)器倫理的研究和應(yīng)用水平能夠螺旋式地上升，使得人工智能的發(fā)展真正造福人類。

　　〔本文注釋內(nèi)容略〕