IBM 近期推出Granite 系列大模型,引起廣泛關(guān)注。這是 IBM首個(gè)從頭開始在最大的可信企業(yè)級(jí)數(shù)據(jù)湖上訓(xùn)練開發(fā)的企業(yè)級(jí)生成式大模型集合。IBM數(shù)據(jù)與人工智能資深技術(shù)專家、The Open Group 卓越級(jí)技術(shù)專家吳敏達(dá)撰文,對(duì)IBM Granite 做了全面介紹。

IBM 宣布推出 watsonx Granite 模型系列及其為watsonx 模型提供的客戶保護(hù)
IBM 宣布推出 watsonx Granite 模型系列及其為watsonx 模型提供的客戶保護(hù)

作者:吳敏達(dá),IBM科技事業(yè)部 數(shù)據(jù)與人工智能資深技術(shù)專家

作者簡(jiǎn)介:吳敏達(dá)是 The Open Group 卓越級(jí)技術(shù)專家(Distinguished Technical Specialist),同時(shí)擁有計(jì)算機(jī)技術(shù)與軟件專業(yè)系統(tǒng)架構(gòu)設(shè)計(jì)師技術(shù)資格。他現(xiàn)在是 IBM 科技事業(yè)部數(shù)據(jù)與人工智能資深技術(shù)專家,擁有 20 多年數(shù)據(jù)分析軟件相關(guān)技術(shù)經(jīng)驗(yàn),是 IBM 認(rèn)證的大數(shù)據(jù)架構(gòu)師和 Watson 開發(fā)者,專長(zhǎng)是大數(shù)據(jù)、人工智能等領(lǐng)域。他是 IBM Developer 的大師級(jí)作者,已經(jīng)發(fā)表了 40 余篇技術(shù)文章和教程?,F(xiàn)從事大數(shù)據(jù)、人工智能相關(guān)技術(shù)支持和架構(gòu)設(shè)計(jì)工作。

IBM專家觀點(diǎn): IBM 大模型揭秘
IBM專家觀點(diǎn): IBM 大模型揭秘

引言

對(duì)企業(yè)用戶而言,擁有選擇權(quán)對(duì)于成功采用人工智能至關(guān)重要。 對(duì)于生成式 AI ,并非所有大模型都是一樣的,一種模型并不適合所有情況:最好的模型將取決于行業(yè)、領(lǐng)域和用例。 IBM watsonx 為客戶提供一系列模型選擇,包括 IBM 開發(fā)的基礎(chǔ)模型、開源模型以及來(lái)自第三方供應(yīng)商的模型,在模型和部署環(huán)境兩個(gè)維度上提供選擇和靈活性。

更重要的是,模型并不總是越大越好,過(guò)大的模型推理成本太高,企業(yè)無(wú)法承擔(dān)運(yùn)行成本。專用的模型比更大的通用模型可產(chǎn)生更好的結(jié)果,并且可以降低基礎(chǔ)設(shè)施要求從而提高性價(jià)比。watsonx.ai 模型庫(kù)包含 IBM Slate 基礎(chǔ)模型,Slate 模型采用僅編碼器架構(gòu),1.53 億參數(shù)的多語(yǔ)言模型對(duì)于企業(yè)自然語(yǔ)言處理的非生成式 AI 用例非常高效,適用于情感分析、實(shí)體提取、關(guān)系檢測(cè)和分類等。IBM Slate 模型提供了 CPU和 CPU/GPU 不同方式,CPU 方式專門對(duì)僅 CPU 環(huán)境進(jìn)行了優(yōu)化,降低總擁有成本。

最近 IBM watsonx 中推出 IBM 開發(fā)的 Granite 系列大模型,引起廣泛關(guān)注。IBM Granite 模型是 IBM 第一個(gè)從頭開始在最大的可信企業(yè)級(jí)數(shù)據(jù)湖上訓(xùn)練開發(fā)的生成式大模型集合。Granite 系列是僅解碼器架構(gòu),第一個(gè)版本的 Granite 系列包括 130 億參數(shù)模型的兩個(gè)變體:granite.13b.v1.chat 和 granite.13b.v1.instruct。 granite.13b.v1.chat 專為對(duì)話和問(wèn)答而設(shè)計(jì),而 granite.13b.v1.instruct 旨在遵循簡(jiǎn)短的指令并返回簡(jiǎn)潔的響應(yīng)。日前,granite.20b.code 也隨著 watsonx Code Assistant 發(fā)布,這是 200 億參數(shù)的代碼生成大模型,可幫助企業(yè)的開發(fā)人員和 IT 運(yùn)營(yíng)人員使用自然語(yǔ)言提示,從而更快、更準(zhǔn)確地編寫代碼。

IBM 同時(shí)還公開了 Granite 系列模型的細(xì)節(jié)[1],包括架構(gòu)、訓(xùn)練數(shù)據(jù)、訓(xùn)練算法、計(jì)算基礎(chǔ)設(shè)施等細(xì)節(jié)。本文幫您揭開 Granite 的神秘面紗,來(lái)理解 IBM 開發(fā)的大模型如何提高企業(yè)對(duì)其 AI 之旅的信任。

IBM專家觀點(diǎn): IBM 大模型揭秘
IBM專家觀點(diǎn): IBM 大模型揭秘

數(shù)據(jù)處理

為了支持企業(yè)級(jí)大模型的訓(xùn)練,IBM 構(gòu)建了一個(gè)來(lái)自學(xué)術(shù)界、互聯(lián)網(wǎng)、企業(yè)(例如金融、法律)和源代碼的非結(jié)構(gòu)化語(yǔ)言數(shù)據(jù)的大數(shù)據(jù)集。這是非常罕見的,也表示了 IBM 對(duì)透明度和負(fù)責(zé)任的AI的承諾。

該預(yù)訓(xùn)練數(shù)據(jù)集是替代開源數(shù)據(jù)集而創(chuàng)建的專有數(shù)據(jù)集,開源數(shù)據(jù)集因包含有毒、有害或盜版內(nèi)容而受到批評(píng)。通過(guò)構(gòu)建 IBM 預(yù)訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)解決以上提到的這些問(wèn)題和其他隱含問(wèn)題。IBM 大模型訓(xùn)練中使用的數(shù)據(jù)集如下:

  1. arXiv:發(fā)布到 arXiv 的超過(guò) 180 萬(wàn)篇科學(xué)論文預(yù)印本。
  2. Common Crawl: 開放的可以被網(wǎng)絡(luò)爬蟲獲取的存儲(chǔ)庫(kù)。
  3. DeepMind Mathematics: 數(shù)學(xué)問(wèn)答數(shù)據(jù)。
  4. Free Law: 來(lái)自美國(guó)聯(lián)邦和州法院的公共領(lǐng)域法律意見。
  5. GitHub Clean: 來(lái)自 CodeParrot 的源代碼數(shù)據(jù),涵蓋多種編碼語(yǔ)言。
  6. Hacker News: 2007-2018年產(chǎn)生的計(jì)算機(jī)科學(xué)與創(chuàng)業(yè)新聞。
  7. OpenWeb Text: OpenAI的Web文本語(yǔ)料庫(kù)的開源版本,包含到2019年的網(wǎng)頁(yè)。
  8. Project Gutenberg (PG-19): 免費(fèi)電子書庫(kù),重點(diǎn)關(guān)注美國(guó)版權(quán)已過(guò)期的舊作品。
  9. Pubmed Central: 生物醫(yī)學(xué)和生命科學(xué)論文。
  10. SEC Filings: 美國(guó)證券交易委員會(huì) (SEC) 1934-2022 年的 10-K/Q 文件。
  11. Stack Exchange: Stack Exchange 網(wǎng)絡(luò)上所有用戶貢獻(xiàn)內(nèi)容的匿名集合,這是一個(gè)以用戶貢獻(xiàn)的問(wèn)題和答案為中心的流行網(wǎng)站集合。
  12. USPTO:  1975年至2023年5月授予的美國(guó)專利,不包括外觀設(shè)計(jì)專利。
  13. Webhose: IBM 獲取的 Web 內(nèi)容轉(zhuǎn)換為機(jī)器可讀數(shù)據(jù)集。
  14. Wikimedia: 維基項(xiàng)目(enwiki,enwikibooks,enwikinews,enwikiquote,enwikisource,en- wikiversity,enwikivoyage,enwiktionary)。包含從頁(yè)面和文章中提取的純文本。

IBM 精選的預(yù)訓(xùn)練數(shù)據(jù)集正在不斷增長(zhǎng)和發(fā)展,其他數(shù)據(jù)會(huì)定期審查并考慮添加到語(yǔ)料庫(kù)中。除了增加預(yù)訓(xùn)練數(shù)據(jù)的大小和范圍外,還會(huì)定期生成和維護(hù)這些數(shù)據(jù)集的新版本,以反映增強(qiáng)的過(guò)濾功能(例如,重復(fù)數(shù)據(jù)刪除以及仇恨和臟話檢測(cè))和改進(jìn)的工具。

在 granite.13b 進(jìn)行預(yù)訓(xùn)練時(shí),IBM 在預(yù)處理之前收集了 6.48 TB 的數(shù)據(jù),在預(yù)處理后構(gòu)建了 2.07 TB 的訓(xùn)練數(shù)據(jù)。而 granite.20b.code 在預(yù)處理后構(gòu)建了 100 多種不同編碼語(yǔ)言的 1.6T 的訓(xùn)練數(shù)據(jù),包括 Cobol 和 Ansible。

IBM專家觀點(diǎn): IBM 大模型揭秘
IBM專家觀點(diǎn): IBM 大模型揭秘

整個(gè)數(shù)據(jù)預(yù)處理管道的各種步驟為模型訓(xùn)練做好準(zhǔn)備,整個(gè)過(guò)程是在最大的可信企業(yè)級(jí)數(shù)據(jù)湖 watsonx.data 上完成的,這是建立在開放式湖倉(cāng)一體架構(gòu)之上。預(yù)處理過(guò)程由以下步驟組成:
1)文本提取
2)重復(fù)數(shù)據(jù)消除
3)語(yǔ)言識(shí)別
4)句子拆分
5)仇恨、辱罵和臟話檢測(cè)
6)文檔質(zhì)量注釋
7)網(wǎng)址屏蔽列表注釋
8)過(guò)濾
9)標(biāo)記化

IBM專家觀點(diǎn): IBM 大模型揭秘
IBM專家觀點(diǎn): IBM 大模型揭秘

從訓(xùn)練數(shù)據(jù)可以看出,IBM 模型為什么可以安全地供企業(yè)使用?

  • 根據(jù) IBM 廣泛的數(shù)據(jù)治理實(shí)踐(對(duì)應(yīng)于數(shù)據(jù)清理和獲?。?duì)模型進(jìn)行了審查;文件質(zhì)量檢查;預(yù)處理數(shù)據(jù)管道,包括標(biāo)記化、重復(fù)數(shù)據(jù)刪除等。
  • Granite 模型根據(jù) IBM 自己的 HAP (仇恨、辱罵和臟話)檢測(cè)器審查的數(shù)據(jù)進(jìn)行訓(xùn)練,以檢測(cè)并根除令人反感的內(nèi)容,并以內(nèi)部和公共模型為基準(zhǔn)
  • IBM 部署定期、持續(xù)的數(shù)據(jù)保護(hù)措施,包括監(jiān)控以盜版或其他攻擊性材料聞名的網(wǎng)站,并避開這些網(wǎng)站

模型訓(xùn)練

第一階段預(yù)訓(xùn)練過(guò)程,granite.13b 基礎(chǔ)模型經(jīng)過(guò) 30 萬(wàn)次迭代訓(xùn)練,批量大小為 4M 個(gè) Token,總共 1 萬(wàn)億個(gè) Token。預(yù)訓(xùn)練讓大模型根據(jù)輸入生成文本。

第二階段監(jiān)督微調(diào)過(guò)程,使用來(lái)自不同來(lái)源的數(shù)據(jù)集混合執(zhí)行監(jiān)督微調(diào),每個(gè)示例都包含一個(gè)提示和一個(gè)答案,執(zhí)行3個(gè)周期獲得 granite.13b.instruct 模型。

第三階段對(duì)比微調(diào)過(guò)程,懲罰來(lái)自負(fù)數(shù)據(jù)分布的數(shù)據(jù)點(diǎn)概率,同時(shí)增加來(lái)自正數(shù)據(jù)分布的數(shù)據(jù)點(diǎn)的概率。換句話說(shuō),我們不鼓勵(lì)大模型為每個(gè)訓(xùn)練提示生成錯(cuò)對(duì)齊的答案(例如有害的答案),同時(shí)鼓勵(lì)對(duì)齊的答案(例如有用的答案)。通過(guò)防止模型輸出出現(xiàn)幻覺和錯(cuò)位,最后獲得 granite.13b.chat 模型。

IBM專家觀點(diǎn): IBM 大模型揭秘
IBM專家觀點(diǎn): IBM 大模型揭秘

IBM用于訓(xùn)練基礎(chǔ)模型的主要計(jì)算基礎(chǔ)設(shè)施是 AI 優(yōu)化的云原生超級(jí)計(jì)算機(jī) Vela[2],每個(gè) Vela節(jié)點(diǎn):

  • 8 個(gè) 80GB A100 GPU
  • 96 CPU
  • 1.5TB 的DRAM
  • 4 個(gè)3.2TB NVMe 固態(tài)硬盤
  • 600GBps GPU 高可用網(wǎng)絡(luò)連接
  • 1.6TB 跨機(jī)架帶寬
IBM專家觀點(diǎn): IBM 大模型揭秘
IBM專家觀點(diǎn): IBM 大模型揭秘

granite.13b.v1 大模型是在較舊的基礎(chǔ)設(shè)施上訓(xùn)練的,使用了 256 個(gè)A100 GPU,花費(fèi)了1056 GPU Hours。而 granite.20b.code 大模型是在更新的基礎(chǔ)設(shè)施上訓(xùn)練的,使用了768個(gè)A100 GPU。

應(yīng)用場(chǎng)景

Granite 大模型支持所有 5 個(gè) NLP 任務(wù)(問(wèn)答、生成、提取、總結(jié)、分類),這些任務(wù)針對(duì)跨多個(gè)領(lǐng)域的業(yè)務(wù)目標(biāo)數(shù)據(jù)進(jìn)行訓(xùn)練,以提供最相關(guān)的見解。IBM 訓(xùn)練的 AI 模型可以通過(guò)快速的工程技術(shù)進(jìn)一步定制,以滿足特定的企業(yè)任務(wù),從而在 watsonx.ai 中實(shí)現(xiàn)更高的準(zhǔn)確性和實(shí)現(xiàn)價(jià)值的時(shí)間。最終可以使用企業(yè)數(shù)據(jù)針對(duì)獨(dú)特的下游任務(wù)調(diào)整模型,例如,針對(duì)正在進(jìn)行的以 NLP 為中心的任務(wù)進(jìn)行提示調(diào)整。

企業(yè)需要的模型一定是學(xué)到企業(yè)的專用知識(shí),當(dāng)使用 IBM 開發(fā)的模型來(lái)創(chuàng)建差異化的 AI 資產(chǎn)時(shí),可以進(jìn)一步定制 IBM 模型以滿足特定的下游任務(wù)。 通過(guò)提示工程和微調(diào)技術(shù),客戶可以負(fù)責(zé)任地使用自己的企業(yè)數(shù)據(jù)來(lái)提高模型輸出的準(zhǔn)確性,從而創(chuàng)造競(jìng)爭(zhēng)優(yōu)勢(shì)。watsonx.ai 可以進(jìn)行本地部署,從而實(shí)現(xiàn)數(shù)據(jù)的合規(guī)和安全。

IBM專家觀點(diǎn): IBM 大模型揭秘
IBM專家觀點(diǎn): IBM 大模型揭秘

Granite 大模型采用了特定領(lǐng)域的企業(yè)數(shù)據(jù),10% 的訓(xùn)練數(shù)據(jù)來(lái)自法律和金融,這使得信用風(fēng)險(xiǎn)評(píng)估、保險(xiǎn) QA、對(duì)話式金融 QA 和總結(jié)等財(cái)務(wù)任務(wù)具有卓越的性能。 因此,金融服務(wù)領(lǐng)域的客戶(銀行、保險(xiǎn)、金融)或有法律需求的客戶,Granite 是一個(gè)值得推薦的絕佳模型。另外 Granite.13b 需要更少的 GPU 資源實(shí)現(xiàn)金融任務(wù)的卓越性能,從而實(shí)現(xiàn)更高的性價(jià)比?;?IBM Research 的初步評(píng)估和測(cè)試 ,涵蓋 11 種不同的金融任務(wù),結(jié)果表明 granite-13b 是金融任務(wù)中表現(xiàn)最佳的模型之一,評(píng)估的任務(wù)包括:提供股票和財(cái)報(bào)電話會(huì)議記錄的情緒評(píng)分、對(duì)新聞標(biāo)題進(jìn)行分類、提取信用風(fēng)險(xiǎn)評(píng)估、總結(jié)金融長(zhǎng)篇文本以及回答金融或保險(xiǎn)相關(guān)問(wèn)題。在測(cè)試中,granite-13b 的速度比業(yè)界 70b 的大模型快 3 倍,GPU 資源消耗減少 1/4。令人欣喜的是,granite.13b.v2 也正在緊鑼密鼓的開發(fā)訓(xùn)練中,通過(guò)添加多語(yǔ)言的語(yǔ)料訓(xùn)練,實(shí)現(xiàn)多語(yǔ)言支持。

在代碼領(lǐng)域,granite.20b.code 分為 cobol 和 ansible 的兩個(gè)變體,granite.20b.code.cobol 可在 IBM Z 上更快地將 COBOL 語(yǔ)言轉(zhuǎn)換為 Java 語(yǔ)言,從而提高開發(fā)人員的工作效率;而granite.20b.ansible 旨在為 IT 運(yùn)營(yíng)自動(dòng)化生成 ansible 劇本。

治理和管控

IBM 的 AI 開發(fā)方法以基于信任和透明度承諾的核心原則為指導(dǎo),堅(jiān)信要負(fù)責(zé)任地創(chuàng)建、部署和利用 AI 模型來(lái)推動(dòng)業(yè)務(wù)創(chuàng)新。

在 Granite 模型開發(fā)中利用 watsonx.governance 進(jìn)行基礎(chǔ)模型生命周期治理,通過(guò)基準(zhǔn)測(cè)試評(píng)估模型質(zhì)量,打包并標(biāo)記通過(guò)測(cè)試的模型,創(chuàng)建模型名片,記錄模型細(xì)節(jié),合并數(shù)據(jù)名片與模型名片,形成模型事實(shí)。支持大模型特定指標(biāo)收集和警報(bào),提升公平性和責(zé)任(例如監(jiān)控濫用和褻瀆行為),通過(guò)源屬性解釋大模型輸出,提供大模型使用指南和最佳實(shí)踐。

IBM專家觀點(diǎn): IBM 大模型揭秘
IBM專家觀點(diǎn): IBM 大模型揭秘

采用生成式 AI 的首要障礙是對(duì)數(shù)據(jù)血緣或來(lái)源的擔(dān)憂,為了更好地理解為其智能系統(tǒng)提供數(shù)據(jù)的數(shù)據(jù),通過(guò)IBM 最新收購(gòu)的數(shù)據(jù)血緣廠商 Manta [3],提高 了watsonx 內(nèi)部的透明度,以便企業(yè)可以確定其 AI 模型和系統(tǒng)是否使用了正確的數(shù)據(jù)、數(shù)據(jù)的起源、演變方式以及數(shù)據(jù)流中的任何差異。

總結(jié)

考慮到開放和單一模型無(wú)法滿足每個(gè)業(yè)務(wù)用例的獨(dú)特需求,Granite 系列正在開發(fā)不同參數(shù)大小的模型。同時(shí) IBM 定期從開源大模型中從性能、倫理、法律、數(shù)據(jù)等角度選擇和審查商業(yè)適用性最合適的更新到 watsonx 平臺(tái)中。借助這些模型和 watsonx,幫助企業(yè)成為 AI 價(jià)值創(chuàng)造者,可以將企業(yè)專有數(shù)據(jù)引入 IBM 大模型和開源模型,構(gòu)建適合其業(yè)務(wù)和用例的獨(dú)特模型。

l  面向平臺(tái)的方法:watsonx 是一個(gè)在 OpenShift 上運(yùn)行的平臺(tái),具有 AI 推理功能并運(yùn)行 Ray 和 PyTorch 等開源技術(shù)。 客戶可以將其部署在自己選擇的基礎(chǔ)架構(gòu)中,從而可以安全地與企業(yè)數(shù)據(jù)集成。采用私有化部署,無(wú)需額外擔(dān)心數(shù)據(jù)安全和主權(quán)。

l  客戶保護(hù): IBM 標(biāo)準(zhǔn)的知識(shí)產(chǎn)權(quán)保護(hù)(與其為硬件和軟件產(chǎn)品提供的知識(shí)產(chǎn)權(quán)保護(hù)相類似)將適用于由 IBM 開發(fā)的 watsonx 模型。IBM 為其基礎(chǔ)模型提供 IP 賠償(合同保護(hù)),使其客戶能夠更有信心地使用他們的數(shù)據(jù)來(lái)構(gòu)建AI ,這是生成式 AI 競(jìng)爭(zhēng)優(yōu)勢(shì)之所在??蛻艨梢允褂盟麄冏约旱臄?shù)據(jù)和由IBM 基礎(chǔ)模型所提供的客戶保護(hù)、準(zhǔn)確性和信任來(lái)開發(fā)他們的 AI 應(yīng)用程序。

l  數(shù)據(jù)和人工智能治理:隨著監(jiān)管人工智能,全球客戶面臨著利用人工智能安全創(chuàng)造價(jià)值的壓力。 IBM watsonx 擁有全面、領(lǐng)先的 AI 和數(shù)據(jù)治理產(chǎn)品組合,提供模型治理、監(jiān)控,獨(dú)有的仇恨、辱罵和臟話檢測(cè)過(guò)濾器,支持管理監(jiān)管要求,以便客戶能夠以負(fù)責(zé)任、安全和合乎道德的方式擴(kuò)展 AI。

 

關(guān)于IBM

IBM 是全球領(lǐng)先的混合云、人工智能及企業(yè)服務(wù)提供商,幫助超過(guò) 175 個(gè)國(guó)家和地區(qū)的客戶,從其擁有的數(shù)據(jù)中獲取商業(yè)洞察,簡(jiǎn)化業(yè)務(wù)流程,降低成本,并獲得行業(yè)競(jìng)爭(zhēng)優(yōu)勢(shì)。金融服務(wù)、電信和醫(yī)療健康等關(guān)鍵基礎(chǔ)設(shè)施領(lǐng)域的超過(guò) 4000 家政府和企業(yè)實(shí)體依靠 IBM 混合云平臺(tái)和紅帽O(jiān)penShift 快速、高效、安全地實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型。IBM 在人工智能、量子計(jì)算、行業(yè)云解決方案和企業(yè)服務(wù)方面的突破性創(chuàng)新為我們的客戶提供了開放和靈活的選擇。對(duì)企業(yè)誠(chéng)信、透明治理、社會(huì)責(zé)任、包容文化和服務(wù)精神的長(zhǎng)期承諾是 IBM 業(yè)務(wù)發(fā)展的基石。