人工智能中的數(shù)據(jù)與大模型
人工智能可以簡單地劃分為三個部分:一是物理硬件,包括CPU、GPU、NPU等,相當于人類用來思考的大腦,負責提供算力;二是如同人類用來邏輯推理以及計算的智力系統(tǒng)、通常被簡稱為大語言大模型;三是如同人腦中存儲的信息量,也視為認知和經(jīng)驗的總和,在人工智能中被稱為數(shù)據(jù),算力、大模型、數(shù)據(jù)是構(gòu)成人工智能的主要三要素、缺一不可;
算力是人工智能的物理硬件基礎(chǔ),它由構(gòu)成數(shù)據(jù)處理器的芯片和處理器機群組成,這些機群通常被稱為數(shù)據(jù)計算中心,每個數(shù)據(jù)中心處理能力的總和決定了一個人工智能公司物理硬件的智力水平,比如,一秒鐘能處理萬億級數(shù)據(jù)的數(shù)據(jù)中心,和只能處理百萬級數(shù)據(jù)的數(shù)據(jù)中心,所輸出的智力效果必然不同。我們常說一個人聰明也會用“反應(yīng)快”代指這個人聰明,其實反應(yīng)快就是對信息(計算機中稱為數(shù)據(jù))處理的快,因此,如果沒有強大計算能力的大計算中心、而且是分布式計算中心做支撐,人工智能無法達到高智力水平。
大模型開發(fā)與訓(xùn)練是人工智能中智能輸出準確性的關(guān)鍵、大模型開發(fā)與訓(xùn)練是在2個不同環(huán)境中進行的。大模型是通過使用盡可能多的狀態(tài)參數(shù)(數(shù)學(xué)上可稱為條件函數(shù))開發(fā)出的靜態(tài)邏輯關(guān)系數(shù)學(xué)大模型,每個參數(shù)本身就是個函數(shù)、開發(fā)者使用的參數(shù)越多、越深入、模型的智能水平也越高。然而,這些初始模型通常會存在非常多的邏輯“沖突”,這些沖突的邏輯需要非常多位具備不同邏輯思維的專業(yè)人員在使用中調(diào)整或修正、才能不斷地提高模型的“智力”平滑性,因此,人工智能公司一般都“開源模型”、但是模型的根仍然掌握在他們手中,任何對模型的修改只是枝葉層面的調(diào)整,無法改變根部結(jié)構(gòu)和根部對樹木的控制;
大模型訓(xùn)練是把“靜態(tài)”模型動態(tài)化的過程、這個過程常以一個參數(shù)或Token為主題、向模型請求任務(wù)、通過模型對數(shù)據(jù)的關(guān)聯(lián)運算建立參數(shù)之間的關(guān)系。蒸餾(distill)法是數(shù)據(jù)模型訓(xùn)練方法之一,通過不斷地激活不同參數(shù)并提問,從而獲得數(shù)據(jù)答案的過程,模型訓(xùn)練是大模型向準確性發(fā)展的關(guān)鍵環(huán)節(jié)。因此,一些國家的人工智能開發(fā)公司“歡迎”甚至刺激、鼓勵他國使用其模型,達到訓(xùn)練自己大模型的目的,因為這些“寄生模型”最后還是依賴于“根部模型”。通過他人的使用、模型可以在不同維度上獲得更多的參數(shù)和參數(shù)間的“神經(jīng)數(shù)據(jù)”關(guān)聯(lián),簡單來說,人工智能用的人越多、就越聰明!
數(shù)據(jù)是人工智能的智能材料,缺少數(shù)據(jù),人工智能就像是“巧婦難為無米之炊”。如果把計算中心比作木材加工廠、那么數(shù)據(jù)就是木材,沒有木材、不論用什么方法(也不論什么大模型)都無法產(chǎn)出最終的木材產(chǎn)品。數(shù)據(jù)不僅是人工智能輸出智能成果的原材料、數(shù)據(jù)還是機器深度學(xué)習(xí)路徑和神經(jīng)網(wǎng)絡(luò)中神經(jīng)元關(guān)聯(lián)性的基礎(chǔ),沒有現(xiàn)存的人類數(shù)據(jù)支撐,人工智能根本不可能存在,因為人工智能實質(zhì)上是把人類已經(jīng)開發(fā)出的不同數(shù)據(jù)格式粉碎后、再以現(xiàn)存數(shù)據(jù)綜合構(gòu)建智能基模對外輸出人類綜合智能的過程;
隨著人工智能的不斷發(fā)展、數(shù)模在不同維度和深度上也在不斷增加和加深,人工智能會越來越彰顯出高智力能力,隨著參數(shù)的積累,人工智能會變得越來越聰明,而且人工智能的智力發(fā)展是數(shù)據(jù)之間以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)不斷建立“數(shù)據(jù)神經(jīng)元”關(guān)聯(lián)的過程,所以人工智能不但會越來越聰明,也會越來越細膩!
總結(jié)而言,分布式計算中心提供的算力是人工智能的大腦、數(shù)據(jù)則是信息和情報、大模型是通過算力處理這些信息情報之間關(guān)聯(lián)性的計算邏輯,因此,沒有算力和數(shù)據(jù)基材,人工智能就不會存在!
對于企業(yè)來說,參與人工智能應(yīng)從數(shù)據(jù)開始思考!