了解AI中的Pre-training、Transformer 與商業(yè)數(shù)據(jù)的關系

人工智能檢索涵蓋了人類與機器之間的語音問答和文字提問的答案反饋,以及深入到世界的各個大型信息檢索工具。Google和OpenAI的ChatGPT是其中最典型的代表,盡管它們有著不同的檢索模式和商業(yè)目的,但它們都是人工智能檢索,其核心都依賴Transformer在人工網(wǎng)絡中的應用。

Transformer最初應用于計算機自然語言機械翻譯。它成功的以數(shù)據(jù)統(tǒng)計為基礎,采用文本的順序作為路徑,通過結合語言和統(tǒng)計概率來實現(xiàn)自動翻譯。簡單來說,假設我們有一段文字,如果起始詞是“今天”,接下來的內(nèi)容可能與時間、天氣或者騎行等有關,而與時間相關聯(lián)的可能是光,與光相關聯(lián)的可能是愛因斯坦、接下來就跟相對論、宇宙等有關,而宇宙又關聯(lián)了太陽又關聯(lián)了相對論等等。在非人工智能時代,機器可以通過文章中文字之間的距離來計算這些文字之間的相關性,并通過多個相關性文字來確定對應的文字內(nèi)容。

可是我們?nèi)祟惸軌蛱岢銮姘俟值膯栴},即使對同一個問題,人們可能會用不同的問法。那么,如何理解人類那些能清晰表達的問題、以及那些表達不清的問題,包括同一問題的不同問法呢?這就需要人工智能來提供答案。

人工智能是通過模擬人腦神經(jīng)網(wǎng)絡對信息的處理過程而開發(fā)的數(shù)據(jù)處理數(shù)學模型,也被稱為“大規(guī)模語言模型”,簡稱大模型。其工作方式是盡可能利用最多的數(shù)據(jù),通過Transformer的數(shù)據(jù)管理處理數(shù)據(jù)來生成答案。為了能夠迅速提供問題答案和檢索結果,在神經(jīng)網(wǎng)絡中采用了“機器學習”,也就是Pre-training,通過統(tǒng)計概率編輯可能的數(shù)據(jù),所以,在網(wǎng)絡系統(tǒng)中已經(jīng)存在動態(tài)的語言邏輯關系和順序。因此,當人類提出一個問題時,需要通過千萬臺計算機進行千億次計算,才能給出智能答案。

人工智能答案的質(zhì)量由神經(jīng)網(wǎng)絡規(guī)模和網(wǎng)絡中存在的數(shù)據(jù)質(zhì)量決定。在這其中,神經(jīng)網(wǎng)絡是Transformer的取材路徑,其規(guī)模越大,取材范圍就越廣泛。網(wǎng)絡中的數(shù)據(jù)是人工智能提供答案的基礎材料,數(shù)據(jù)質(zhì)量主要體現(xiàn)在真理性、客觀性以及相關性上,數(shù)據(jù)的真理性和客觀性決定答案的正確性,相關性則決定了答案的準確性。

數(shù)據(jù)的相關性決定了數(shù)據(jù)之間的距離、距離大小可以通過矢量運算完成,具體來說,就是考慮數(shù)據(jù)的長度和方向,數(shù)據(jù)的方向是由起始數(shù)據(jù)和不同關聯(lián)數(shù)據(jù)形成的不同方向,其夾角的余弦值便反映了數(shù)據(jù)矢量的相關性,余弦值越小,表示句子的相關性越大( =|a| x| b| x )

自然語言與數(shù)據(jù)相關性是人工智能采用數(shù)據(jù)的優(yōu)勢條件,數(shù)據(jù)在神經(jīng)網(wǎng)絡中位置決定了transformer 以及Pre-training使用其的先后順序,在人機對話的商業(yè)問答中,不論是語音提問還是文字請求,商業(yè)機會只給那些參與其中的數(shù)據(jù),因此,商業(yè)數(shù)據(jù)對企業(yè)而言是何等重要!

2024-02-19