UC伯克利教授驚人預測:2030年GPT可執(zhí)行人類180萬年工作,一天學2500年知識
現在是GPT-4,時間是2023年。
7年之后,2030年,那時的GPT會是什么樣子?
UC伯克利的一位機器學習教授Jacob Steinhard發(fā)表長文,對2030年的GPT(以下簡稱為GPT 2030)作了預測。
(資料圖片)
為了更好地進行預測,Jacob查詢了各種來源的信息,包括經驗縮放定律、對未來計算和數據可用性的預測、特定基準的改進速度、當前系統(tǒng)的經驗推理速度,以及未來可能的并行性改進。
概括來看,Jacob認為,GPT 2030會在以下幾個方面超過人類工作者。
1. 編程、黑客任務、數學、蛋白質設計。
2. 工作和思考的速度:預計GPT 2030每分鐘處理的單詞是人類的5倍,而每FLOP都多5倍的話,總共就是125倍。
3. GPT 2030可以進行任意復制,并進行并行運算。算力足夠的話,它足以完成人類需要執(zhí)行180萬年的工作,結合2中的結論,這些工作只需2.4個月,就能完成。
4. 由于具有相同的模型權重,GPT的副本之間可以共享知識,實現快速的并行學習。因此,GPT可以在1天內學完人類需要學2500年的知識。
5. 除了文本和圖像,GPT還能接受其它模態(tài)的訓練,甚至包括各種違反直覺的方式,比如分子結構、網絡流量、低級機器碼、天文圖像和腦部掃描。因此,它可能會對我們經驗有限的領域具有很強的直覺把握,甚至會形成我們沒有的概念。
當然,除了飛躍的性能,Jacob表示,GPT的濫用問題也會更加嚴重,并行化和高速將使模型嚴重威脅網絡安全。
它的快速并行學習還會轉向人類行為,而因為自己已經掌握了「千年」的經驗,它想要操控和誤導人類也會很輕易。
?
在加速方面,最大的瓶頸是GPT的自主性。
在數學研究這種可以自動檢查工作的領域,Jacob預測,GPT 2030將超過大多數專業(yè)數學家。
在機器學習領域,他預測GPT將能獨立完成實驗并生成圖表和論文,但還是需要人類科研者給出具體指導、評估結果。
在這兩種情況下,GPT 2030都將是科研過程中不可或缺的一部分。
Jacob表示,他對GPT 2030特性的預測并不是從今天的系統(tǒng)中直觀得出的,它們可能是錯誤的,因為ML在2030年會是什么樣子,還存在很大的不確定性。
然而,無論GPT 2030會是什么樣子,Jacob都相信,它至少是一個更好版本的GPT-4。
所以,我們現在就該為AI可能造成的影響(比如影響1萬億美元、1000萬人的生命,或者對人類社會進程造成重大破壞)做好準備,而不是在7年以后。
特定能力
GPT 2030應該會具有超人的編碼、黑客和數學能力。
在閱讀和處理大型語料庫,以獲取模式和見解以及回憶事實的能力方面,它都會能力驚人。
因為AlphaFold和AlphaZero在蛋白質結構預測和游戲方面都具有超人的能力,GPT 2030顯然也可以,比如讓它在與AlphaFold/AlphaZero模型相似的數據上進行多模態(tài)訓練。
編程能力
GPT-4在LeetCode問題上的表現優(yōu)于訓練截止后的人類基線,并通過了幾家大型科技公司的模擬面試。
他們的進步速度也很快,從GPT-3到GPT-4,直接躍升了19%。
在更具挑戰(zhàn)性的CodeForces競賽中,GPT-4的表現較差,但AlphaCode與CodeForces競爭對手的中值水平相當。
在更難的APPS數據集上,Parcel進一步超越了AlphaCode(7.8%->25.5%)。
展望未來,預測平臺Metaculus給出的中位數是2027年,屆時在APPS上將有80%的AI,將超越除了最優(yōu)秀程序員之外的所有人類。
黑客
Jacob預測,GPT 2030的黑客能力將隨著編程能力的提高而提高,而且,ML模型可以比人類更有規(guī)模、更認真地搜索大型代碼庫中的漏洞。
事實上,ChatGPT早已被用于幫助生成漏洞。
ChatGPT生成的網絡釣魚郵件
數學
Minerva在競賽數學基準(MATH)上的準確率達到50%,優(yōu)于大多數人類競爭對手。
而且,它的進步速度很快(一年內>30%),而且通過自動形式化、減少算法錯誤、改進思維鏈和更好的數據的加持,取得了顯著的成果。
Metaculus預測,到2025年GPT的數學成績將達到92%,AI在國際數學奧賽中獲得金牌的中位數為2028年,能夠比肩全世界成績最拔尖的高中生。
Jacob個人預計,GPT 2030在證明定理方面將優(yōu)于大多數專業(yè)數學家。
信息處理
回憶事實和處理大型語料庫,是語言模型的記憶能力和大型上下文窗口的自然結果。
根據經驗,GPT-4在MMLU上的準確率達到 86%,這是一套廣泛的標準化考試,包括律師考試、MCAT以及大學數學、物理、生物化學和哲學;即使考慮到可能存在測試污染,這也超出了任何人類的知識廣度。
關于大型語料庫,有研究人員使用GPT-3構建了一個系統(tǒng),該系統(tǒng)發(fā)現了大型文本數據集中的幾種以前未知的模式,以及某篇工作中的縮放率,這表明模型很快就會成為「超人」。
這兩項工作都利用了LLM的大型上下文窗口,目前該窗口已超過100,000個token,并且還在不斷增長。
更一般地說,機器學習模型具有與人類不同的技能特征,因為人類和機器學習適應的是非常不同的數據源(前者是通過進化,后者是通過海量的互聯網數據)。
當模型在視頻識別等任務上達到人類水平時,它們在許多其他任務(例如數學、編程和黑客攻擊)上可能會成為超人。
此外,隨著時間的推移,會出現更大的模型和更好的數據,這會讓模型功能變得更為強大,不太可能低于人類水平。
雖然當前的深度學習方法可能在某些領域達不到人類水平,但在數學這類人類進化并不擅長的領域,它們很可能會顯著超越人類。
推理速度
為了研究ML模型的速度,研究人員將測量ML模型生成文本的速度,以每分鐘想到380個單詞的人類思維速度為基準。
使用OpenAI的chat completions API,GPT-3.5每分鐘可以生成1200個單詞 (wpm),而GPT-4可以生成370wpm,截至2023年4月上旬。
像Pythia-12B這樣的小型開源模型,通過在A100 GPU上使用開箱即用的工具,至少可以生成1350個單詞wpm, ,通過進一步優(yōu)化,可能還會達到2倍。
因此,如果我們考慮截至4月份的OpenAI模型,它要么大約是人類速度的3倍,要么等于人類速度。因為加速推理存在強大的商業(yè)化壓力,未來模型的推理速度還會更快。
事實上,根據Fabien Roger 的跟蹤數據,在撰寫本文之前的一周,GPT-4的速度已經提高到約540wpm(12個token/秒);這表明空間仍然很大。
Steinhard的中位數預測是,模型每分鐘生成的單詞數將是人類的5倍(范圍:[0.5x, 20x]),這大致是進一步增加的實際收益會遞減的地方。
重要的是,機器學習模型的速度不是固定的。模型的串行推理速度可以提高k^2,但代價是吞吐量降低k倍(換句話說,模型的$$k^3$$并行副本可以替換為速度快$$k^2$$倍的單個模型)
這可以通過并行平鋪方案來完成,理論上該方案甚至適用于$$k^2$$這樣的大值,可能至少為100,甚至更多。
因此,通過設置k=5,可以將5倍人類速度的模型,加速到125倍的人類速度。
當然,速度并不一定與質量相匹配:GPT 2030將具有與人類
不同的技能特征,在一些我們認為容易的任務上,它會失敗,而在我們認為困難的任務上,它會表現出色。
因此,我們不應將GPT 2030視為「加速的人類」,而應將其視為有潛力發(fā)展出一些違反直覺技能的「超級加速工人」。
盡管如此,加速仍然很有用。
對于提速125倍的語言模型,只要在GPT 2030的技能范圍之內,我們需要一天時間的學會的認知動作,它可能在幾分鐘內就會完成。
運用前面提到的黑客攻擊,機器學習系統(tǒng)可以快速生成漏洞或攻擊,而人類卻生成得很緩慢。
吞吐量和并行副本
模型可以根據可用的計算和內存任意復制,因此它們可以快速完成任何可以有效并行的工作。
此外,一旦一個模型被微調到特別有效,更改就可以立即傳播到其他實例。模型還可以針對特定的任務進行蒸餾,從而運行得更快、更便宜。
一旦模型經過訓練,可能會有足夠的資源來運行模型的多個副本。
因為訓練模型就需要運行它的許多并行副本,并且組織在部署時,仍然擁有這些資源。因此,我們可以通過估計訓練成本,來降低副本數量。
比如,訓練GPT-3的成本,足以運行9x10^11次前向傳播。用人類等價的術語來說,人類以每分鐘380個單詞的速度思考,一個單詞平均占1.33個token,因此9x10^11次前向傳播相當于以人類速度工作約3400年。
因此,該組織可以以人類工作速度運行3400個模型的并行副本一整年,或者以5倍人類速度運行相同數量的副本2.4個月。
接下來,我們可以試著為未來的模型預測同樣的「訓練過剩」(訓練與推理成本的比率)。這個數會更大,主要原因就是這個數值大致與數據集大小成正比,并且數據集會隨著時間的推移而增加。
隨著自然產生的語言數據被耗盡,這一趨勢將會放緩,但新的模式以及合成或自我生成的數據仍將繼續(xù)推動這一趨勢。
上面的預測有些保守,因為如果組織購買額外的算力,模型可能會在比訓練時使用的資源更多的資源上運行。
一個大致的估計顯示,GPT-4的訓練占用了世界上大約0.01%的計算資源,在未來它的訓練和運行將占用全世界更大比例的算力,因此在訓練后進一步擴展的空間較小。
盡管如此,如果組織有充分的理由這樣做,他們仍然可以將運行的副本數量增加到另一個數量級。
知識共享
模型的不同副本可以共享參數更新。
例如,ChatGPT可以部署到數百萬用戶,從每次交互中學習一些東西,然后將梯度更新傳播到中央服務器,隨后應用于模型的所有副本。
通過這種方式,ChatGPT一小時內觀察到的人性就比人類一生(100萬小時 = 114年)還要多。并行學習可能是模型最重要的優(yōu)勢之一,這意味著它們可以快速學習任何缺失的技能。
并行學習的速度取決于模型同時運行副本的數量、獲取數據的速度以及數據是否可以有效地并行利用。
即使是極端的并行化,也不會對學習效率造成太大影響,因為在實踐中,數以百萬計的批大小是很常見的,并且梯度噪聲尺度預測在某個「關鍵批大小」以下,學習性能的降低將是最小的。
因此,我們重點關注并行副本和數據采集。
以下兩個估計表明,可以讓至少~100萬個模型副本以人類速度并行學習。
這相當于人類每天學習2500年,因為100萬天=2500年。
我們首先使用了上文第3節(jié)的數字,得出的結論是訓練模型的成本足以模擬模型180萬年的工作(根據人類速度進行調整)。
假設訓練運行本身持續(xù)了不到1.2年,這意味著訓練模型的組織擁有足夠的GPU,以人類速度運行150萬個副本。
第二個估算考慮了部署該模型的組織的市場份額。
例如,如果一次有100萬個用戶查詢模型,那么組織必然有資源來提供100萬個模型副本。
截至2023年5月,ChatGPT擁有1億用戶,截至2023年1月,每天有1300萬活躍用戶。
假設一般用戶請求的是幾分鐘的模型生成文本,因此1月份的數字可能意味著每天大約5萬人的文本。
然而,未來的ChatGPT式模型很可能會是這個數字的20倍,達到每天2.5億活躍用戶或更多,因此每天100萬人的數據,是相當合理的。
作為參考,Facebook每天有20億日活用戶。
工具、模態(tài)和執(zhí)行器
過去看,GPT風格的模型主要是在文本和代碼上進行訓練,與外部世界的交互方面,除了通過聊天對話之外能力有限。
然而,現在情況正在迅速改變,因為模型正在接受其他模態(tài)(如圖像)的訓練,并且開始與物理執(zhí)行器進行接口交互。
此外,模型不會局限于文本、自然圖像、視頻和語音等人類中心的模態(tài),它們很可能還將接受對于我們來說陌生的模態(tài)的訓練,比如網絡流量、天文圖像或其他大規(guī)模數據來源。
工具
最近發(fā)布的模型使用了很外部工具,比如ChatGPT插件。
模型已經可以編寫并執(zhí)行代碼,說服人類采取行動,進行API調用、交易,并潛在地執(zhí)行網絡攻擊。
這種能力在未來還會進一步發(fā)展。
新模態(tài)
現在已經有了大規(guī)模的開源視覺-語言模型,比如OpenFlamingo,而在商業(yè)領域,GPT-4和Flamingo都是在視覺和文本數據上進行訓練的。研究人員還在嘗試更多非傳統(tǒng)的模態(tài)配對,例如蛋白質和語言。
由于兩個原因,我們應該預計大規(guī)模預訓練模型的模態(tài)將繼續(xù)擴展。
首先,從經濟上講,將語言與不太熟悉的模態(tài)(如蛋白質)配對是有用的,這樣用戶可以從解釋中受益,并高效地進行修改。這意味著在蛋白質、生物醫(yī)學數據、CAD模型以及與經濟部門相關的其他模態(tài)上進行多模態(tài)訓練。
其次,隨著語言數據的耗盡,模型開發(fā)者將尋找新型的數據,來繼續(xù)從規(guī)模效應中受益。
除了傳統(tǒng)的文本和視頻,一些最大的現有數據來源是天文數據(每天將很快達到exabytes級)和基因組數據(每天約0.1exabytes)。這些海量數據源有可能被用于訓練GPT 2030。
使用非傳統(tǒng)模態(tài),意味著GPT 2030可能會具有非直觀的能力。它可能會比我們更好地理解星星和基因,即使它并不具備體力。
這可能會帶來一些意外發(fā)現,例如設計新穎的蛋白質。
執(zhí)行器
現在,大模型還開始使用物理執(zhí)行器:ChatGPT已經用于機器人控制了,OpenAI正在投資一家人形機器人公司。
然而,與數字領域相比,物理領域的數據收集成本要高得多,而且人類在進化上更適應物理領域(因此,機器學習模型要與我們競爭的門檻更高)。
Steinhard預測,在2030年,AI模型能自主組織一輛法拉利的概率是40%。
GPT-2030的影響
當像GPT-2030這樣的AI出現,會對社會意味著什么?
可以推測,它會顯著加速某些研究領域的發(fā)展,也有很大可能被濫用。
優(yōu)勢
GPT-2030,代表著一支龐大、高適應性和高吞吐量的員工隊伍。
它可以在并行副本中完成180萬年的工作,其中每個副本的運行速度是人類的5倍。
這意味著我們可以(在并行性約束的前提下)在2.4個月內,模擬180萬個智能體工作一年的情況。
我們可以支付5倍的FLOP費用,來獲得額外的25倍加速(達到人類速度的125倍),因此我們還可以在3天內,模擬14000個智能體工作一年的情況。
限制
限制這個數字化勞動力的,主要有三個障礙:技能要求、實驗成本和自主性。
首先,GPT-2030的技能要求與人類不同,使其在某些任務上表現較差)。
其次,模擬的工作者仍然需要與世界接觸以收集數據,這會產生時間和計算成本。
最后,現在的模型在進行一連串思考后,只能生成幾千個token,之后就會「卡住」,進入一個不再產生高質量輸出的狀態(tài)。
或許GPT-2030在被重置或通過外部反饋引導之前,能夠連續(xù)運行數個相當于人類工作日的時間。
如果模型以5倍的加速運行,這意味著它們每隔幾個小時就需要人類監(jiān)督。
因此,GPT-2030最有可能影響的任務是:
1. AI相對于人類的強項
2. 只需要能夠方便快速地收集外部經驗數據的任務(而不是昂貴的物理實驗)
3. 可以事先分解為可靠執(zhí)行的子任務,或具有明確且可自動化的反饋度量,以幫助引導模型的任務
加速!
同時滿足上述三個標準的一個任務,就是是數學研究。
在第一點上,GPT-2030可能具有超人的數學能力。
在第二和第三點上,數學可以純粹通過思考和寫作來完成,而且如果一個定理被證明了,我們會知道。
此外,現在全球并沒有多少數學家(在美國只有3000名),因此GPT-2030可能會在在幾天內,就模擬出超過所有數學家一年內產出的成果。
機器學習研究也基本滿足上述標準。
GPT-2030將具有超人的編程能力,包括實現和運行實驗。
它在展示和解釋實驗結果方面也會表現相當出色,因為GPT-4能夠以通俗易懂的方式解釋復雜主題,同時市場也對此有很大需求。
因此,機器學習研究可能會簡化為構思好要進行的實驗,然后和高質量(但可能不可靠)的實驗結果報告交互。
到2030年,碩博研究生可能會擁有和今天的教授相同的資源,仿佛手上帶了幾名優(yōu)秀學生。
社會科學的發(fā)展可能也會顯著加速。很多論文的大部分工作是追蹤、分類和標記有趣的數據來源,并提取模式。
這滿足了要求3,因為分類和標記可以分解為簡單的子任務;也滿足了要求2,只要數據可以在互聯網上獲得,或者可以通過在線調查收集到。
關鍵詞:
上一篇:山東污染環(huán)境刑事案件數量連續(xù)三年呈下降趨勢
下一篇:最后一頁
- 個人護理小家電市場結構迎變局 新興渠道規(guī)模不容小覷
- 廣州科技活動周進入預熱 明日正式啟動300多場主題活動接踵而來
- 深化重點領域信用建設 廣州正式出臺新型監(jiān)管機制實施方案
- 女童不慎掉入20米深井 18歲小姨三次下井成功營救
- 西安3個區(qū)域12月28日起每日開展全員核酸 官方提倡民眾居家健身
- 浙江樂清一核酸檢測結果異常人員 復采復檢為陰性
- 浙江本輪疫情報告確診病例490例 提倡“雙節(jié)”非必要不出省
- 西安警方通報6起涉疫違法案件
- 西安新一輪核酸篩查日檢測能力達160萬管
- 西安市累計報告本土確診病例811例
-
2023任賢齊上海演唱會地址+交通指南+入場須知
2023任賢齊[齊跡·在路上]巡回演唱會上海站將于9月8日-9月9日在東方體
-
第十屆“香港大學生軍事生活體驗營”結業(yè)
中新社香港8月13日電第十屆“香港大學生軍事生活體驗營”13日在中國人
-
臺媒:手機市場復蘇不及預期 高通清庫存芯片大降價
臺灣《經濟日報》8月14日消息,手機市場復蘇不及預期,業(yè)界傳出,為刺
-
倡導綠色出行地鐵里來了一群小小志愿者
8月10日上午,地鐵二號線喇嘛營站來了一群小小志愿者,十多位中小學生
-
廣東省推動新型儲能產業(yè)高質量發(fā)展工作專班成立
8月11日,廣東省發(fā)布《廣東省人民政府辦公廳關于成立廣東省推動新型儲
-
夏威夷毛伊島大火后 華裔居民:劫后余生 倍感生命珍貴
夏威夷毛伊島大火后華裔居民:劫后余生倍感生命珍貴在美國夏威夷毛伊島
-
民警送老人平安回家
“警察同志,我在采油五廠8-11號樓和8-12號樓之間看到一位老人,疑似找
-
文山民辦??茖W校排名 云南大學排名最新排名
今天,大學路小編為大家?guī)砹宋纳矫褶k專科學校排名云南大學排名最新排
-
中國電信天翼網關密碼(天翼網關密碼)
諸多的對于中國電信天翼網關密碼,天翼網關密碼這個問題都頗為感興趣的
-
遭遇泥石流,有些事情一定不要做!這份“自救指南”請查收
8月11日18時許,陜西省西安市長安區(qū)灤鎮(zhèn)街道喂子坪村雞窩子組(位于秦
X 關閉
山東污染環(huán)境刑事案件數量連續(xù)三年呈下降趨勢
商務部等9部門:促進農村大宗商品消費更新換代
成都:到2025年義務教育優(yōu)質均衡比例達80%
四字春聯橫批書法作品欣賞(四字春聯橫批)
X 關閉
西安警方完成研考安保工作 共出動警力逾1.3萬人次
得知西安疫情防控“升級” 男子夜騎共享單車回咸陽淳化
中國醫(yī)生將任SIU主席背后:從追隨者同行者到引領者
海南省通報政法隊伍教育整頓成果