📢 #Gate广场征文活动第三期# 正式啓動!
🎮 本期聚焦:Yooldo Games (ESPORTS)
✍️ 分享獨特見解 + 參與互動推廣,若同步參與 Gate 第 286 期 Launchpool、CandyDrop 或 Alpha 活動,即可獲得任意獎勵資格!
💡 內容創作 + 空投參與 = 雙重加分,大獎候選人就是你!
💰總獎池:4,464 枚 $ESPORTS
🏆 一等獎(1名):964 枚
🥈 二等獎(5名):每人 400 枚
🥉 三等獎(10名):每人 150 枚
🚀 參與方式:
在 Gate廣場發布不少於 300 字的原創文章
添加標籤: #Gate广场征文活动第三期#
每篇文章需 ≥3 個互動(點讚 / 評論 / 轉發)
發布參與 Launchpool / CandyDrop / Alpha 任一活動的截圖,作爲獲獎資格憑證
同步轉發至 X(推特)可增加獲獎概率,標籤:#GateSquare 👉 https://www.gate.com/questionnaire/6907
🎯 雙倍獎勵機會:參與第 286 期 Launchpool!
質押 BTC 或 ESPORTS,瓜分 803,571 枚 $ESPORTS,每小時發放
時間:7 月 21 日 20:00 – 7 月 25 日 20:00(UTC+8)
🧠 寫作方向建議:
Yooldo
AI大模型競爭白熱化:技術壁壘降低 商業難題凸顯
AI大模型:一場工程問題引發的革命
上個月,AI界掀起了一場"動物大戰"。
一方是Meta推出的Llama系列模型,因其開源特性深受開發者青睞。日本NEC公司基於Llama論文和代碼迅速開發出日語版ChatGPT,解決了日本在AI領域的技術瓶頸。
另一方是名爲Falcon的大模型。今年5月,Falcon-40B問世,一舉超越Llama登頂"開源大語言模型排行榜"。該榜單由開源社區Hugging Face制作,爲評估LLM能力提供了標準。此後,Llama和Falcon輪番刷新排名。
9月初,Falcon推出180B版本,再次登頂榜單。有趣的是,Falcon的開發者並非科技公司,而是位於阿布扎比的科技創新研究所。阿聯酋官員表示,他們參與AI競賽是爲了顛覆現有格局。
如今,AI領域已進入百家爭鳴的階段。只要有一定實力的國家和企業,都在嘗試打造本土版ChatGPT。僅海灣國家就有多個玩家,沙特阿拉伯最近爲國內大學採購了3000多塊H100芯片用於訓練LLM。
一位投資人感嘆道:"當年看不起互聯網的商業模式創新,覺得沒有壁壘。沒想到硬科技大模型創業,依然是百模大戰..."
原本被認爲是高難度的硬科技,爲何演變成了"一國一模"的局面?
Transformer:AI革命的引擎
美國初創公司、中國科技巨頭、中東石油大亨紛紛投身大模型研發,都源於一篇著名論文:《Attention Is All You Need》。
2017年,8位谷歌科學家在這篇論文中公開了Transformer算法。該論文目前是AI歷史上被引用第三多的文章,Transformer的出現引發了此輪AI熱潮。
當前各種大模型,包括轟動全球的GPT系列,都建立在Transformer基礎之上。
此前,"教機器讀書"一直是學界公認的難題。不同於圖像識別,人類閱讀時會結合上下文理解。早期神經網路難以處理長文本,常出現"開水間"被翻譯成"open water room"等問題。
2014年,谷歌科學家伊利亞首次使用循環神經網路(RNN)處理自然語言,大幅提升了谷歌翻譯性能。RNN通過"循環設計"賦予神經網路理解上下文的能力。
然而RNN存在嚴重缺陷:順序計算導致效率低下,難以處理大量參數。2015年起,谷歌科學家沙澤爾等人着手開發RNN替代品,最終推出了Transformer。
相比RNN,Transformer有兩大革新:一是用位置編碼實現並行計算,大幅提升訓練效率;二是進一步增強了上下文理解能力。
Transformer一舉解決多項難題,逐漸成爲NLP領域的主流方案。它讓大模型從理論研究轉變爲純粹的工程問題。
2019年,OpenAI基於Transformer開發出GPT-2。作爲回應,谷歌迅速推出性能更強的Meena。Meena僅僅是在參數和算力上大幅超越GPT-2,沒有底層算法創新。這讓Transformer作者沙澤爾驚嘆於"暴力堆砌"的威力。
Transformer問世後,學界底層算法創新速度放緩。數據工程、算力規模、模型架構等工程要素,日益成爲AI競賽的關鍵。只要有一定技術實力的公司,都能開發出大模型。
AI專家吳恩達認爲,AI已成爲一系列通用技術工具,類似於電力和互聯網。
雖然OpenAI仍是LLM的領頭羊,但業內分析認爲GPT-4的優勢主要來自工程解決方案。一旦開源,競爭對手可迅速復制。預計不久後,其他大型科技公司也能打造出與GPT-4性能相當的大模型。
脆弱的護城河
如今,"百模大戰"已成現實。報告顯示,截至今年7月,中國大模型數量達130個,超過美國的114個。各種神話傳說已不夠國內科技公司取名用了。
除中美外,許多發達國家也初步實現了"一國一模":日本、阿聯酋、印度、韓國等紛紛推出本土大模型。這場景仿佛回到了互聯網泡沫時代,"燒錢"成爲主要競爭手段。
Transformer讓大模型變成純工程問題,只要有人力物力,就能開發。但入場容易,成爲AI時代巨頭卻很難。
前文提到的"動物大戰"就是典型案例:Falcon雖在排名上力壓Llama,但對Meta影響有限。
企業開源科研成果,既是分享科技福祉,也希望調動社會智慧。隨着各界不斷使用改進Llama,Meta可將成果應用於自身產品。
對開源大模型而言,活躍的開發者社群才是核心競爭力。
Meta早在2015年組建AI實驗室時就確定了開源方針。扎克伯格深諳"搞好羣衆關係"之道。10月,Meta還推出了"AI版創作者激勵"活動,資助使用Llama 2解決社會問題的開發者。
如今,Meta的Llama系列已成爲開源LLM的風向標。截至10月初,Hugging Face排行榜前10中有8個基於Llama 2開發,使用其開源協議的LLM超過1500個。
提高性能固然重要,但目前大多數LLM與GPT-4仍有明顯差距。在最新的AgentBench測試中,GPT-4以4.41分問鼎榜首,第二名Claude僅2.77分,開源LLM多在1分左右。
GPT-4發布已半年有餘,全球同行仍難以追平。這源於OpenAI頂尖的科學家團隊和長期積累的LLM研究經驗。
可見,大模型的核心能力在於生態建設(開源)或純粹的推理能力(閉源),而非簡單的參數堆砌。
隨着開源社區活躍,各LLM性能可能趨同,因爲大家使用相似的模型架構和數據集。
更直觀的難題是:除Midjourney外,似乎還沒有哪個大模型能實現盈利。
價值的錨點
今年8月,一篇"OpenAI可能於2024年底破產"的文章引發關注。主要觀點是:OpenAI燒錢速度過快。
文章提到,自開發ChatGPT後,OpenAI虧損迅速擴大,2022年虧損約5.4億美元,只能依賴微軟投資。
這反映了大模型提供商普遍面臨的困境:成本與收入嚴重失衡。
高昂成本導致目前主要受益者是英偉達和博通等芯片廠商。
據估計,英偉達今年二季度售出超30萬塊H100 AI芯片,重量相當於4.5架波音747。英偉達業績暴漲854%,震驚華爾街。H100二手價已炒至4-5萬美元,而成本僅3000多美元。
算力成本已成行業發展阻力。紅杉資本測算:全球科技公司每年將花2000億美元建設大模型基礎設施,但大模型年收入最多750億美元,存在至少1250億美元缺口。
除少數個例外,多數軟件公司付出巨額成本後仍未找到盈利模式。即便行業領軍者微軟和Adobe也面臨挑戰。
微軟與OpenAI合作開發的GitHub Copilot,每月收費10美元卻要倒貼20美元,重度用戶甚至讓微軟每月虧80美元。新推出的Microsoft 365 Copilot定價30美元,虧損可能更多。
Adobe推出Firefly AI工具後迅速上線積分系統,限制用戶過度使用導致公司虧損。超出每月分配積分後,Adobe會降低服務速度。
微軟和Adobe已有明確業務場景和大量付費用戶。而多數參數堆積如山的大模型,最大應用場景仍是聊天。
OpenAI和ChatGPT的橫空出世引發了這場AI革命,但當前階段訓練大模型的價值存疑。隨着同質化競爭加劇和開源模型增多,單純的大模型供應商空間或將進一步壓縮。
iPhone 4的成功不在於45nm制程的A4處理器,而在於它能玩《植物大戰僵屍》和《憤怒的小鳥》。