AI計算力に向けたロングテール市場:
a. 技術面:分散型コンピューティング市場は推論ステップにより適しています。トレーニングは超大規模クラスタのGPUデータ処理能力に依存していますが、推論はGPUの計算性能に対する要求が相対的に低く、Aethirは低遅延レンダリング作業とAI推論アプリケーションに焦点を当てています。
b. 需要側:中小規模の計算能力を必要とする者は、自分の大規模モデルを単独で訓練することはなく、少数の主要な大規模モデルを中心に最適化や微調整を行うだけです。これらのシーンは、分散型の未使用計算リソースに自然に適しています。
AI+Web3の協力:データとコンピューティングパワーの新しいパターンを解き放つ
AI+Web3: タワーとプラザ
ポイント
AIコンセプトのWeb3プロジェクトが一級および二級市場で資金を引き寄せるターゲットとなる。
Web3におけるAI業界の機会は、分散型インセンティブを利用してロングテールの潜在的な供給を調整することにあり、データ、ストレージ、計算が含まれます。また、オープンソースモデルやAIエージェントの分散型市場を構築することも含まれます。
AIはWeb3業界で主にオンチェーン金融(暗号支払い、取引、データ分析)および開発支援に利用されています。
AI+Web3の有用性は両者の相互補完に表れています:Web3はAIの集中化に対抗することが期待され、AIはWeb3の領域を広げるのに役立つことが期待されています。
! AI+Web3: タワー&プラザ
はじめに
ここ2年、AIの発展は加速の兆しを見せています。Chatgptによって引き起こされた生成的人工知能の波は、Web3分野でも大きな波紋を広げています。
AI概念の加持により、暗号市場の資金調達が明らかに活性化しています。統計によると、2024年上半期には64のWeb3+AIプロジェクトが資金調達を完了しており、その中で人工知能に基づくオペレーティングシステムZyber365はAラウンドで1億ドルの最高資金調達額を達成しました。
二次市場はさらに繁栄しており、暗号集約サイトCoingeckoのデータによると、わずか1年余りでAI分野の総市場価値は485億ドルに達し、24時間の取引量は86億ドルに近づいています。主流のAI技術の進展が明らかな好影響をもたらし、OpenAIのSoraテキストからビデオへのモデルが発表された後、AIセクターの平均価格は151%上昇しました。AI効果は、暗号通貨の資金調達セクターの一つであるMemeにも波及しています:最初のAIエージェント概念のMemeCoin GOATが急速に人気を博し、14億ドルの評価を獲得し、AI Memeブームを成功裏に巻き起こしました。
AI+Web3に関する研究や話題も同様に盛り上がっており、AI+DepinからAI Memecoin、そして現在のAIエージェントやAI DAOまで、新しい物語の回転速度がFOMOの感情に追いつくのを難しくしています。
AI+Web3という、熱い資金、トレンド、未来の幻想に満ちた用語の組み合わせは、資本によって仲介された手配婚と見なされることは避けられません。この華やかな外見の下で、実際に投機家の本場なのか、それとも黎明が爆発する前夜なのかを見分けるのは困難です。
この質問に答えるには、重要なのは次のように考えることです:相手がいることでより良くなるのか?相手のモデルから利益を得ることができるのか?この記事では、先人の知恵を借りてこの構造を考察しようとしています:Web3はAI技術スタックの各段階でどのように機能し、AIはWeb3にどのような新しい活力をもたらすのでしょうか?
AIスタック下のWeb3の機会
この話題を展開する前に、AI大規模モデルの技術スタックを理解する必要があります。
大規模モデルは人間の脳のようなもので、初期段階はまるで生まれたばかりの赤ちゃんのようです。外界の膨大な情報を観察し、世界を理解する必要があります。これはデータの"収集"段階です。コンピュータは人間の多感覚を持っていないため、訓練前に"前処理"を行い、ラベルのない情報をコンピュータが理解できる形式に変換する必要があります。
データを入力すると、AIは「トレーニング」を通じて理解と予測能力を持つモデルを構築します。これは、赤ちゃんが外界を理解し学習する過程に似ています。モデルパラメータは、赤ちゃんが言語能力を調整するように、絶えず調整されます。学習内容は分野ごとに分けられたり、人との交流を通じてフィードバックを得て修正されたりし、「ファインチューニング」の段階に入ります。
子供は成長して話せるようになると、新しい対話の中で意味を理解し、感情や考えを表現できるようになります。これはAIの大規模モデルの「推論」に似ており、モデルは新しい言語やテキスト入力に対して予測分析を行います。赤ちゃんは言語能力を通じて感情を表現し、物体を描写し、問題を解決します。これはAIの大規模モデルが訓練を終えた後、推論段階で画像分類や音声認識などのさまざまな特定のタスクに応用されることに似ています。
AIエージェントは、次の大規模モデルの形態により近づいています。タスクを独立して実行し、複雑な目標を追求できるだけでなく、思考能力を備えており、記憶や計画を行い、ツールを使って世界とインタラクトできます。
AIの各スタックの痛点に対処するために、Web3は現在、AIモデルプロセスの各段階を含む多層的で相互接続されたエコシステムを初歩的に形成しています。
! AI+Web3:タワー&スクエア
基本レイヤー: Airbnb で能力とデータを計算
ハッシュレート
現在、AIの最高のコストの一つは、モデルのトレーニングと推論モデルに必要な計算力とエネルギーです。
例えば、MetaのLLAMA3は16000個のNVIDIA H100GPUを30日間必要とし、トレーニングを完了します。H100 80GB版の単価は3-4万ドルで、これには4-7億ドルの計算ハードウェア投資(GPU+ネットワークチップ)が必要で、月間トレーニング消費は16億キロワット時、エネルギー支出は約2000万ドルです。
AIの計算力の解放は、Web3がAIと交差する最初の分野の一つであり、DePin(分散型物理インフラネットワーク)です。DePin Ninjaデータサイトには1400以上のプロジェクトがリストされています。GPU計算力共有の代表的なプロジェクトには、io.net、Aethir、Akash、Render Networkなどがあります。
主な論理は、プラットフォームがライセンスなしで分散型の方法で余剰GPUリソースの所有者が計算能力を提供できることを許可し、UberやAirbnbのようなオンラインマーケットを通じて未活用のGPUリソースの使用率を向上させ、エンドユーザーがより低コストで効率的な計算リソースを得られるようにすることです。同時に、ステーキングメカニズムは、リソース提供者が品質管理に違反したりネットワークを中断した場合に適切な罰則があることを保証します。
特徴には:
余ったGPUリソースを集める:供給者は主に第三者の独立した中小型データセンター、暗号マイニングファームなどのオペレーターによる余剰計算能力、PoSコンセンサスメカニズムのマイニングハードウェア、たとえばFileCoinやETHマイナーです。一部のプロジェクトは、exolabがMacBook、iPhone、iPadなどのローカルデバイスを利用して大規模なモデル推論の計算ネットワークを構築するように、より低い参入障壁のあるデバイスの起動を目指しています。
AI計算力に向けたロングテール市場: a. 技術面:分散型コンピューティング市場は推論ステップにより適しています。トレーニングは超大規模クラスタのGPUデータ処理能力に依存していますが、推論はGPUの計算性能に対する要求が相対的に低く、Aethirは低遅延レンダリング作業とAI推論アプリケーションに焦点を当てています。 b. 需要側:中小規模の計算能力を必要とする者は、自分の大規模モデルを単独で訓練することはなく、少数の主要な大規模モデルを中心に最適化や微調整を行うだけです。これらのシーンは、分散型の未使用計算リソースに自然に適しています。
分散型所有権:ブロックチェーン技術の意義は、リソースの所有者が常にリソースに対するコントロールを保持し、ニーズに応じて柔軟に調整し、同時に利益を得ることができる点にあります。
データ
データはAIの基盤です。データがなければ、計算は浮き草のように無意味です。データとモデルの関係は「ゴミが入ればゴミが出る」という俗語のように、データの量と入力の質が最終的なモデルの出力の質を決定します。現在のAIモデルのトレーニングにおいて、データはモデルの言語能力、理解力、さらには価値観や人間的な表現を決定します。現在、AIのデータ需要のジレンマは主に以下の4つの側面に集中しています:
データ飢餓:AIモデルの訓練は膨大なデータ入力に依存します。公開された資料によると、OpenAIはGPT-4の訓練に1兆以上のパラメータを使用しています。
データ品質:AIと各業界の結合に伴い、データのタイムリー性、多様性、特定分野のデータ専門性、ソーシャルメディアの感情吸収などの新興データソースがその品質に新しい要求をもたらしています。
プライバシーとコンプライアンスの問題:各国や企業は高品質なデータセットの重要性に徐々に気づき、データセットのクローリングに制限をかけています。
データ処理コストが高い:データ量が多く、処理プロセスが複雑です。公開資料によると、AI企業の30%以上の研究開発コストは基礎データの収集と処理に使われています。
現在、web3のソリューションは以下の4つの側面に現れています:
真に貢献するユーザーがデータによる価値創造に参加し、分散型ネットワークとインセンティブメカニズムを通じて、低コストでユーザーのよりプライベートで、より価値のあるデータを取得することがWeb3のビジョンです。
Grassは分散型データ層とネットワークであり、ユーザーはGrassノードを運営することで、未使用の帯域幅や中継トラフィックを提供し、インターネット全体のリアルタイムデータをキャッチし、トークン報酬を得ることができます。
Vanaは独自のデータ流動性プール(DLP)コンセプトを導入し、ユーザーはプライベートデータ(購入履歴、ブラウジング習慣、ソーシャルメディアアクティビティなど)を特定のDLPにアップロードし、特定の第三者に使用を許可するかどうかを柔軟に選択できます。
PublicAIでは、ユーザーはX上で#AI或#Web3を分類タグとして使用し、@PublicAIを付けることでデータ収集を実現できます。
GrassとOpenLayerは、データアノテーションという重要なステップを追加することを検討しています。
Synesisは「Train2earn」コンセプトを提唱し、データの質を強調します。ユーザーは、ラベル付けデータ、注釈、またはその他の形式の入力を提供することで報酬を得ることができます。
データラベリングプロジェクトSapienは、ラベリングタスクをゲーム化し、ユーザーがポイントをステークしてより多くのポイントを獲得できるようにします。
現在のWeb3で一般的なプライバシー技術には、
信頼された実行環境(TEE) (Super Protocol など)。
BasedAI、Fhenix.io、Inco Networkなどの完全準同型暗号化(FHE)。
ゼロ知識技術(zk)、例えばReclaim ProtocolはzkTLS技術を使用して、HTTPSトラフィックのゼロ知識証明を生成し、ユーザーが外部サイトから活動、評判、およびアイデンティティデータを安全にインポートできるようにし、機密情報を公開することなく行います。
ただし、現在この分野はまだ初期段階にあり、大部分のプロジェクトはまだ探求中です。現在の困難は、計算コストが高すぎることです。例えば:
zkMLフレームワークEZKLは、1M-nanoGPTモデルの証明を生成するのに約80分かかります。
Modulus Labsのデータによると、zkMLのオーバーヘッドは純粋な計算よりも1000倍以上高い。
ミドルウェア:モデルのトレーニングと推論
オープンソースモデルの分散型マーケット
AIモデルのクローズドソースとオープンソースに関する議論は決して消えていません。オープンソースがもたらす集団的な革新は、クローズドモデルには比類のない利点ですが、利益モデルが全くない前提で、オープンソースモデルはどのように開発者のモチベーションを高めるのでしょうか?考慮すべき方向性です。今年4月、百度の創業者である李彦宏は「オープンソースモデルはますます遅れをとるだろう」と断言しました。
これに対して、Web3はモデル自体をトークン化し、チームに一定割合のトークンを保持させるという、分散型オープンソースモデル市場の可能性を提案し、このモデルの将来の収入の一部をトークン保有者に流すことを提案しています。