※当サイトにはアフリエイト広告が含まれています。

GrassはAIのデータレイヤー

grass

当サイトではアフィリエイト広告を利用して商品を紹介しています。

2024年2月22日

TL;DR: Grassは、パブリック・ウェブにアクセスするための分散型ネットワークであり、したがってAIモデルの学習に必要なデータにアクセスすることができる。構造化されたデータセットのクリーニングと準備のビジネスに拡大するにつれて、AIの存在基盤、つまりAIのデータレイヤーの不可欠な一部となる。

はじめに。

最近、グラスのことを「AIのデータレイヤー」と呼ぶのを聞いたことがあるかもしれない;

AI革命が今まさに進行中であることはご存じだろうし、まだ時間があるうちにその恩恵にあずかるにはグラスが最も簡単な方法であることもご存知だろう。

このようなことを説明するのは、文字通り私たちの仕事だ。

そこで今日は、AIのデータレイヤーとは何かについてもう少し詳しく説明し、グラスが最近始めた新しいサービスのいくつかを説明しよう。そうすれば、なぜ60万人もの人々がこれを良いアイデアだと考えているのか、そしてなぜあなたがこれに参加することを決めたのか、その正しい選択について、より明確なイメージを持つことができるでしょう。

AIのデータレイヤーとは?

AIのデータレイヤーとは何か?

その前に、そもそもAIとは何なのか?

簡単に言えば、AIは大量のデータを取り込み、その中からパターンを見つけ出すプログラムである;

一例を挙げよう:ChatGPTを考えてみよう。それは何十億もの単語を取り込み、それぞれが互いにどのように相関しているかに気づきます。「空」という単語が「青」という単語の隣に1万回、1万5千回あるのを見て、「空は青い」と言うことができるのです;

オーケー、ではポーズをとって。

この段落で3つのことが起こっていることにお気づきだろう。

そして3つ目は、空の色を尋ねると「青」と答える。

AIプロトコルというと、特に暗号の分野では、おそらくその2、つまりトレーニングを思い浮かべるだろう。そして、それはAIプロトコルの1つの種類である;

AIモデルをトレーニングすることは明らかに重要ですが、それを使用したときに得られる答えは、トレーニングデータで見つけた相関関係に基づいています。もし質の低いトレーニングデータから始めると、質の低い答えになってしまいます。トレーニングデータがない場合、答えは得られません;

言い換えれば、地球上で最も強力なモデルを持つことは可能だが、それが2つの媒体記事(どちらも空は緑色だと書いてある)で学習された場合、空の色は何色かと質問したときに、あなたのモデルは何と答えると思いますか?

このように考えると、データはどのAIモデルにとっても実は最も重要な部分なのです。データは開発の前段階のような場当たり的なものであるどころか、実際にはどのような機能するモデルにとっても中核をなすものであり、データの準備はどのようなトレーニングにとっても基礎となるものです。あるレポートによると、「AIツールのためにデータを準備することは、最大で AIシステムの実装に関わる総作業量の80% を占めることが多い」のはそのためです。データのプロビジョニングが、実は戦いのほとんどなのです! ;

では、データレイヤーとは何か?

データレイヤーは、AI開発の最初の段階です。  AIスタックの一部で、学習が始まる前にデータを収集し、モデルの準備をします。  そして、これがグラスです。  それはまた、あなたが貢献できる場所であり、人工知能のカンブリア爆発から利益を享受できる場所でもあります。

グラスはAIトレーニングのためのデータ取得に使われているか?

We’re glad you asked.  Yes, that’s exactly what Grass is used for!  

グラスでノードを運営する場合、使用していないインターネット接続の部分を売ることになる;

そしてこれは、AIラボが対価を支払うリソースなのだ! 我々のネットワークを使って、彼らはオンラインで公共のウェブサイトを閲覧し、AIデータをかき集めることができる。 これはその後、トレーニング目的に使用され、明日のAIモデルを作成し、一般の人々に変化を補償する。

グラスは、インターネットからデータを収集した後、このデータを準備するために使用されますか?

ソクラテスのおかげで、AI開発のための新しい社内垂直統合が実現した;

ウェブサイトの言語データを思い浮かべてみてください。文章や段落の代わりに、文字と数字の羅列が何千桁も並んでいるだけで、理解できる順序はありません。データの構造化とは、これらの数字を認識可能な形式にするプロセスのことで、この例では、実際に読んで解釈できるように整理することです;

さらに、データ戦争が過熱し、企業が互いに妨害し合おうとしているため、意図的に毒を盛る例が増えてきています。 これは、データが最初に入念な準備なしにAIモデルに単純に差し込むことができないもう1つの理由です;

ソクラテスは大規模なデータリポジトリとして始まり、AIラボはLLMを訓練する目的で特別にアクセスを要求することができた。  しかし現在、スクレイピングとデータ準備のプロセスを自動化し、スクレイピング後のデータにタグ付けするために使用される独自のモデルを訓練する作業が進行中である。

なぜこれらのサービスを実行するために分散型ネットワークが必要なのか?

現存する最大のウェブサイトの多くは、中央集権的な民間のAI企業と利害関係があり、小規模な競合他社が足場を築くのを阻止することに既得権益を持っている。例えばRedditからは膨大な量の言語データを引き出すことができるが、同社は昨年からAPIに法外な金額を請求するようになり、現在では人々が自分でスクレイピングするのを止めようとしている;

多くの企業がGrassのようなネットワークを運営しているが、Grassの分散型で公平な設計に比べ、中央集権的で抽出的であり、これらのネットワークはスクレイピングのためにデータセンターに依存していることが多い;

「グラス」は従来のデータ提供方法よりもどのように優れているのか。

それは、AIの台頭が、Web2.0. で起きた過ちを正すチャンスだからだ。私たちは、現在のインターネットの発展方法に不満を持っており、このインフラを構築することが、Web3.  の発展において私たちの価値観を促進する最善の方法だと信じている;

私たちが誇りに思っている3つのことを紹介しよう:

  1. Grassはユーザーによって所有・運営されるネットワークです。ノードを運営し、Grassポイントを獲得することで、ネットワークの運営に参加することになる。ユーザーにインセンティブを与えるとしても微々たるものでしかない他のネットワークとは異なり、Grassは公平で集団的なプロジェクトとして設計されている。つまり、AIが成長すればするほど、ビル・ゲイツやイーロン・マスクだけでなく、私たち全員が利益を得ることができるのだ。
  2. Grassは、誰もがAIの台頭に触れることができる、現在存在する最も簡単な方法だ。ノードの運営は、サインアップしてChrome拡張機能をインストールするだけと簡単で、残りの作業はアプリがやってくれる。
  3. 従来の人工知能のトレーニングに役立つだけでなく、グラスはウェブデータにアクセスするための代替経路を作ることで、分散型のオープンソースAIの創造を可能にしている。もし誰もこのようなことをしなければ、グーグルやマイクロソフトのような企業は、全体をインデックス化した唯一の存在として、 パブリックウェブをゲートキープする権限を与えられるだろう。そして、彼らはこの力を使って、AIの開発を独占することができる。ご存知のように、トレーニングデータがない=AIモデルがないのだから。

たくさんの情報がありましたが、グラスがAI開発で果たす役割、私たちの現在のミッション、そしてなぜそれが重要なのか、ご理解いただけたでしょうか。 私たちと一緒に参加することで、ネットワークを構築する仕事に対する報酬を得るだけではありません。 より良く、より公平で、より公正な世界を作る手助けをしているのです。 AIそのものがそうであるように、すべてはデータレイヤーから始まります。 ですから、私たちがこのインフラを構築し、私たちが生きたいと思う世界を創造する手助けをしてくださることに感謝します。

タイトルとURLをコピーしました