テクノロジー大手が境界を押し広げ、AI データの需要を促進



それがOpenAI 、Google、Meta の取り組みであるかどうかにかかわらず、人工知能資金調達業界には、創造的だが物議を醸すさまざまな方法で大量のデジタル データを収集または蓄積するなどのさまざまな手段が含まれており、容量と自動化機能が増加していることは明らかです。特に、上記で概説した手順 (つまり、法的制限や企業ポリシーを考慮する) を実行するなどの取り組みは、AI システムのトレーニングに使用される大量のデータに相当します。

OpenAI の Whisper イニシアチブ: YouTube での会話のマイニング

私たちの Whisper の物語はちょうど昨年始まりました。世界クラスの英語教科書が大幅に不足しており、教育の提供に遅れが生じています。 Whisper は Google の次のステップでした。これには YouTube の対話の海が含まれており、テキスト読み上げアプリケーションとして開発されました。新しいテキスト (本質的には新しい会話) を生成するために AI によってチェックされた 100 万時間以上の YouTube 動画で構成された同じ AI 搭載ツールが、GPT-4 までの最先端技術によって生成された AI モデルのトレーニングに使用されました、ChatGPT チャットボットの最新バージョン。

一部の従業員は、OpenAI の Microsoft ビデオはあらゆるレベルで YouTube を盗用すると主張しましたが、盗作の倫理には依然として疑問がありました。さらに、一部の従業員は、YouTube の意図と正確に一致することは不可能であることを認めました。同様に、AI モデルを強化するためにテキスト コンテンツを抽出するためにビデオのアルゴリズム処理で反対意見をキャプチャすることは、ビデオ作成者に対する著作権の脅威とみなされ、怒りを引き起こした可能性があります。

Facebook と Instagram の親会社である Meta も、特に Simon & Schuster などの出版社からの著作権で保護された要素の使用を懸念していました。同時に、著作権侵害に巻き込まれるリスクを伴う一般的なWebコンテンツの取得についても議論された。

データ危機: 型破りなアプローチの推進

競争に満ちたデータ収集は、AI 技術の開発におけるデータの重要な位置に気づき、それを特定するのに役立ちます。 AI 内の言語は、連邦を含むトレーニング データセットを制御することが増えていますが、今日ではこれらのソースの外部から Wikipedia や Reddit まで操作されています。テクノロジー企業、特に従来のデータ ストアなどの非常に一般的なデータ ソースにアクセスすることが難しい企業にとって、AI ベースのモデリングは、このような場合に非常に望ましい代替ソリューションとなる可能性があります。

ハイテク企業はAIトレーニングに必要なデータ収集を指摘しているが、そのプロセス自体は法廷で法的に争われている。 OpenAIと Microsoft は、著作権で保護されたマテリアルの違法使用に対する訴訟で、彼らを弁護して勝訴しました。しかし、彼らは自分たちの行為がフェアユースの法原則の範囲内にあると主張した。近年、著作権者が米国著作権局に提出した申請件数は 10,000 件を超えており、人工知能時代の著作権法が独自かつ真新しいものであることを明確に示しています。その結果、大手企業は、AIを利用したモデルにはライセンス目的がないという口実のもと、多くの著作物を侵害する危険に常に直面している。

大規模なデータセットにとって不可欠なこと

全体として、大規模な科学者であるカイパン デ ジャレドの研究は、人工知能の開発において意図せずして壮大なものとなっています。データ駆動型コンテンツはトレーニング プロセスに必要な AI のコンポーネントの 1 つですが、十分にトレーニングされ効果的に機能するモデルがなければ適切に機能しません。人工知能テクノロジーの台頭により、市場で成功するためのデータの需要が急速に高まっており、企業は法律、倫理、プライバシーに関連する疑問を抱えています。したがって、AI アルゴリズムが市場で成功するには、これらのデータセットを使用する必要があります。

V.IP データ収集の動作はAI の改善によって損なわれています。典型的な方法論的な宣誓が拡大されます。 YouTube での講演や生成合成データの作成を通じて、これらの企業は、法律、倫理、プライバシーの問題が実際に何なのかを発見するという使命を担うリーダーです。

後々海の上で笑い話になるかも知れません。イノベーションのプロセスを導くために必要な膨大な量のデータの出現により、社会のリーダーは建設的な対話に積極的に参加して、イノベーションの取り組みが知的財産権とプライバシーの権利の倫理原則とバランスのとれたルールや基準を策定することが求められています。

元の記事はこちらから: https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html