イーロン・マスク氏は、AI開発において「実世界のデータが枯渇している」と語り、今後は合成データが鍵を握るとの見解を示しました。
彼はStagwell会長のマーク・ペン氏との対談で、「昨年までに人類の知識の集大成はAIトレーニングにおいて使い果たされた」と述べ、AI業界が大きな転換点に立っていることを強調しました。
この考え方は、昨年のNeurIPS(AIトップカンファレンス)でイリヤ・サツケバー氏が提唱した「ピークデータ」の概念とも一致しています。
マスク氏は、AIモデルの開発を続けるためには、AIが自ら生成する合成データを活用することが不可欠だとしています。
「AIは合成データを用いて自己評価を行い、自己学習を進めるプロセスを経る」と語り、この手法が今後のAI技術の中核になると予測しています。
すでに多くのテクノロジー企業がこのアプローチを採用しています。
たとえば、Microsoftの「Phi-4」モデルは、実世界のデータと合成データを組み合わせてトレーニングされ、Googleの「Gemma」モデルやMetaのLlamaシリーズも同様の手法で開発されています。
さらに、AnthropicのClaude 3.5 Sonnetも合成データを活用して高性能化が図られました。
合成データの利用はコスト削減にも貢献しています。
AIスタートアップのWriterは、「Palmyra X 004」モデルの開発にほぼ完全に合成データを使用し、開発費を70万ドルに抑えました。
これは、同規模のOpenAIモデル開発にかかるとされる460万ドルと比較して大幅なコストダウンとなります。
しかし、合成データには欠点もあります。研究によれば、合成データを多用するとモデルが「モデル崩壊」を起こす可能性があり、創造性が失われたり、偏りが強まったりするリスクがあります。
また、合成データが元となるトレーニングデータの偏りや制限を引き継ぐことで、AIの出力にもその影響が及ぶ可能性があります。
これらの課題を克服しながら合成データを活用することが、AI開発における次のステップとされています。
イーロン・マスク氏をはじめ、多くの専門家が指摘するように、従来の実データに頼ったトレーニングから脱却することは、AI技術のさらなる進化を支える重要な転換点となるでしょう。
出典:Elon Musk agrees that we’ve exhausted AI training data | TechCrunch