Apple、YouTubeコンテンツでAIを訓練していないと発表

2024.7.19 Mac

Appleは、他の主要テクノロジー企業と共にYouTube字幕を使用してAIモデルを訓練していたとの調査報告を受けて、AI訓練データの使用についての懸念に答えました。(MacRumors)

今週初めにWiredによって行われた調査によれば、人気コンテンツクリエイターの動画17万本以上がAIモデルの訓練に使用されたデータセットの一部であることが報告されました。特に、Appleはこのデータセットを用いてオープンソースのOpenELMモデルを開発し、4月に公開しました。

Apple Intelligence版Siriは2025年に登場するiOS 18.4まで「お預け」か

しかし、Appleは9to5Macに対し、OpenELMはAppleのAIや機械学習機能（Apple Intelligenceシステムを含む）に利用されていないことを確認しました。Appleは、OpenELMは研究目的でのみ作成されており、オープンソースの大規模言語モデル開発を進めることを目的としていると説明しています。

Appleの研究者は、OpenELMをHugging Face Hub（AIコードを共有するコミュニティ）で公開した際、「オープン研究コミュニティを支援し、豊かにするための最先端のオープン言語モデル」と述べています。このモデルはAppleの機械学習研究ウェブサイトでも利用可能です。AppleはOpenELMモデルの新バージョンを開発する計画はないとしています。

Appleは、OpenELMがApple Intelligenceに統合されていないため、「YouTube Subtitles」データセットは商用のAI機能には使用されていないことを強調しました。Appleは以前の声明を繰り返し、Apple Intelligenceモデルは「特定の機能を強化するために選ばれたライセンスデータや、Appleのウェブクローラーによって収集された公開データを含むライセンス取得済みデータ」によって訓練されていると述べました。

Wiredの報告では、Apple、Anthropic、NVIDIAなどの企業が「YouTube Subtitles」データセットをAIモデルの訓練に使用していたことが詳述されています。このデータセットは、非営利組織EleutherAIによって編成された大規模データセット「The Pile」の一部です。

月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30