生成AIはデジタル格差により膨大な人類知識を見落とすことが研究で判明
生成AIモデルはインターネット上のデータに依存するため、デジタル化されていない膨大な人類の知識を取りこぼしていることが研究で明らかになった。
最新の更新
【カリフォルニア】インターネット上のデータを用いて学習された生成AIモデルは、デジタル化されていない、もしくはオンラインで過小評価されている膨大な領域の人類知識に触れる機会がほとんどないことが研究で明らかになった。
たとえば、Common Crawlのデータでは英語が44%を占め、世界人口の7.5%が話すヒンディー語はわずか0.2%、世界で8,600万人の話者を持つタミル語は0.04%に過ぎない。世界の言語の約97%はコンピューティングにおいて「低リソース」と分類されている。
2020年の研究では、88%の言語がAI技術で極端に無視されており、それらを現代のAIに対応させるには非常に大規模な努力が必要であると指摘されている。北アメリカ、北西アマゾニア、ニューギニアの薬用植物に関する調査では、12,495件の異なる利用法のうち75%以上が、特定の地域言語にのみ存在する独自の情報であった。
研究者によれば、大規模言語モデルは「モード増幅」と呼ばれる現象を通じて支配的なパターンを強化してしまい、少数言語や低リソース情報がさらに過小評価される結果となる。
好きかもしれない
- NordVPN、Linux用GUIアプリをオープンソース化し透明性と利便性を向上
- OpenAI、12月より年齢確認済みユーザー向けにChatGPTで官能コンテンツ解禁へ
- OpenAI、ChatGPTログ保存の裁判所命令を「プライバシーの悪夢」と批判
- Microsoft 365 Copilot、2025年10月からWindowsクライアントに自動インストール予定、EEAユーザーは対象外
- EA、バトルフィールド6プレイヤーに対し、Call of Dutyポータルマップ作成で永久的な禁止措置を警告
- オーストラリア、AI統合によるサブスクリプション料金引き上げでマイクロソフトを提訴
- Google Discover、XとInstagramの投稿を統合予定
- フォートナイトが5年ぶりに米国のiPhoneに復帰:App Storeでの禁止解除後