生成AIはデジタル格差により膨大な人類知識を見落とすことが研究で判明
生成AIモデルはインターネット上のデータに依存するため、デジタル化されていない膨大な人類の知識を取りこぼしていることが研究で明らかになった。
最新の更新
【カリフォルニア】インターネット上のデータを用いて学習された生成AIモデルは、デジタル化されていない、もしくはオンラインで過小評価されている膨大な領域の人類知識に触れる機会がほとんどないことが研究で明らかになった。
たとえば、Common Crawlのデータでは英語が44%を占め、世界人口の7.5%が話すヒンディー語はわずか0.2%、世界で8,600万人の話者を持つタミル語は0.04%に過ぎない。世界の言語の約97%はコンピューティングにおいて「低リソース」と分類されている。
2020年の研究では、88%の言語がAI技術で極端に無視されており、それらを現代のAIに対応させるには非常に大規模な努力が必要であると指摘されている。北アメリカ、北西アマゾニア、ニューギニアの薬用植物に関する調査では、12,495件の異なる利用法のうち75%以上が、特定の地域言語にのみ存在する独自の情報であった。
研究者によれば、大規模言語モデルは「モード増幅」と呼ばれる現象を通じて支配的なパターンを強化してしまい、少数言語や低リソース情報がさらに過小評価される結果となる。
好きかもしれない
- NordVPN、Linux用GUIアプリをオープンソース化し透明性と利便性を向上
- OpenAI、12月より年齢確認済みユーザー向けにChatGPTで官能コンテンツ解禁へ
- Apple、MagSafe充電器のファームウェアを2A168に更新
- Gemini AI、139の人間チームを凌ぎICPC世界大会のコーディング課題を解決
- マーベル、映画『アベンジャーズ: ドゥームズデイ』と『シークレット・ウォーズ』の公開延期を発表
- コロンビア大学、AIプログラムを使って学生間の議論を円滑化する試み
- NASA、月面通信向けに5GとWi-Fi技術をテスト
- 任天堂、アメリカのAmazonサイトから製品を撤退 Unauthorized Salesを巡る対立のため