中文科技资讯
业界资讯 互联网 手机资讯 电脑硬件 数码产品 家电产品 APP应用 手机游戏 美通快讯

AI数据源头揭秘:巨头垄断加剧,西方文化主导下的模型偏见何时休?

2025-01-30来源:ITBEAR编辑:瑞雪

在人工智能领域,LLM和Agent技术日新月异,取得了高度成熟的进展。然而,相比之下,数据收集方面的规范化进程却明显滞后。一个引人深思的问题摆在了人们面前:AI训练所需的海量数据究竟源自何处?为了解答这一问题,一个名为数据溯源计划(DPI)的国际性研究团队应运而生。

Longpre强调,对于基座模型的能力而言,互联网的规模和数据的异构性至关重要。对规模的需求也促进了合成数据的大量使用。除了语言模型外,近年来多模态生成式AI(GenAI)也迅速崛起,如图像和视频生成模型。这些模型同样需要尽可能多的数据,而视频模型的语音和图像数据集中,超过70%的数据都来自YouTube。这一现象对拥有YouTube平台的谷歌及其母公司Alphabet极为有利,因为文本数据分布在整个互联网上,由许多不同的网站和平台控制,但视频数据的权力却如此集中地掌握在一家公司手中。

AI Now Institute联合执行董事Sarah Myers West对此表示担忧,她认为谷歌在开发自己的人工智能模型(如Gemini)方面具有巨大优势,这引发了人们对其如何向竞争对手提供数据的疑问。更深层次的问题是,如果我们所交互的大多数AI数据集都反映了以利润为导向的科技巨头的意图和设计,那么这些大公司可能会以符合自己利益的方式重塑我们世界的基础设施。

数据集之间的集成和沿袭缺乏一致性,这使得开发人员很难做出正确的数据选择,也无法保证模型训练过程中没有使用过受版权保护的数据。最近,OpenAI、Google等公司与出版商、Reddit等主要论坛以及网络社交媒体平台达成了独家数据共享协议,这进一步加剧了数据垄断的趋势。这一趋势有利于AI领域的最大玩家,他们有足够的财力进行数据交易,但却牺牲了学术界研究人员、非营利组织和小公司的利益。

更令人担忧的是,用于训练AI模型的数据严重偏向西方世界。DPI团队分析的数据集中,超过90%来自欧洲和北美,而非洲的数据占比不到4%。Hugging Face首席伦理学家Giada Pistilli指出,英语在训练数据中占据主导地位的原因之一是互联网中90%以上的内容仍然是英语;另一个原因是便利性:将其他语言的数据集放在一起并考虑其他文化需要进行更多的数据工作以及开发人员的有意识意图。这导致多模态模型的输出往往以西方文化为焦点,例如当提示AI模型生成婚礼的景象和声音时,可能只能得到西式婚礼相关的内容。

数据集代表了人类社会中的偏见,而经过这些数据训练的模型又加剧了这些偏见。这可能导致AI模型推动一种以美国为中心的世界观,同时不经意间抹去其他语言和文化。为了解决这个问题,DPI团队呼吁加强数据收集方面的规范化进程,提高数据透明度和多样性,以确保AI技术的公平性和可持续性发展。

未来十年科技新图景:智能硬件跃迁、AI赋能与网络无感化变革
本文将从智能硬件、AI 算法、未来网络、数字经济、安全体系等多个维度,分析科技浪潮下的核心趋势。 设备变得更聪明网络变得无形AI 成为能力底座数字经济成为主引擎安全体系成为关键支撑科技不是未来,而是现在正在发…

2025-11-15

6寸LCD显示屏:小身材大能量,技术优势与多元应用前景深度剖析
采用IPS等先进技术的6寸LCD屏,能够实现更广色域覆盖,色彩显示真实自然,更适用于图像监控、医疗设备显示、智能终端等对色彩还原要求较高的场合。 随着技术的不断发展,6寸LCD显示屏将在未来呈现更高清、更智…

2025-11-14

Valve推出Steam Frame新VR头显 正式宣告上一代Index头显停产
用户可通过无线适配器,将 PC 或 Steam Machine 上的平面屏(flatscreen)及 VR 游戏串流至 SteamFrame;与此同时,Steam Frame 本身也是一款独立设备,搭载高通…

2025-11-14

Gartner发布2026十大技术趋势:AI主导变革,从“大而全”迈向“精而实”
近日,商业与技术洞察公司Gartner发布了2026年十大战略技术趋势:AI超级计算平台、多智能体系统、特定领域语言模型、AI安全平台、AI原生开发平台、机密计算、物理AI、前置式主动网络安全、数字溯源,以及…

2025-11-14

虚拟化与超融合:从架构到应用,一文读懂如何选择适合的IT方案
超融合平台通常基于成熟的虚拟化技术,例如它可能内置虚拟机管理功能,但更强调整体资源的统一管理。性能上,虚拟化可能因资源竞争而出现波动,而超融合的分布式存储设计可以提供更一致的I/O性能,特别是在高并发场景下,…

2025-11-14

WebRTC技术赋能物联网卡:解锁工业医疗驾驶毫秒级低时延通信新路径
WebRTC(网页实时通信)技术与物联网卡的深度融合,正通过 “协议优化 + 硬件适配 + 网络升级”,破解毫秒级响应难题。本文基于行业实践,解析 WebRTC 技术原理、物联网卡协同路径及场景落地效果,为…

2025-11-13

2025微信数据保护全攻略:误删聊天记录别急,多场景恢复方案来了
提前备份是数据安全的核心,2025年微信已支持电脑、云服务、外部存储等多种备份方式,恢复时只需简单操作即可找回记录。苹果和安卓厂商的云服务早已支持微信数据备份,关键是确认误删前有有效备份记录。 2. 选择…

2025-11-13

2025年手机卡选卡指南:精准匹配需求,绕开合约套路与流量陷阱
•在运营商APP中查看过去三个月的平均流量使用量•检查你的通话时长记录•分析你最常用的APP类型(这会影响你对通用流量和定向流量的需求)有了这些数据,你就能更准确地判断自己需要什么样规模的套餐了。 •典型代…

2025-11-13

广电卡适配指南:哪些手机能用?这些旗舰机型可能不兼容!
华为P50系列是个特例,即便是4G版,也能通过软件方案支持广电5G。中国广电表示,近六年主流手机型号均已升级适配广电网络,98%以上的新入网5G手机支持700MHz频段。 判断你的手机是否适配广电卡,不仅…

2025-11-13