微软、谷歌和Meta押注合成数据构建AI模型
聊天机器人每一个巧妙的应答背后都有海量数据作为支撑——在某些情况下,需要从文章、书籍和网上评论中摘取数万亿个词汇,以教会人工智能系统理解用户的询问。业界的传统观点是,建立下一代人工智能产品将会需要越来越多的信息。然而,这个计划存在一个大问题:网络上能够提供的高质量数据是有限的。为了得到这些数据,人工智能公司通常的做法是,要么向出版商支付数百万美元以获得内容许可,要么从网站上下载数据,使自己面临版权纠纷的风险。越来越多的顶流人工智能公司正在探索另一种在业内引发分歧的办法:使用合成数据,从本质上来说就是假数据。
这种办法的工作原理是这样的:科技公司可以利用自己的人工智能系统来产生文字和其他媒体。然后,可以用这些数据训练同一个系统的未来版本,Anthropic的行政总裁达里奥·阿莫代伊(Dario Amodei)称之为潜在的”无限数据产生引擎”。这样一来,人工智能公司就可以避免引发许多法律、道德和隐私方面的问题。
在计算中合成数据的想法并不新鲜——这项技术已经被使用了几十年,涉及到从个人信息的去匿名化到自动驾驶技术路况模拟的各个领域。但是,产生式人工智能的兴起使人们可以更容易大规模建立质量更高的合成数据,而且也使这种做法有了新的紧迫性。
好好学习,天天向上! 谢谢分享! 感谢提供信息分享。 谢谢楼主分享!
页:
[1]