促进公平的灵丹妙药?马斯克的推特算法开源计划远比想象复杂
“在这个机器学习的时代,重要的不是算法,而是数据,”麻省理工学院计算机科学家David Karger接受WIRED采访时表示,“让Twitter重要的不是算法,是发推文的人。”在Twitter接受440亿美元收购后,埃隆·马斯克已为Twitter制定了一系列宏伟构想。这其中最被热议的就是“开源算法”,一部分人认为这会创造一个更公平的世界,同时也有专业人士对其可行性表示怀疑。
马斯克在其收购出价被披露之前就提出了这个计划,在他的报价被披露的那天重申了这一计划,并在交易确认后再次提出了这个计划。
在4月14日的TED演讲中马斯克概述了这一提议,“真正重要的是,人们既有现实又有感知,即他们能够在法律范围内自由发言。所以我认为Twitter应该做的一件事就是开源算法。”马斯克认为,披露升级或降级推文的算法将降低“幕后操纵”的风险。
“它有可能将Twitter变成一个真正值得信赖的平台,用户可以理解为什么某些推文会出现在列表的顶部,并且所有关于幕后保密或偏见的担忧都将被消除,”开源数据库公司EDB首席技术官Marc Linster说。
Twitter联合创始人也是前CEO的Jack Dorsey也是明确的支持者,他提出,使用什么算法或不用什么算法的选择应该开放给每个人。
然而确定Twitter上什么主页内容时间线的机制通常极其复杂,并涉及审核和过滤、付费内容推广和用户分析等内容。推文排名背后的内容、用户资料、算法训练数据、审核规则及训练模型的代码,这些构成了一个庞大的数据池,很难搜索并且传播成本很高。
“当我们谈论‘算法’时,它实际上是数据处理和人工干预步骤的复杂组合,加上使用历史数据训练的算法模型。核心算法的开源版本可能不会告诉我们Twitter上的内容实际上如何形成,拥有代码当然也不足以真正理解平台的工作原理,因为它的实际行为取决于输入到其中的数据。我认为Twitter不太可能出于明显的商业原因披露大量此类数据,并且,对于不公开的推文,这种分享在许多情况下会违反隐私规则。“近日,爱丁堡大学贝叶斯数据科学和人工智能中心主任Michael Rovatsos接受TECH MONITOR采访时说道。
荷兰Jheronimus数据科学学院高级研究员Daan Kolkman同意将算法开源“似乎是一个好的举措”,“但在实践中,它很可能只不过是一种象征性的姿态。这一切都取决于它将如何准确地开源。”
他解释说,“仅仅访问算法并不足以确保公平。要进行可靠的算法审计,除其他事项外,你还需要访问用于训练模型的数据并深入了解开发过程。Twitter的算法可能经常更新,那么仅仅拥有一个快照并不是那么有用。”
“一般情况下,推荐模型会经常重新训练,并且会随着时间的推移而不断变化。虽然也可以持续发布所有经过训练的模型,但除非你确切了解模型中用于预测的输入和输出,否则它也不会很有用。”人工智能初创公司Abacus.AI的首席执行官兼联合创始人Bindu Reddy接受The Next Web采访时表示。
Twitter产品副总裁 Steve Teixeira也从技术性角度发表了意见,“你不能简单地开源一个ML(机器学习) 模型,就像它是一些泡泡按排序冒出一样”。
同时,这样的开源也存在潜在风险。一方面,这些信息可能被竞争对手复制,为网络犯罪者提供用户隐私。另一方面,开源提供了发现漏洞和缺陷的新机会。
页:
[1]