查看原文
其他

为了定义开源人工智能(OSAI),这个组织快跑遍了全球

Heather 明说开源
2024-08-28
点击卡片关注一下,感谢您的支持!
Do Big Good 的创始人Mer Joyce 和  OSI 执行董事Stefano Maffulli

前阵子因为工作安排,编者前往了几所学校作开源的通识宣讲(分别是华南理工大学、苏州大学、南京大学、吉林大学和复旦大学),每到一所高校,讲到开源的定义这个概念的时候,必须得把一个组织搬出来,那就是开放源代码促进会(Open Source Initiative,缩写:OSI),稍微了解点儿开源通识的小伙伴都知道,这个组织因为产出了10条开源软件的定义Open Source Definition (OSD) 而闻名于世,也深受开源界的认可。不过,最近OSI似乎有些小焦虑,他们开始发现一个问题,那就是当开源世界碰上了“不讲武德”的AI,似乎原来对软件的那一套开源定义失去了诸多效力,这不得不让OSI投入更多的心思来对“开源人工智能(Open Source AI)”草拟最新的定义。为此,OSI的两位核心高层联系了几乎全球的知名开源组织,并规划了一系列的线下路演——向这些组织宣贯开源AI定义的草案并吸纳各种反馈,以期该定义正式出炉时可以获得全球开源贡献者的广泛共识与认可。今天这篇文章就来讲讲这两位OSI高层为了给开源AI下定义作出的角力。


这不仅仅是炒作:生成式AI(Generative AI )是一种不同类型的科技。


有何不同?请你现在试着定义一下“开源AI”的具体含义。


这就是开源促进组织(OSI)面临的任务,它即将踏上跨越各大洲的旅程,旨在最终确定一个能够得到大多数利益相关者认同的“开源AI”定义


刚过去的 5 月,在以建筑特色闻名的城市——匹兹堡举办的 PyCon 美国大会(PyCon US),标志着 OSI 这次旅程的第一站。这次活动得到了阿尔弗雷德·斯隆基金会(Alfred P. Sloan Foundation)、亚马逊、思科以及谷歌开源部门的支持。


本月,OSI 还将前往法国巴黎的OW2大会和西班牙马德里的OpenExpo Europe大会。(编者注:这几个大会都是欧洲比较知名的开源会议)目标是在十月底于美国北卡罗来纳州举办的“万物开放大会”(All Things Open Conference)上完成该定义的最终制定工作。


经过两年的工作,OSI已经有了一个草案定义,OSI 执行董事 Stefano Maffulli 告诉我们。他说,团队正在经历一个“验证阶段”,目的是确保这个定义能够全面覆盖所有当前和未来可能属于开源范畴的项目。此外,他们正在编写一个常见问题解答(FAQ)。


参加PyCon US研讨会的大约十几位参与者被邀请帮助 OSI 团队为 FAQ 集思广益,构思问题和答案,以确保内容的全面性。


这是 OSI 一个项目的关键成果——也是 OSI 更广泛使命的重要组成部分—— Maffulli 在三年前面试执行董事职位时就已经预见。他意识到人工智能将成为科技领域的一个重要趋势。


他提到:"OSI得靠引导那些不容易的讨论来塑造它的未来,这是我们想做的事。在我加入时,这已经是我们的使命之一,我非常认同这一点,我们的使命就是聚拢大家,开诚布公地交流。开放源码倡议组织正是开源生态系统的基石。"


他提到:“OSI 必须依靠引导棘手的讨论来塑造它的未来。”“这正是我们追求的目标。在我加入之时,这已经深深植根于我们的使命之中,我非常认同这一点,我们的使命就是聚拢大家,开诚布公地交流,汇聚对话的力量,达成共识。正如开放源码倡议为整个开源生态世界搭建了坚实的基石。”


“眼下,定义开源AI无疑是我们面临的最大挑战,也是眼下最难聊的话题。但无论如何,我们必须直面并立即行动起来,必须把它给说清楚。”


#Part1 为什么AI在开源领域是前所未有的?

#Why AI Is Unprecedented in Open Source?


但是,人工智能的特性以及开源一直以来所处理的问题,使得整个过程充满了挑战。


Maffulli 提供了富有深意的历史视角:“开源领域相对简单,因为‘软件和计算机科学’与‘开源和自由软件’的概念一起发展了几十年。这一发展过程始于80年代初。彼时,个人电脑日益普及,软件开发方兴未艾。越来越多的开发者和计算机软件的使用者开始涌现并使用这些软件,这一切几乎是自然而然地共同演进的。”


早些年,大家的想法挺简单的:有源代码,有二进制代码,这俩其实就是同一东西的不同面孔(编者注:早些年人们认为,若要搞懂某个软件的功能,瞅瞅它的源代码就明白了。但这跟咱们日常生活里头用软件的方式不太一样。咱们用的是手机或者电脑上的各种应用,而这些应用分发出去的都是二进制版本。源代码通常压根见不着,就算能见着,光看代码你也未必能明白软件到底在干啥)。多年以来,开源生态圈虽然越扩越大,但其实监管者们基本没怎么往心里去。

“全世界的监管者都感到极度焦虑,因为这些人工智能能做到的事情,连计算机科学家自己都说:‘我们不确定它们为什么会这么做,具体怎么运作的我们也说不清,真出了岔子我们也修不好。但你们得信我们,一切都会好的。’监管者一听这话,更懵了:‘你们这话让我们心惊胆战。’”

——Stefano Maffulli, Open Souce Initiative执行董事

“现在,人工智能忽然间登上了舞台,”Maffulli 说道。“尤其是近三到五年内兴起的这一代AI,它引入了全新的创造物。如今,模型的权重和参数成为了一种全新的东西。它们具备功能,能够改变系统状态。但它们并非软件,也不是源代码,严格意义上讲,它们也不是数据。因此,它们代表了一种新型的产物。”


他接着说:“另外一点是:已经有数十亿人在使用它们了。”


Maffulli指出,与开源软件之前出现的历史相比,“全世界的监管者都(对开源AI的现状)感到极度焦虑,因为这些人工智能能做到的事情,连计算机科学家自己都解释不清,不知道它们是如何工作的,也无法有效地控制或修复。他们只能说:‘相信我们,不会有事的。’这让监管者们感到非常恐慌。”


#Part2 最大的问题:数据和认证

#Biggest Issues: Data and Certification


Do Big Good的创始人Mer Joyce说,PyCon研讨会为构建上文提到的关于开源AI定义的常见问答(FAQ)而开展的工作充满活力。她正以顾问身份协助OSI完成这个项目。


“我们让参与者在便笺纸上写下问题,并将它们进行分类汇总,最终确定了这些不同的问题领域,”她解释道。


目前,根据她和Maffulli的观点,两个主要问题成为了难以克服的障碍。

一个是认证的问题,Maffulli 解释说:“我们需要确定如何进行这项分析,并确切地认证一个系统是否为开源人工智能。”

另一个问题是,在人工智能环境中,到底什么才算是构成数据。坦白讲,这是一个相当复杂和棘手的问题。


“草案中的措辞目前刻意保持模糊,”Maffulli 说。“它使用的是法律界能理解的术语。”


当前,草案对开源人工智能(OSAI)中使用的“数据信息”定义如下:


  • 提供关于训练系统的数据的足够详细的信息,以便一个技术熟练的人能够使用相同或类似的数据重新构建一个基本等效的系统。

  • 例如,如果被采用,这将包括训练方法和技术,所使用的训练数据集,数据集的来源信息,它们的范围和特性,数据的获取和选择方式,打标签的程序设计和数据清洗方法等。


“这里有一些关键词需要被强调,”Maffulli说道,“其中之一是‘足够详细的信息(detailed information)’。” 这是什么意思呢?我们需要通过给出实例来充实FAQ,参考已有的系统并说明这些信息已经足够详尽了。


另一个关键短语是:“技术熟练的人(skilled people)”,“这并不是指所有人everyone),”他进一步说明。

还有,“实质上等效(substantially equivalent)”他解释说,这并不意味着“大致相似(vaguely resembles)”。

“在常见问题解答(FAQ)中,我们必须解释这个原因,并且要表达清楚。因为团队中的人都在问,‘这究竟是什么意思?’好吧,让我们边前进边构建具体的例子。”

在定义中,“相同或类似的数据”可能指的是,例如,合成数据。


“在必要的情况下,”Maffulli进一步解释说,“比如,我可能无法获取某些数据,因为我没有权利将其分发给您,这可能是受版权保护的数据,或者是我的商业秘密,专有的【数据】。我无法透露具体内容。但我可以提供足够的细节,比如给您一个样本,并指导【您】如何使用这些信息来重建类似的数据集。”


在PyCon研讨会上,他提到,一位参与者问道,“如果数据的来源是Reddit的数据集呢?”那可是要花费几百万美元的。你的口袋里有几百万美元来购买授权吗?我没有。”


但是有没有什么可以构成“相同或类似数据”的东西,让人能够构建出一个“实质上等效的系统”呢?Maffulli总结道,“这是我们不得不问的问题。”


#Part3 下一站:巴黎和马德里

#Next Stops: Paris and Madrid

因此,OSI的巡回展示本周将在巴黎和马德里继续进行。欧盟在制定人工智能治理政策方面领先全球,目前正在实施去年12月建立的人工智能法案。


Maffulli表示,他为过去两年来跨国家、背景、专业和利益收集意见的努力感到自豪。


“我们之所以开始做这件事,是因为当时在这个环境中没有共同的理解,”Maffulli说。“因此,我们所有人,从学术界到工业界,从研究人员到开发者,再到民间社会和律师,集体地,我们需要有一个非常深入、非常艰难的对话,一起提升我们的知识水平。”


“我们已经到了这样一个阶段,坦白说,我对这个过程触及到的人数之多真的感到印象深刻。”


好的,本期分享结束~

顺带一提,开源社曾在今年年初翻译了由OSI组织的Deep Dive:AI Webinar系列精华内容,可以点击“阅读原文”观看该会议系列视频~




亲爱的读者们,不星标《明说开源》公众号,不仅会收不到最新推送,还会看不到主理人精心挑选的封面大图星标《明说开源》,不错过每一篇最值得阅读的开源文章。
编辑:李小明
@明说开源


素材来源官方媒体/网络新闻
修改于
继续滑动看下一个
明说开源
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存