默认冷灰
24号文字
方正启体

我真的有一座法师塔 第158章 先去篮球队装个逼(第一更)

作者:画画太岁 分类:玄幻 更新时间:2024-06-01 20:06:01直达底部

 

高速文字首发 本站域名 www.xuanyge.org 手机同步阅读请访问 wap.xuanyge.org


随机推荐:星际:凭sss级精神力被团宠了 斗罗:炎帝徒弟勇闯斗罗大陆 无限雪之心 这宗门没沙雕小师妹迟早要散 心路历程暴风雨后未见彩虹 重生之齐天皇后 神道山下 武极神王 

    “橘子……嘿嘿黑……”柚子傻笑了几声,笑声里充满了感情。

    方豫看了一眼柚子,从某种意义上说,这个大模型也能算是柚子的孩子了。

    就是不知道这个孩子能成长到什么程度?

    橘子大模型的底层中,不只由多重神经网络组成,更隐含了柚子自身的简化版架构法则,具有超过三亿的参数,仅大模型本身规模,就超过10个G。

    3亿的参数,在周历3061年的现在,是一个非常恐怖的规模。

    Deepmind几个月前刚刚公布的Deep Q-Network的参数量也不过才168万。

    而非死不可年中发布的深度学习面部学习系统deepface,虽然没有公布参数量,但按照推测,应该也不过是一千多万参数的级别。

    而三年前古狗发布的古狗大脑计划,使用了一万六千颗CPU进行训练,号称有10亿参数,但其中无效参数和负作用参数比例超过百分之七十。

    虽然也实现了视频端的无监督学习,但训练效果并不好。

    但橘子大模型是不一样的。

    由于柚子是在自己本体中完成的橘子大模型的框架搭建,在奥术的辅助下,橘子大模型的三亿参数中,无效参数和负作用参数基本能控制在10%以内!

    可以说,刚刚诞生的橘子大模型,就是目前这个世界上性能最强的AI大模型!

    神经网络下的人工智能参数,就相当于人类大脑的神经突触。

    参数数量是影响人工智能模型能力的最重要因素之一,甚至是决定性因素。

    更多的参数通常意味着模型具有更高的表示能力,能够捕捉和表达更复杂的模式和关系。

    说人话,就是参数越多,人工智能就越像人。

    而且,具有更多参数的模型可以更好地拟合训练数据,降低训练误差。

    说人话,就是参数越多,人工智能的理解能力就越强。

    从大方向上来说——参数越多,人工智能的能力越强,这句话是没有错的。

    尽管目前只有40G的训练资料,但橘子大模型已经展现出了相当程度的智能水平。

    这也说明,柚子所创造的深度学习训练框架效率之高,已经远超古狗一个月前刚刚发布TensorFlow训练框架0.5版。

    值得注意的是,人工智能训练框架和人工智能大模型的模型框架是两个不同的东西。

    比如橘子大模型,其中所使用的多层神经网络及神经网络的层次结构和连接方式就是橘子的模型框架。

    而训练框架,是一个提供工具和接口,用于构建、训练、评估和部署深度学习模型的软件平台。

    说人话,就是,如果未经数据训练的大模型框架是一个崭新的脑子,那么训练框架就是学校、是老师、是整个教育体系。

    AI大模型框架本身的层次和结构,就是这个崭新脑子的智商。

    而训练数据,就是被教育体系用各种方法教授给这个崭新脑子的知识。

    老师水平不同,教育体系不同,教授的知识不同,那么学生掌握知识的效率和准确率自然也不同。

    一个学生本身成绩好不好,一方面取决于个人智商和努力,另一方面,也取决于教育方式和教育体系是否科学,老师的教学水平如何。

    还有一方面,就是这些知识本就应该是正确的,错误的知识教授给学生,在考试和实际应用中没有任何作用。

    同样,受过污染的错误数据也无法训练出可用的ai大模型,使用受过污染的数据训练大模型,会导致训练后的大模型几乎没有任何实用性。

    三者相辅相成,缺一不可。

    否则学区房怎么能卖那么贵?

    否则辅导班怎么会那么贵?

    “柚子,以三天间隔为单位,用柚子科技的账号,将训练框架的前置技术按照前置顺序分批次上传到github,选择Apache 2.0的许可证。”

    “随后,写三篇关于多头注意力机制的论文,同样以每周一次的频率,发到arXiv上。”

    “另外,在Github、arXiv上、linkedin上,寻找位于大周境内的高技术人才,要求如下……”

    方豫给柚子下达了三个明确的指令。

    也该给柚子科技找一个技术团队了,否则自己这么一个社保人数只有三个人的小公司,突然就搞出了训练框架和成熟的AI大模型,谁也不会信啊。

    作为一个创业公司,如何次才能吸引高水平的技术人才?

    很简单,就是你自己先是一个高水平的技术人才。

    天才是有聚集效应的。

    放到github上的这些东西,就是饵。

    无论是柚子还是橘子大模型,肯定都会藏起来,方豫准备把橘子大模型剥离出最基本的框架,到时候交给这些天才去填充,如果填充的模型效率不如柚子做出的,自己再进行修改。

    总之,把自己的能力控制在顶级天才的程度,确保做出的东西不被人怀疑就行了。

    事实上,一个大模型团队和训练架构团队的核心成员,人数往往并不多,可能只有十几个人甚至几个人。

    因此,方豫只要吸纳三到五名算法科学家、五到十名工程师、三名数据处理人员,再加上十来名内勤人员,就完全能够把这个大模型团队支撑起来了。

    产品端的总人数完全可以控制在30人以内。

    而且,在产品端,方豫一个外国人都不准备招。

    倒不是方豫有多强的民族主义,主要还是出于保密的考虑。

    人都在大周,出现了什么意外,他也能尽快处理掉,但如果在国外的话,就比较麻烦了。

    如果是其他公司,可能还会有在大周很难招到顶级人才的疑虑。

    但柚子科技就不需要有这方面的担心了,方豫本身想要找的就是高水平人才,而不是顶级人才。

    要不是顾及到现实问题,他一个人,配上一个财务和运营团队,光靠柚子就能把产品端整个建立起来,不需要任何其他人的辅助,而且效率还会更高。

    到时候可能唯一需要大量人手的,就是AI对齐部门,说白了就是让AI的伦理道德和人类社会的伦理道德对齐。

    这部分员工是没法省的,需要有专职的社会科学专家以及大量的测试人员,通过与AI间各种稀奇古怪的对话,来发现AI存在的伦理问题,防微杜渐。

    哪节省,审核员也没法节省。

    不过,这些都是后话。

    在此之前,方豫得先给柚子科技找个HR。

    哦,不是,得先去篮球队装个逼。

    这一章我已经尽量写的深入浅出,修改了很多次,但还是保留了这部分内容。

    因为后面围绕人工智能的东西太多了,还是要先争取让所有人都能看明白人工智能大模型究竟是怎么回事,原理究竟是什么,一个人工智能又是如何诞生的。

    这些东西不是作者在炫耀或者水字数,而是要说明,在现实社会中,主角如果真的搞出一个单独的训练框架和模型框架,怎么样才能不被人怀疑的将这个模型发布,又该怎么样从专业角度把自己的利益最大化。

    这样,后续的情节爽点才能起得来。
高速文字首发 本站域名 www.xuanyge.org 手机同步阅读请访问 wap.xuanyge.org