360周鸿韩谈国内的GPT

温馨提示（看过来）

每日不间断更新《资源分享》和《每日必看》栏目！敬请关注，谢谢！

如部分内容需要密码，请扫一扫关注公众号免费获取！微信搜索“流浪宇宙寻资源”关注公众号回复”密码“即可获得密码，不愿意搜索的直接扫下方二维码。

如果您有资源可以投稿的这里，发给我，来换取金钱，具体价格商量。

如果您对网站有建议，可以这里提问帮您解决。

Q：上游哪些场景很关键？

A：算力不是最关键的问题，场景和数据是关键。我们二线队伍，账上200多亿人民币，之前国家搞了很多超算中心，没事情干，现在发现配了GPU就有东西看。Transformer算法是谷歌发明的，实现靠的是大力出奇迹，几千亿参数。这是个工程问题。从1到n中国能做的很快，openai中国做的很快，谷歌和meta会很尴尬。Meta开源了他的大语言模型，技术的knowhow会快速传播。关键的东西，第一是数据，有知识量的数据做训练，聊天的语料不包括知识chatgpt中文语料占了不到5%，大量知识在外文期刊里面，只用中文训练语料是不够的。很多机构说用了很大的参数，但是不敢拿出来说，大概率是数据不够。还需要人类的枪花反馈学习和调优，激发GPT理解人类的查询意图，这个是问题的关键。还有个很重要的是场景，微软放弃了自己的小娜的研究，全力帮助AI，在场景化上可以让大家看到人工智能有什么场景。搜索引擎一直在做NLP，自然语言处理，大家都在跟踪使用，搜索引擎在获取海量数据方面优势。我们和百度抓取的网页在千亿万亿的规模，需要清洗辣鸡网页进行工程化的索引。我们搜索引擎要抓取英文的维基百科和语料，对于我们是现成的。初创公司可能会卡在工程化的初始阶段，这个对工程化的要求比较高。还有人工标注的调优，微软做了很多贡献，搜索引擎帮助很大。360搜索份额占比30%，百度占比60%。微软帮助openai占据了很多的场景，下一步可能会把teams（视频会议）等TO B的场景做结合。

Q：以后会不会很多行业不存在了，机器把人替代了?

A：我不是很认同。我认为这是个洗牌的机会，如果你不重视他，抓上这班车就不行。我们企业内部要起每个部门都用AI提升我们的能力，用AI的大语言模型赋能，这样会成为我们手里有力的竞争武器。GPT4的知识能力和考试的能力已经超越了每一个地球人，GPT可能是用3.5和4互相训练。我们也考虑过这种，用bert这种理解性的模型进行反馈和奖励。这是个生产力工具，是能给各个产业赋能的，关键是你需要找到相应的场景和场景化的能力。

Q：以后小孩长大了应该会学什么专业吗？

A：这个问题很奇怪，该学什么专业学什么专业啊，对prompt很敏感。

Q：关于我们360，行业现在是巨头扎堆，360的核心优势？

A：第一个问题已经讲了，第一是数据的能力，不能光用中文的数据，要有全球数据的抓取能力，要能做到对垃圾的判别和清洗。用户上亿次搜索的数据，我们和百度有知识问答的栏目，这种涉及用户的真实的使用场景来进行训练。数据我们有优势。GPT2和bert是开源的，真要做到上千亿上万亿的模型，几千张GPU的显卡，几个T的数据进行几个亿的训练，这个对工程化要求很高。第三，搜索引擎我们市场份额是百度的一半。搜索引擎不具备生成性，不会编出林黛玉倒拔垂杨柳的故事，生成式AI会无中生有，如果编的结果是不对的普通人很难验证就很麻烦。我们做泛化，泛化的知识图谱的搜索，前面的十条二十条结果给大语言模型做提炼，这样就不会让生成式AI无中生有。我们搜索引擎dau有一个亿，大语言模型可以做及时的翻译和推荐，我们这种场景可以很好的让用户体验到人工智能的场景，形成商业化的闭环。我在政协叫了个提案，大家忽视的是这个东西真正的破圈了。之前无论是阿尔法狗和蛋白质折叠，离生活比较远。得益于微软工程化产品化的能力。一方面要打造核心技术，全方位最大化的调用公司的资源。大模型的方向已经出来了，要做到大力出奇迹，500亿到1000亿的参数训练，用有质量的语料。谷歌现在很尴尬，模型做出来了商业化的场景可能也被微软抢完了。微软专注场景和产品化的结合，openai专注技术，这样能实现很好的效果。

Q：360的场景和应用？

A：并行的。360也在做TO B，也是我们很重视的机会。我们的安全大脑帮助企业抵御攻击。我们的机会是，中国企业不接受公有云，希望有个私有化部署的GPT和数据。未来每个企业可能有自己的大脑。只做垂直行业的训练肯定是不行的（说的就是科大讯飞）。我们离GPT还有24个月到36个月的差距，第一个版本能做到几百亿参数的模型的时候，做到GPT的六成的功力，做到企业内部是够用了。TO B和TO G端是有大量的机会的。面对中小企业端，我们打算推出生成式AI的办公套件和应用。Openai找了100家垂直的SaaS公司，会专门训练垂类的应用。我们这两年很关注sme（中小企业），中小企业对企业数字化的要求功能明确，少花钱使用简单，SaaS更合适，我们去年推面向企业的SaaS云服务，一年120万家客户。我们浏览器国内份额最大，做了个SaaS商店，我们会找合作伙伴做一些场景。TO C我们有大量的使用场景，浏览器加上AI插件变成AI个人助力。TO B，TO SME和TO C三十多个场景使用不同的能力，尽快占据用户的使用场景。

Q：我们会和百度一样芯片模型全覆盖的平台吗？

A：我们肯定不是这个方向。谷歌自己搞过GPU，也就自己用。训练最好还是用A100和A800，框架没必要自己搞，自己搞个框架还要花精力和别的芯片适配。微软这么强大微软只做应用，openai用的框架也是用的行业通用框架。我不认为产业链全都做了是好事。我们坚定的沿着transformer框架把模型干到千亿。首先是要占据应用场景。

Q：百度内测效果不错，对于360未来应用的推广是不是更有信心了?

A：百度搜索一哥肯定能做好的，微软的搜索份额比谷歌要小，可以放开手要做创新。百度为什么做一个聊天机器人我不理解，我要做的话可能更愿意和搜索相结合。国内我不认为会和美国一样一支独大，头条和其他互联网厂商大家不会相互支持，会互相竞争，360啊微博啊B站啊知乎啊小红书啊美团滴滴等等，他也不敢用巨头的服务，肯定要自己搞。还是希望在这个模型上做出几个超级应用。有应用有场景的公司加上模型会有价值。

Q：中国电信布局了企业版的chatgpt，对这个的关注提升到了国家战略的高度，国家的重视会对行业产生什么影响？

A：国家队干这个事肯定不是坏事，互联网上大家都做过。从目前拥有的数据和团队能力来看，民营企业和国企都在一个起跑线上。只要不是只要牌照才能搞大语言模型，这样都有机会。GPT不是媒体一样管制，是个生产力工具，这将决定未来国际竞争当中的国运。美国人对于大语言模型也有政治正确的要求。

Q：中国和美国比有24到36个月的时间差？

A：不是和微软比。GPT4验证了我们很多观点，他的参数量我觉得应该到了万亿，训练的数据比原来大了5到10倍。人类反馈强化学习不再是十万组，而是几十万组的答案对，有很强的智能的能力。目前来看多模态是胜过国内的能力的。国内的图像识别还是传统的图像识别，openai把所有都看做序列，图像也是序列，他能把图像组成部分的关系和逻辑相关性总结出来。他在阅读文档上的能力国内做不到。他能支持5万字的输入，表示他的深度记忆能力越强，对上下文的理解越好。GPT3.5我们认为国内和他的差距18个月，gpt4是24个月。云谈了这么多年，企业上云的比例也还不高。这比光刻机的难度小多了。

Q：怎么看GPT4，会不会取代操作系统成为战略级的入口？

A：这是两个概念，需要host一个应用需要操作系统，操作系统还是需要的。人工智能没有突破之前大数据给企业用不好用。Gpt相当于是发电厂，这个比喻比较贴切。纯做GPT的公司有点来不及，要么是有GPT丰厚的场景。场景越大爆发性就越大，如果场景很小，就做了个虚拟人挂个GPT跟人对话，这个场景就很小。场景未来可能有多家服务提供商。

Q：场景是我们非常关注的点，特斯拉的机器人也是爆款，多模态和机器人的关系？人形机器人是终极目标吗？

A：我不这么认为。不考虑机器人的外形，音响之类的用自然语言和人交流这关就是过了。Gpt能否处理好机械手臂，寻找空间定位也是，出了GPT之后传统的做语言识别的图像识别的就有问题了。人形机器人有个最大的问题，机械手臂抬起的力量，这和人工智能没有关系。如果机器人手里拿不了太重的东西，这可能会成为妨碍。自动驾驶汽车也是个机器人，只不过长了4个轮子。GPT的大语言都可以赋能。你们和智能音箱聊过天，聊两句就能知道他是个滞胀，gpt肯定通过了图灵训练。橡胶娃娃也是仿真机器人。

Q：GPT4在物联网终端的广泛应用是大趋势了，边缘计算的需求？

A：这跟边缘计算有什么关系呢？构不成边缘计算的节点。真正的能力都在云端，运算都在云端。

公众号(流浪宇宙寻资源)

公众号(J科技资源)

360周鸿韩谈国内的GPT

标签