IT龙门阵第 216 期

人工智能时代的“大脑”是如何打造的?

三角兽CTO亓超:如何让机器能够与人类自由对话?

现场互动

主持人 : 首先我们请马总,他们董事长兼COO给我们介绍一下人工智能的商业化。
马宇驰 : 我们是一家人工智能语义公司,语义起步的比较晚,我们主要提供的是基于语义的智能交互方案,这是一种AI能力,不仅仅是提供单纯的技术输出,我们主要是与B端客户合作,提升企业效率,降低企业成本。就像我们为小米提供的旅游信息查询功能,用户在小米电视上可以直接使用,这也是我们直接针对C端用户提供的产品。
主持人 : 在聊天机器人领域里面,无法获取用户是一个大问题,这个事到底是为什么?
马宇驰 : 其实从商业上很好理解这个事情,举个例子:我们当然希望从中国飞到美国只要一个小时,但实际上需要十几个小时,这事无关好坏,只是现在的技术只能达到这个水平。另外,当一个新东西出现的时候,一定是少数人去尝试,所以现在我们获取用户的难度就在于用户习惯还未养成。
主持人 : 这个技术成熟了吗?
马宇驰 : 技术也没有那么成熟,其实成熟与不成熟只是相对的,就比如汽车从以前时速30公里,到现在达到300公里,也是需要过渡的,技术从出现到落地再到发展需要时间的积累。
主持人 : 现在人工智能这套东西没有那么强的需求,或者说没有那么强刚需能够让用户被你训练,在这样一个情况下,人工智能到底是能够爆发起来还是?
马宇驰 : 举一个简单的例子,所有刚才您说的用户习惯的培养,比如淘宝或者百度:当用户使用百度搜索时,会习惯性地在关键字之间使用空格。
主持人 : 这个其实不一样的,因为在中国其实有些伪需求是做不起来的,比如说智能电视,所有人一百个电视现在基本上90个是智能电视了,但是智能电视的功能到底被多少人在使用,这个东西就是个伪需求,最后大家想象这个事就没了。
马宇驰 : 所以主要看时间,比如淘宝这个事情,淘宝已经出现很多年了,我上大学的时候就开始使用淘宝了,我是淘宝四钻买家,我用的特别多,我们可以看到淘宝的用户习惯培养也经历了很长时间。所以无论是智能电视,还是语义应用,即便已经落地应用的度秘已经出现一年半的时间,我们也无法在一年半的时间里宣判一个领域的死刑。
观众 : 我想问一下这个对于英文的语义,跟中文是不是同样的水平。
马宇驰 : 系统的架构大部分是一样的,我们的CEO王卓然他做了十年的英文对话系统,我们的CTO亓超除了做中文,之前在佳能工作时还做过日文和韩文的对话系统。我们之所以选择中文,是因为相比于国外来说,中国在这个领域发展较慢,另外中文与英文的不同就在于中文的复杂性,这就注定了这个中文对话系统只能由中国人来做。你就看Facebook或者Google在国外耕耘已久,但都未做出一个成型的中文系统,所以基于以上条件我们决定做中文的对话系统。
观众 : 亚洲的四种语种差不多吗?
亓超 : 中文跟韩文还不一样,韩文更罗马化的状态,日文会有一些用翻译外来语的事情,英文这块和这种语言区分,比如说Google也好,微软和FaceBook,其实做了多语言的搜索。如果是说只能是定制化一种语言,这样搜索引擎可能没有办法,所以我们对话系统来说,所以我们中文技术并没有依赖于某些语言的特性,比如说必须是个语言,达到这样一个程度能使用这个,并没有。比如说我们很多像(英)的叙述方法,其实是很多情况下是我们英文差不多可能做很好的实验,在中文上得到一个很好的释放,这两个部分,所以你可以认为在英文上可以会把这个技术再回归,数据可能要重新再来一份,就像同样一个菜,四川一个做法,山东一个做法,菜是和总体这个事情要结合,是这样一个道理,会没有太大的障碍。
观众 : 我想问两个问题,第一个就是语义这块一个问题,肯定是个大市场,而且还是个了不起的大市场,我就想问一个技术问题,就是说我们在建语料库和知识图谱这一块,我们希望撇开没撇开人工标注,或者我们之间有新的技术把它进行处理。
亓超 : 标了,但是不能都标,比如说我们有些场景真的可以零标注,举个例子,我们现在在做表情的分类,一句话我们插入一个什么样的表情,其实就是情绪,这个表情和情绪之间是很多对应关系,比如说喜就等对应哈哈的表情,哀就表明哭,怒就是生气,但是我们可以分的更细,比如说鄙视、不屑都可以在表情上。所以我们在表情分类的这样一个系统的时候,这个过程是我们在微博、贴吧等等这样数据去抓取很多同时有一句话并且没有表情的句子拿下来做收集,等于是一个其实是一个半结构化的可以标注的,通过系统清晰模型迭代再清洗,把这个数据弄到可用,完全没有人工参与的链条。这个完全没有人工参与,得益于这数据在一定意义上已经标过了,人在发这个化的时候已经给它赋予了这样标注,所以我们在很多场景也会用这个,一些场景来模拟这个事情,再比如说我们做小米电视的时候,我们需要知道一句话到底说的是不是电影相关的一句话。
主持人 : 我问一下,你们有免费的自然语言处理服务没有,因为我曾经也是一个程序员,我原来用的(英)上面服务,每天可以免费做500次,你们有这个东西吗?
马宇驰 : 现在没有,以后会有,曾经我们很认真聊过这个事情,一个创业公司早期做一个免费开放,无非就是获取数据,然后他是在一个商业化之前的某种方案,现在没有走到这个,或者当你走到一定程度的时候,它是个锦上添花的方案,我已经很厉害了,我给开放者出一份,我们最开始的时候就是想的就是为了保底,后来发现在我们走的过程中,无论是商业化还是资本层面,还算顺利,所以这件事情我打算再放后一点。

嘉宾观点

新浪微博

参与评论

点击获取
 

(共有 条评论)网友评论