网易首页 > 网易数码 > 正文

谷歌上马神经网络 百名PhD人工处理数据

0
分享至

(原标题:谷歌上马神经网络 百名PhD人工处理数据)

摘要:搜索“世界上最快的鸟是什么?”谷歌会告诉你:“游隼。根据 YouTube,游隼被记录下最高 389 km/h 的时速。”这的确是正确答案,但它并非来自于谷歌的数据库。当你输入这个问题的时候,谷歌搜索引擎找出了一个描述世界上五种最快鸟儿的 Youtube 视频。然后它只把最快的“一种”鸟儿的信息提取出来,不提及另外四种。

这是谷歌搜索最新的技术进展。为了回答这些问题,谷歌需要借助深度神经网络作为 AI 技术之一,它不仅正在重塑谷歌搜索引擎,还在革新谷歌全套人工智能服务。其它互联网巨头当然也受到波及,例如 Facebook 和微软。

深度神经网络是一种模式识别系统。它能通过分析海量数据,学习如何处理特定任务。这个例子中,它学会了怎么在网络上的长篇文字中找出相关的一句或一段话,然后提取其中的要点呈现给你。

移动端谷歌搜索刚刚上线这种“句子压缩算法”(sentence compression algorithms)。这个对人类来说很简单,但对传统的机器来说很难的任务,终于能被 AI 系统完成。这说明,深度学习正在促进自然语言理解这门艺术(理解并回应人类语言)的发展。

谷歌研发产品经理 David Orr 说:“对于“句子压缩”,你不得不使用神经网络算法,因为这是目前我们发现的唯一方法。”

为了训练神经网络算法,谷歌在全世界聘用了约百名语言学博士处理数据,对它们人工筛选。事实上,谷歌的系统是从人类那里学习,怎么在大段文字中提取有用信息。而这过程需要一遍遍地重复——这是深度学习一个很大的限制。雇佣大批语言学家不停地筛选数据既麻烦又极其昂贵,但短期内谷歌没有别的办法。

“黄金数据”和“白银数据”

谷歌也使用过期的新闻来训练 AI 问答系统。这使 AI 逐渐理解,新闻标题是如何对文章主体进行归纳的。但这并不意味着谷歌不需要成批语言学家了。他们不仅示范句子压缩,还要对语句的不同部分做标记,以帮助神经网络理解人类语言是如何工作的。David Orr 把谷歌语言学家团队处理的数据称为“黄金数据”,过期新闻则是“白银数据”。“白银数据”作用不小,因为它的体量很大。但价值最大的还是“黄金数据”,它们是 AI 训练的核心。语言学家团队的负责人 Linne Ha 透露,在可见的将来,语言学家队伍仍会继续扩大。

这类需要人工辅助的 AI 学习便是“监督学习”(supervised learning),目前,神经网络都是这么运作的。有时候公司会把这个业务进行众包,有时候它会自发地进行。比方说,全世界的网民已经为数百万的猫咪照片添加了“猫咪”标签,这会让神经网络学习识别猫咪变得很简单——训练数据已经处理好了。但很多情况下,研究人员们别无选择,只能自己一次次为数据添加标签。

深度学习初创公司Skymind 的创始人 Chris Nicholson 认为,长远来看,人工标注数据是不可行的。他说:“将来一定不会是这样。这是极度枯燥的活儿。我想不出比这更无聊的 PhD 工作了。”

监督学习的缺陷远不止如此:除非谷歌聘请所有语言的语言学家,否则这个系统无法在其他语言中运转。现在,语言学家团队的工作横跨了 20 至 30 种语言。谷歌必须在将来的某一天,采取更自动化的 AI 训练方式,即“无监督学习”(unsupervised learning)。

到了那时,机器将能够从未经人工标注的数据中学习。互联网上海量的数字信息可以被直接用于神经网络学习。 Google、Facebook 和 OpenAI这样的巨头们已经开始这个领域的研究,但它的实际应用仍然非常遥远。现在,AI 学习仍然需要幕后的大批语言学家队伍。

via wired

相关推荐
热点推荐
辽宁一女主任被执行注射死刑,短短5分钟结束了她罪恶的一生

辽宁一女主任被执行注射死刑,短短5分钟结束了她罪恶的一生

安妮Emotiong
2024-03-24 19:50:03
完美身材天使容颜总是呈现在最后

完美身材天使容颜总是呈现在最后

娱乐圈酸柠檬
2024-03-14 13:26:23
法国议员炮轰欧盟:我们简直成了中美非的租界,什么人都能拿来用

法国议员炮轰欧盟:我们简直成了中美非的租界,什么人都能拿来用

孤烟暮蝉
2024-03-29 14:23:35
再见里夫斯!湖管联络步行者加速转会进程,21+8前锋提升詹眉战力

再见里夫斯!湖管联络步行者加速转会进程,21+8前锋提升詹眉战力

侃爷说教育
2024-03-29 12:27:47
知名博主:李铁大部分钱在国外!在多国有房产,海外有两老婆!

知名博主:李铁大部分钱在国外!在多国有房产,海外有两老婆!

知球者也
2024-03-29 16:48:50
张馨予何捷被偶遇,住广州15万一平富人区,4岁女儿被曝上幼儿园

张馨予何捷被偶遇,住广州15万一平富人区,4岁女儿被曝上幼儿园

八卦爱侃娱
2024-03-28 14:43:41
四川一女子和相亲男生去郊游,返程路上车坏了,男生:电车修不好

四川一女子和相亲男生去郊游,返程路上车坏了,男生:电车修不好

唐小糖说情感
2024-03-17 17:44:34
闺蜜儿子向我表白,我不再压抑自己

闺蜜儿子向我表白,我不再压抑自己

温酒与茶
2024-03-26 09:45:24
蔡磊躺在床上,每次都拉着阿姨说:十分钟以内赶紧把我扶起来

蔡磊躺在床上,每次都拉着阿姨说:十分钟以内赶紧把我扶起来

秀语千寻
2024-03-05 18:56:43
“就两室一厅,还君臣父子?”嗲子文学走红,看的嘴巴都闭不上了

“就两室一厅,还君臣父子?”嗲子文学走红,看的嘴巴都闭不上了

妍妍教育日记
2024-03-28 17:32:53
特斯拉副总裁陶琳:中国市场是特斯拉的必选项!营收1948.5亿占22.5%,全年销量60万辆仅次于美国

特斯拉副总裁陶琳:中国市场是特斯拉的必选项!营收1948.5亿占22.5%,全年销量60万辆仅次于美国

和讯网
2024-03-27 11:01:18
曝42岁李晨上海遛娃!推简易婴儿车太低调,女儿长相清秀像爸爸

曝42岁李晨上海遛娃!推简易婴儿车太低调,女儿长相清秀像爸爸

花花lo先森
2024-03-28 10:14:55
温压弹猛轰,乌克兰前线官兵军变,危急时刻俄军成功靠电子战翻盘

温压弹猛轰,乌克兰前线官兵军变,危急时刻俄军成功靠电子战翻盘

予时Colorful
2024-03-29 06:30:07
创78年纪录!穆雷44投轰44分,本人霸气回应:科比会为我骄傲

创78年纪录!穆雷44投轰44分,本人霸气回应:科比会为我骄傲

末位侃球
2024-03-29 10:48:57
所以说黑丝才是我的舒适圈

所以说黑丝才是我的舒适圈

白宸侃片
2024-03-29 17:07:24
63岁北京知青重返陕北看初恋,发现自己竟已儿孙满堂:我对不起你

63岁北京知青重返陕北看初恋,发现自己竟已儿孙满堂:我对不起你

铿锵玫瑰r
2024-03-10 18:23:47
重庆农商行原党委委员、副行长舒静被查

重庆农商行原党委委员、副行长舒静被查

新京报
2024-03-29 16:13:20
美国曾做过实验,将4男4女关在一起日夜生活两年,后来结果怎样?

美国曾做过实验,将4男4女关在一起日夜生活两年,后来结果怎样?

梦里大唐
2024-03-22 17:04:19
央八未播完央一又定档的《追风者》王一博 李沁打了多少资方的脸

央八未播完央一又定档的《追风者》王一博 李沁打了多少资方的脸

娱乐圈酸柠檬
2024-03-29 17:16:13
哈马斯:立即停止!

哈马斯:立即停止!

环球时报新闻
2024-03-27 14:55:36
2024-03-29 18:20:49

头条要闻

奥巴马和克林顿露面支持拜登 特朗普方称要搞场更大的

头条要闻

奥巴马和克林顿露面支持拜登 特朗普方称要搞场更大的

体育要闻

拒绝为国出战,他是足坛"天选打工人"

娱乐要闻

胡夏被曝有孩子!工作室火速辟谣

财经要闻

张维迎:如何正确理解企业家精神?

科技要闻

雷军:我们是卷王,建议BBA车主感受下时代

汽车要闻

找回久违的开怀大笑 试驾小米SU7 Max

态度原创

家居
教育
本地
公开课
军事航空

家居要闻

弧岛栖居,极致温柔奶油底色

教育要闻

虽然交通工程专业名称一样,但不同学校毕业却天壤之别

本地新闻

专访|张伟潮:最年轻的龙头专职制造者

公开课

30岁之前,你要学会的13件事情

军事要闻

乌方声称击落两枚俄"锆石"高超音速导弹 俄方未予回应

无障碍浏览 进入关怀版
×