当前位置: 亚洲象 >> 亚洲象生活环境 >> 特写CVPR十年轶事走出象牙塔机器之心
机器之心原创
作者:TonyPeng
这不是石建萍第一次来CVPR了。过去这八年,她几乎没落下过一届,倒也习惯了每年办一次美国签证。只不过,这么多年以来,参加CVPR的身份却在不断变化:从一个本科生,到博士生,到研究员,再到如今商汤科技的研究总监。
她今年带来了五篇CVPR论文,其中一篇oral和两篇spotlight,这个数量已经算是相当出色。商汤科技今年也破纪录地入选了44篇论文,仅此于谷歌的45篇。工业界的一家公司有40多篇论文入选CVPR,这在过去绝对是难以想象的。
过去的十年里,CVPR变了许多。曾经在学术界孤芳自赏的计算机视觉,如今走出了象牙塔,成为聚光灯下最璀璨的科技新星。会议的主角,从当年的向量机,到今天大行其道的深度学习;年出世的ImageNet挑战赛ILSVRC,也在去年画上了一个句号……
十年前不过人的参会规模,今年已经超过了人;当年还来参会的学生们,现在不少都是工业界的高级研究员或是首席科学家……
多年的变迁,其中有委员会的推波助澜,也是时代变迁的必然结果。大部分人对这些变化欢欣鼓舞,也有不少人患得患失。这其中的故事,值得我们去回溯。
懵懂的华人学者
年,即将从浙江大学竺可桢学院大四毕业的石建萍收到了来自CVPR委员会的邮件:恭喜您,您的论文入选了今年的oralpresentation(论文演讲报告)。这让她可激动坏了。
CVPR,全称IEEE国际计算机视觉与模式识别会议,在计算机视觉领域是和ICCV、ECCV并称的三大顶尖会议。计算机学科的发展速度很快,前沿更新往往是日新月异,相比于1-2年才能面世的期刊,学者们都倾向于将论文投至年度学术会议。
入选oral意味着你的论文不仅受到了委员会的极大认可,还可以在参会者面前做15-20分钟的演讲报告(现在时间都缩短了)。CVPR的总体论文录取率在25%—30%,入选oral的录取率不超过5%(年为3.5%),剩下的都是poster(论文海报),以及在年才出现的第三种形式spotlight,即简短的演讲报告。
据不完全统计,石建萍可能是当时国内第一个论文入选CVPROral的本科生。她研究的课题是为ANon-ConvexRelaxationApproachtoSparseDictionaryLearning。SparceDictionaryLearning在当时还是比较主流的研究课题(以基本元素的线性组合以及这些基本元素本身的形式找到输入数据的稀疏表示,也称为稀疏编码)。不过,深度学习到来后,这些方法都没有容身之处了。
CVPR是石建萍第一次接触国际顶尖会议。办妥了签证,她就准备动身前往美国。
那年的CVPR刚刚从前一年的旧金山来到了美国的内陆城市科罗拉多,参会者也从前一年的人掉到了多人。不比今天的CVPR要选在某某会议中心,那年的规格在一家皇冠假日酒店办也就足够了。酒店里的两个Ballroom被用作oral,一楼的另外三个房间用来展示poster,酒店零星地摆着一些来自工业界公司的展台,几张小桌子拼拼凑凑,上面叠放着招人启示。
多年来,CVPR的日程也一直如此:周二到周四是大会正式日,周一和周五、甚至是周六则是Workshop和Tutorials。
石建萍的oral被安排在周二中午,倒也一切顺利。剩下的时间,她就用来看poster。那时候接收的论文也不多,一个半小时看个40多篇,不过因为是第一次来,大多她也看不太懂。
石建萍在CVPR的oral视频截图。
在年以前,即使是国内一流的学术机构,包括清华、浙大和中科院自动化所,当时能投中CVPR论文的并不多。不是因为国内学者们的研究能力不足,而是在CVPR上投中论文,需要许多「门道」:选题是否合适?英文写作是否规范?实验该怎么做?当时的国内学术机构缺乏海归学者和相应的学术环境,这让他们往往把不准国际会议的脉。
CVPR的领域主席、如今在俄勒冈州立大学任教的李伏欣,回忆起年以前在自动化所就读博士的场景时,感慨道,「那时候许多同学的论文英文写作还都是我改的。大家缺乏专业的学术训练,不了解如何把握实验设计和论文写作中的各种细节。」
李伏欣还谈到了当年写论文的一个细节,「我刚出国的时候,当时写论文被改的最多的就是『get』改成『obtain』,『todosomething』改成『inordertodosomething』,看起来是一样的东西,但就是口语和书面语的区别。」
另一个值得一提的原因是:直到中国计算机协会在年左右(具体时间无法考证)将CVPR定为A级会议之前,国内学术机构对CVPR也没有那么重视。
微软亚洲研究院(简称微软亚研)和香港中文大学多媒体实验室(简称港中大实验室)是当时国内计算机视觉的两大重镇。年CVPR的最佳论文便出自这两家学术机构之手,论文的第一作者何恺明此后又带来了残差网络ResNet,也因此获得了CVPR的最佳论文,这已经是后话了。
石建萍是幸运的,当时浙江大学空降了一位海归学者——来自加州大学伯克利分校的张志华。据石回忆,张志华是一心做纯科研的学者,极力推荐学生们读数学的书,也不让他们去做和项目相关的东西。后来,张志华先后在上海交大和北京大学任教,如今是北京大学数学科学学院教授。
张志华的引路,让石建萍与计算机视觉结缘。尽管当时为她写推荐信的老师曾劝她学习比较火的领域,比如数据挖掘(datamining),但石建萍还是选择了当时中国计算机视觉领域的重镇——香港中文大学,并投身计算机视觉系的贾佳亚教授门下,后者在年加入腾讯任优图实验室杰出科学家。
汤晓鸥教授的前瞻
时间来到年,多伦多大学教授、被誉为「深度学习之父」的GeoffryHinton和他的学生们带着AlexNet在那一年的ImageNetILSVRC挑战赛上技压群雄,top5错误率比第二名低了足足10%。这篇被NIPS收录的论文也被认为是开启深度学习热潮的一块里程碑。
可在当时,将深度学习应用到计算机视觉的并不只有Hinton组。年,当时还在斯坦福大学任教的吴恩达联合JeffDean和GregCorrado在谷歌创立了GoogleX项目,用个中央处理器核心,通过深度神经网络,让该系统仅通过收看大量的Youtube视频来识别猫。
而在中国,由汤晓鸥教授所带领的香港中文大学实验室也在年起开始探索深度学习在人脸识别方面的可能性。
林达华是如今香港中文大学实验室的主任。年从中科大毕业之后,林达华曾经在港中大实验室就读硕士学位,和汤教授有了一段师生缘。年,他获得全额奖学金到MIT攻读计算机科学博士学位。年,林达华受汤教授的邀请回到了港中大任教并成为商汤科技的创始成员。
据他回忆,港中大实验室研究人脸识别可以追溯到年。「我在年读硕士的时候,当时我们主要是用子空间分析——一种线性模型的方法来做人脸识别,也取得了一些成果,但是直到深度学习之前,性能水平始终难以做到商用。」
转机出现在年,当时在微软亚研的邓力教授(如今是美国金融巨头Citadel的首席人工智能官)率先将深度学习应用到了语音识别领域,并取得了显著的性能提升。这让同样在微软亚研的汤教授嗅到了在视觉领域掀起深度学习革命的机会。
然而,转型并不容易。当时的学术界对于深度学习抱有极大的怀疑态度。神经网络早在80年代就出现了,之所以多年来不受重用是因为其在性能上并没有优势可言,且神经网络的黑箱属性让研究员难以理解网络的学习和决策过程。
此外,将过去的工作推翻全面接受深度学习,花费大量的资金购买GPU建立并行算力集群,并决定完全自主研发深度学习平台,对汤教授来说这是需要承担风险的。许多后辈的学者都评价汤教授是「一位具有前瞻性的学者,他当时在深度学习上的探索为之后的许多工作都奠定了基础。」
巨大的投入很快取得了回报。—年间,在计算机视觉领域两大顶级会议ICCV和CVPR上,汤教授组一共发表了14篇深度学习论文,占据全世界在这两个会议上深度学习论文总数(29篇)的近一半。
到了年6月,汤教授带领港中大多媒体实验室发表了DeepID系列算法,实现人脸识别准确率达98.52%,超越Facebook,在全球首次突破人眼识别能力。该论文也被CVPR所收录。
虽然这些成绩还远远不够,但学术界看到了人脸识别在商用上的可能性。
CVPR也在和年开始全面接受深度学习。在CVPR,据不完全统计,将近60%的论文都和深度学习相关,口头报告更是接近%来自深度学习。
当时在港中大读博士的石建萍,见识到了深度学习和以往算法的不同。」深度学习确实把很多东西做成了,以前可能我们流行了很多不同的技术方案,但是大家都还是在这个水平线上打转,没有一个特别大的一个突破,但是深度学习直接很多问题的一个准确率一下抬高了一个档次。」
嗅到了商用机会的汤教授,带着昔日弟子王晓刚和一批港中大实验室的班底,在年年末创立了商汤科技。年夏天,石建萍博士学位毕业,追随她的「师兄师姐们」进入了商汤科技研究院。她的大师兄,也就是如今商汤科技的CEO徐立。
学术到工业的一脉相承
斯坦福大学教授、Deeplearning.ai的创始人吴恩达曾经说过,如今99%的人工智能应用的背后是由监督学习所驱动。易于标注的二维图像数据、算力的提升和深度学习算法的演进,也让视觉领域在过去几年首先得益。
从你睁开眼的那刻起,计算机视觉就开始了它一天的工作:从识别你的头像解锁手机,到登陆你的银行账号;交通灯上的摄像头紧盯着乱闯马路的行人并把他们的头像放大在街头的显示屏上;进入办公大楼不用再出示工作证,而是直接看向门口的摄像头进行身份验证……
深度学习带给了视觉领域大规模商用的潜能,也让CVPR出现了一番新的景象。
过去,视觉领域的问题无法落地到实际的应用场景里,研究大多局限在实验室。可如今,视觉领域与实践紧密结合,产生出了新的问题,工业界需要利用研究来推动自身的商业边界,也就顺其自然地向CVPR这样的国际会议输出研究结果。
最近几年,贡献最为明显的要属中国的A.I.公司,比如商汤。继CVPR入选了23篇论文后,今年商汤又贡献了44篇(这其中包括了商汤科技、香港中文大学-商汤科技联合实验室以及其他商汤科技联合实验室),其中3篇是oral(今年CVPRoral录取率是1.88%),内容覆盖了十几个课题,包括大规模分布式训练、人体理解与行人再识别、自动驾驶场景理解与分析、底层视觉算法、视觉与自然语言的综合理解、物体检测、识别与跟踪、深度生成式模型、视频与行为理解等。
此外,腾讯AILab有21篇论文入选,阿里巴巴18篇,腾讯优图10篇,旷视科技8篇。
石建萍觉得,商汤内部其实没有鼓励大家写论文,毕竟作为一家商业公司还是尽可能多的去做实际产品项目相关的一些东西。论文数量多的主要原因是因为氛围在这里。
「越来越多的同学进入商汤或者港中大商汤联合实验室以后,他旁边就有同学在做类似的事情,也更容易入手。在实际的产品过程中,我们有很多的想法出来,这时候就可以把一些实验提交给学生去做,他们也能够快速地提高技能。」
从年港中大多媒体实验室的获得最佳论文,到年商汤科技的44篇论文入选,这是一脉相承的结果。
「资源的投入,新问题的产生,肯定对这个领域的发展是有很大的一个正面驱动的这种作用的,」林达华说。
「当然它也会带来一些问题,整个领域的研究比起十年前显得更加功利化,大家都会追求一些要马上能落地,马上能见效的问题,反而对于根本性的一些基础问题得到的重视程度就相对的下降。包括其实近几年的这些顶尖的这些会议都有这方面的趋势。」
「总想有一年来赞助CVPR」
参加完几次CVPR,石建萍早已没有当初的那股兴奋劲儿了,但她依然有新的追求。
「以前和师兄师姐聊天的时候,他们都说自己有个梦想:参加了这么多年CVPR,总想有一年过来赞助下。」
年以前,即便是公司常年赞助CVPR,也不过是在poster外围搭上个小展台。而且,这么多年以来,CVPR的赞助名单上永远是那几家美国公司:谷歌、微软、亚马逊的A9、IBM……
在年的CVPR上,一家叫做知图科技的A.I.公司买下了那一年的PlatinumSponsor,并让该公司的品牌直接印在了每个参会者的入场名牌(badge)上,这家公司的联合创始人,便是今天自动驾驶公司图森科技的CTO侯晓迪。
赞助CVPR有着工业界的考量,这背后反映的是计算机视觉在工业界的迅速升温和对人才的渴求。仅仅在中国,年到年成立的人脸识别公司就超过30家,年达到70多家。其中,既有商汤科技为代表的AI企业,其后还包括旷视、依图、云从、驭势、格灵深瞳、码隆科技等等;BAT也都在A.I.和计算机视觉领域有了实验室:阿里巴巴成立iDST,腾讯成立优图,百度成立人工智能实验室。
根据IDC在今年5月发布的《年中国计算机视觉应用市场研究(上)》报告,截至年12月底,中国计算机视觉应用市场规模达15.45亿元人民币,同比年增长.0%。其中,政府、金融、互联网是计算机视觉技术支出规模最大的3个行业;政府行业中平安城市、金融行业中人脸身份验证是技术支出规模最大的2个场景。
在A.I.人才稀缺的年代,像CVPR这样的大会就好比是一场大型的招聘会。这些来自高校的学者或是工业界的能人,未来都有可能成为厂商们的核心研究员。
同样在年,刚刚成立的商汤科技也成为了CVPR最高级别的赞助商。对石建萍的那些在商汤的师兄师姐们而言,赞助CVPR除了品牌宣传外,也算是了却了心愿。之后,商汤每年都出现在了赞助名单上。
时间来到年,CVPR迎来了历史上首次展览会(expo)。那一年就有近家公司参加,到了今年,厂商数量超过了家,也给委员会带来了万美元的赞助收入。
在拉斯维加斯的凯撒宫举办的CVPR吸引了3,人,在当时达到了历史新高。展览会在凯撒宫的OctaviusBallroom举办,聚集了将近家公司。PlatinumSponsor的展台达20*20ft。和工业界展会雷同,公司们搭设屏幕展示demo或者技术产品。
在那一年的Sponsor名单上,除了商汤我们还看到了更多中国面孔:图森科技、大疆、百度、滴滴……这几家公司也都成为了近年来CVPR的熟客。
在那会儿,商汤的展台布置还比较简单:两边各摆上一张海报,中间摆着三台屏幕展示demo,后面摆着几张桌子。
来到年,商汤的CVPR展台除了一如既往的红色背景外,摆设装潢已经完全不同了:展台的四周由四面展示墙包围,正反面各搭设一个屏幕,用来展示一种商汤的技术产品。这也难怪,如今商汤科技的布局横跨十几个领域,从人脸识别系统SensePortrait、到增强现实感引擎与平台SenseAR、再到车内驾驶员监控系统SenseDrive,要展示的demo实在太多。
商汤科技在CVPR的展台。
这些过去几年曾出现在某CVPR上的论文,如今以demo甚至是产品的形式在CVPR上重现,这是计算机视觉学者的一种幸运。
写在最后:
「好想去感受一次(CVPR)。」这是许多年纪轻轻、还未经历过CVPR的计算机视觉系同学的心声。
林达华还记得他第一年参加CVPR,那还是年了,也是中了一篇oral。「我准备了两三周,反复地在老师面前说。那个时候oral时间也比较长,要将近20分钟。」
「学生时代的话,其实每一次来开会都怀着一个比较好奇的一个心情,现在也大不一样了。」
石建萍也有同感。年来的时候,她还是一个学生,对什么都好奇。今年她带着几个商汤实习生过来,有些人也是第一次过来,瞧着和当年的自己特别像。