“我们和YouTube现在正在联合研发一款智能识别图片及视频的系统。 研发完成后,它将用于甄别、封禁油管平台上发布的仇恨、种族歧视、血腥、黄/暴及其他违反各国法律规定的图片、视频。” 得知夏景行前来视察工作,吴恩达和李飞飞作为复兴工业(美国)人工智能研究院的正、副院长亲自带着大老板在各个实验室参观了起来。 一行人边走边聊。 夏景行笑着说道:“这段时间辛苦你们了,违禁视频一直是油管的一块心病。 因为这玩意儿,油管经常被社会各界抨击,快被形容成传播毒瘤的网站了。” 吴恩达笑道:“油管每个月有来自几十个国家的几亿人访问和上传视频,这种大型平台的管理确实是件令人头疼的事情。 光依靠人工审核视频, 很难实现高效的审核,同时还会造成大量的人力支出。 拥有一款高识别精准率的审核系统,可以为油管省很多事。 不过现阶段的AI识别精准率很难达到完全不依赖人工审核的程度。 未来很长一段时间内,还是需要AI和人工一起搭配审核,AI为主,人工为辅。” 夏景行笑了一下, “我明白, 人工智能也会出错, 把正常视频判别成违禁视频。” 吴恩达点点头,道:“要想彻底解决这个问题,还需要继续训练我们的算法模型,才能使它的识别更精确。。 怎么训练人工智能呢?我们需要更多的标注数据。” 李飞飞在一旁补充道:“我之前曾开发了一个Ie数据库,下载了10亿张图片,为了找人标注这些图片,我使用了亚马逊的众包服务平台AMT,但几年时间过去了,仅仅只标注了几百万张图片。” 夏景行微微点头,亚马逊AMT,又名AI富土康。 顾名思义,这就是一個网上接单做兼职的平台,其中最多的任务就是标注数据。 怎么标注呢?很简单,坐在电脑前,对数据进行手工输入、分类,区分出一张照片中是否有“狗”,辨别语句中的“bass”到底是低音还是鲈鱼。 每标注一张图片、一段语音, 可以挣3美分。 看起来挣得很少,但积少成多, IT外包业务发达的印度就有很多家庭妇女把这份兼职工作做成了全职工作,每天工作8小时,一个月能挣700美元。 听起来感觉好像还不错,但其实比工厂打螺丝还枯燥乏味。 不过毕竟是兼职工作,也没人站在旁边督促,想干就干,算是比较自由的工作。 夏景行问道:“我们开发的FX数据库,现在标注了多少张照片?” 吴恩达叹了口气,“就一百多万张,因为找不到那么多人干这活,亚马逊AMT上面的活跃用户太少,很多人干着干着就不干了。” 夏景行皱起了眉头,“太少了,标注数据就是人工智能的饲料,要赶紧想个办法把标注数量提升上去。” 说到这,夏景行心中突然一动,脱口而出道:“哎,我们可以考虑把这个产业引入中国啊? 一个月挣四五千块,应该还是能吸引一些人当数据标注员的。” 夏景行一下子联想到了很多东西,西哥可以在老家办个外呼中心,自己也可以在老家办个数据标注中心啊! 找一帮有一定文化基础的妇女,培训一下就可以上岗了,而且还可以在家里干活,相当于补贴家用了。 夏景行把自己的想法给吴恩达和李飞飞讲了一下。 李飞飞老家也是蓉城的,而且这是为妇女提供工作岗位,她对这件事很感兴趣,立马针对性的提出了不少建议。 吴恩达提出了不同意见:“选择众包模式,估计标注员只能标注一些简单的图片。 而视频标注和3D标注有些复杂,每一帧画面都需要标注数据。 尤其是戴伦你提过的自动驾驶,想想都觉得数据量恐怖。” 夏景行记得前世涌现出了一些专业的数据标注公司,他们的主要服务对象就是自动驾驶技术公司。 为了完成一些高质量、高难度的标注,那些数据标注公司没少研究如何高效标注数据的小工具。 “我们可以开发辅助标注工具,把图像和视频进行分割,标注员只需要在每个物体框里面打钩打叉,或者选择绿色、红色就行了。” 吴恩达眼睛顿时一亮,“这是一个好办法啊,不然一个图像标注几百上千组数据,能够把人活活折磨死。” 夏景行笑了一下,这可不是他自己