29岁的吉恒杉坐在电脑前,熟练地操作着鼠标,将屏幕上各式各样的画面分为两类:“接吻”和“非接吻”。作为一名优酷的人工智能标注员,他的任务是教会机器识别“接吻”镜头,也因此被同事戏称为“吻戏鉴定师”。
在各大视频网站上,许多预告片、集锦以及进度条中的剧情提示都离不开“吻戏鉴定师”的贡献。爱情是影视作品中永恒的主题,而吻戏往往是剧情的高潮部分。通过机器对大量视频素材的扫描,可以迅速提取出吻戏等片段,供编辑人员进行二次创作。
人工智能和视频技术的进步不仅改善了用户的观看体验,还催生了许多新颖的职业岗位,如“吻戏鉴定师”、“明星标注师”、“射门投篮视频分析员”等。这类岗位既要求从业者对娱乐或体育有浓厚兴趣,又需具备扎实的技术背景。这类人才成为视频网站最紧缺的资源之一,反映出数字经济和新经济模式下就业市场的变化。
起初,吉恒杉向女友介绍自己的工作时,她感到非常惊讶:“谁会花钱让你做这个?”他于2016年毕业于北京航空航天大学,主修计算机视觉。这个专业旨在教会计算机理解和识别各种视觉信息。毕业后,他曾在一家互联网公司担任程序员,后来加入阿里巴巴的技术团队,成为优酷的一名高级算法工程师,主要负责训练计算机识别接吻等特定场景。
“这个岗位正好与我的专业相匹配,既能为观众带来欢乐和幸福,又能以工作的方式欣赏网络剧,这让我非常喜欢。”吉恒杉笑着说。他平时喜欢看网络剧,尤其是《军师联盟》,是吴秀波的忠实粉丝。
据数据显示,中国网络视频内容消费用户已接近6亿。随着智能手机和电脑的普及,人们不再满足于简单的观影体验,而是追求更加丰富有趣的内容和更精准的个性化推荐。为了满足这一需求,机器必须学会从海量素材中筛选出相关的片段,并进行标注,就像大海捞针一样。男女主角的吻戏往往代表了剧情的高潮,因此成为最常见的标签之一。吉恒杉和他的团队面临的首要挑战就是教会机器准确识别接吻场景。
虽然人工智能听起来很高深,但在实际操作过程中却需要大量的手动工作。吉恒杉从图片库和视频中选取了几千张图像,逐一标注出“接吻”画面。这个过程称为“数据标注”。他每天需要标注数百张甚至上千张图像,长时间盯着屏幕,最终甚至会感到视觉疲劳。然而,数据标注的质量和数量直接影响到模型的效果,从而影响机器识别的准确性。
尽管机器学习能力强大,但在某些复杂情况下仍无法与人类匹敌。例如,为了拍摄出唯美的画面,“接吻”姿态多种多样,有的深情凝视,有的若即若离。吉恒杉和同事们不得不打印出不同角度的“接吻”画面,贴在墙上进行讨论,以确定什么样的画面才能被定义为“接吻”。
“吻戏鉴定师”不仅需要掌握技术,还需要不断优化机器学习模型。经过训练,机器能够识别出上千张图像中的特征,从而准确判断“接吻”画面。截至目前,吉恒杉和他的团队已经为超过两万条“接吻”片段进行了标注。
借助阿里巴巴的技术支持,如今只需10秒钟即可完成长达5分钟的视频处理。以《三生三世十里桃花》为例,每集50分钟的视频被分割成3000帧图像,机器仅需5秒即可找出杨幂和赵又廷的吻戏。
吉恒杉所在的团队共有8人。随着业务的扩展,他们也开始探索其他场景的识别,如哭戏、打戏等,甚至包括体育比赛中射门、扑救、投篮等画面,以便制作比赛精彩集锦。他们不仅需要查看图片,还要亲临现场,细致观察每个场景和动作的细微差异。
尽管这份工作看似轻松有趣,但其中的艰辛只有真正从事过的人才能体会。长时间对着电脑屏幕工作,吉恒杉和同事们下班后的休闲时间通常是在健身房或公司的“太空舱”里放松一下。即便在休息时,他也会思考如何进一步提升机器识别明星和场景的能力。
近年来,娱乐圈出现了一些新趋势,如明星长相越来越相似,如何训练机器识别古力娜扎和迪丽热巴,以及如何区分TFBOYS成员,都需要不断试错和反复训练模型。如何区分“明星脸”、“网红脸”和双胞胎,已成为吉恒杉和他的团队面临的全新挑战。