AI二元分类判读时,找不到「负样本」该怎幺办?



编译:许晋华

二元分类在我们日常生活中随处可见,细微至垃圾邮件筛选到如何分辨假新闻。当交付AI执行类似任务时,人类须先行将欲分类的资料一一标注,分为正(positive)、负(negative)两类,让AI从中找出区隔正负资料的边界。以脸部表情为例,一开始,我们须依相中人物的表情,将照片区分为笑脸(正向)与哭脸(负向)两类,等待AI找到能稳定区别两者的判準后,便可以此为基準来分类新的资料。

这种做法的前提,是训练集中同时存在正、负两类样本,缺一不可;但有时负向资料可遇不可求。就上述例子而言,实际上要找到哭脸相片还颇有难度,因为鲜少有人会在镜头前哭丧着脸。而现实生活中,类似的情况还不少见。例如零售商蒐集顾客的基本资料、购买纪录等,便是想掌握顾客的消费行为,预测哪些消费族群较可能有回购的意愿。只是取得常客资料(正样本)容易,但对于那些未曾来店消费或一去不返的消费者(负样本),店家几乎不可能取得他们的资料。

类似的案例也常发生在App开发者身上。他们希望能预测特定消费者是否会继续使用(正样本)或删除(负样本)App,但同样地,由于隐私保护政策的限制,一旦使用者删除App后,使用者(负样本)资料也会一併由资料库中删除。

负样本不够,那改来研究「可信度」吧!

为了解决这类窘境,日本理化学研究所(RIKEN Center)革新智慧综合研究中心的研究人员Takashi Ishida、Niu Gang和Masashi Sugiyama等人研发了一套新的训练方法,让AI在缺乏负样本的情况下仍能学习如何有效分类。关键在于加入「可信度」(confidence score)此一特徵。

可信度可以是购买意愿、App用户的参与度等,其数学上的意义是「资料属于正样本的机率」。不同于过去的方法,AI会基于正样本数据和对应的可信度来划出分类边界。只是这里的边界,不再是区隔正负样本的边界,而是高可信度与低可信度正样本间的边界。

AI二元分类判读时,找不到「负样本」该怎幺办?
信心分数(可信度)分类法与传统方法的比较 | 来源:重绘自RIKEN/作者提供
效果:与传统分类法不分轩轾

研究团队最先使用时尚服饰资料集Fashion-MNIST来测试此法的分类效果,资料库中网罗了7万张28 x 28已标记的灰阶服饰图片,他们希望从中找出「T恤」的图像(正样本)。研究人员接着针对每张正样本给予一可信度,如此一来,即使在没有负样本(实验设定为凉鞋)的情况下,AI也能成功从中找出T恤,甚至与传统分类方法的表现无分轩轾,準确率可高达99.5%。

AI二元分类判读时,找不到「负样本」该怎幺办?
Fashion-MNIST资料库 | 来源:Fashion-MNIST/作者提供

除此之外,研究团队也以另一资料集——CIFAR-10——再次验证新分类法的分类效果。CIFAR-10蒐罗了6万张32×32的彩色照片,其中包含如飞机、狗等10种不同物件。实验定义「飞机」为正样本,并将其他9类照片视为负样本。二元分类的结果,发现在飞机——青蛙的任务中表现最好,达到90.8%的準确率。

AI二元分类判读时,找不到「负样本」该怎幺办?
CIFAR-10资料库 | 来源:CIFAR-10/作者提供

Ishida表示,传统的机器学习分类法虽然成绩斐然,但迟迟无法突破负样本的瓶颈,导致应用範围受限;有了新的可信度分类法后,料可拓展AI分类器的应用範围,尤其在资料的蒐集与使用受到相关规範或商业限制的情境下,也可游刃有余。

(本文由教育部补助「AI报报─AI科普推广计画」执行团队编译)

编译来源RIKEN,“Smarter AI: Machine learning without negative data”,RIKEN, 26 Nov 2018.参考资料T. Ishida, G. Niu, M. Sugiyama. “Binary Classification from Positive-Confidence Data”NeurIPS, 2018.
台大科教中心讲座讯息:科学史沙龙(华山场)

讲题

    郑建玮|铭传大学生物科技学系副教授林翰佐|铭传大学生物科技学系副教授/科学月刊总编辑

时间:2019.07. 07(日)14:00-16:00
地点:华山文创园区中三馆二楼拱厅

详细资讯请参阅活动网页

延伸阅读用演算法找出人生最佳解:多久该动身前往杂货店採买一趟?



上一篇: 下一篇:



  • 热门文章
编辑推荐