• 简中
    • 繁中
  • 注册
  • 查看作者
  • 上交友软件先“测谎”?日本大学生开发匹配模型,60个问题综评价值观,精度达75%

    编者按:本文嚟自微信公众号“大数据文摘”(ID:BigDataDigest),作者:常田小希,转载经授权发布。

    上年年末,日本政府宣布要用AI畀民众匹配交往对象,呢一新闻一出,引得食瓜群众纷纷上线。 

    虽然现喺谂嚟仍然感到魔幻,但喺文摘菌报道嘅文章下方,都有读者一针见血地留言指出,这唔就系交友软件么? 

    文摘菌转念一谂,嗰都就系话,人们好有可能仍然会唔顾一切地包装自己,“见光死”嘅现象并唔会得到根除。 

    呢个时候,其实剩系要要哆啦A梦嘅真假嘴道具就得嘎啦。 

    上交友软件先“测谎”?日本大学生开发匹配模型,60个问题综评价值观,精度达75%

    最近,日本早稻田大学嘅一个学生团队就将“真假嘴道具”现实化,,并且佢们仲凭借此获得,“第二届数据科学竞赛”嘅最高奖。 

    简单嚟说,佢们主要系通过注册时等用户填写嘅问卷,对用户喺“上进或稳定”“个人或群体”“工作或爱好”三个维度上进行分析,从价值观入手,预测每个人独特嘅行为方式,从而达到高精度嘅匹配效果。 

    从结果上睇,利用交叉验证得出嘅正确率达到,75%,虽然睇上去仲有好大嘅改进空间,但考虑到实验数据主要系基于一啲企业提供嘅消费者数据,都可以说十分优秀嘎啦。 

    上交友软件先“测谎”?日本大学生开发匹配模型,60个问题综评价值观,精度达75%

    而且,呢个学生团队总共就只有4个人,从大二到研一,系唔系感觉更厉害,?赶快同文摘菌一齐嚟睇睇吧~ 

    从营销专业论文中获得创新灵感 

    我哋都知道,喺交友软件上进行匹配嘅话,系统都系根据用户自己提供嘅照片同填写嘅兴趣爱好等特征做出匹配结果。 

    但唔少人都正系利用到,呢一点,为,能够同更优秀嘅人匹配上,唔断地喺交友软件上粉饰自己,一发唔可收拾。 

    比如,Christian Rudder对美国一个交友软件OkCupid做过一项调查。佢发现,一般嚟说,真人一般会比交友软件填写嘅身高矮上5厘米;年龄越大嘅美国人越爱对自己嘅收入撒谎,一个人嘅真实收入同约会软件上相比要打个8折。 

    有没有乜嘢方法能杜绝呢种现象呢? 

    喺发表研究提案时,大三学生字井崇晴提到,一个关键点,喺一篇营销学论文上,研究人员写过咁一句话,“价值会影响消费者嘅行为”。 

    同队嘅其佢成员表示,“价值观呢种嘢,好多人可能自己都说唔怎么上嚟,因此可能存在有意无意嘅撒谎行为,如果系咁样嘅话,匹配效果就会非常唔理谂”。 

    于系,喺开发初期,佢们从主办方提供嘅大量数据中提取,约60项内容,例如“爱好系乜嘢”同“钟意观睇乜嘢样嘅运动”,并通过应用称为主成分嘅统计处理将信息压缩为三个维度进行分析,这三个维度都就系“上进或稳定”“个人或群体”“工作或爱好”。 

    上交友软件先“测谎”?日本大学生开发匹配模型,60个问题综评价值观,精度达75%

    当佢们通过交叉验证方法确认所创建嘅模型时,发现模型嘅正确率达到,75%。研究团队负责人原健人讲到,这表示,基于价值观嘅匹配比基于可以作假嘅问题嘅情况要准确得多。 

    喺决定,“基于消费行为嚟猜测三轴值”嘅策略之后,研究人员尝试使用线性回归同随机森林等各种模型嚟分析数据,从结果上睇,算法LightGBM系精度最高嘅。对于适当嘅目的变量嘅提取,都系喺唔断嘅试错中进行嘅。 

    如果后续该应用程序得以发布,通过接收用户嘅反馈嚟获取新嘅数据嘅话,嗰么匹配嘅精度仲会进一步提高。 

    上交友软件先“测谎”?日本大学生开发匹配模型,60个问题综评价值观,精度达75%

    基于云嘅机器学习平台同真实数据嘅结合 

    呢次嘅数据科学竞赛,早稻田大学提供,由微软为分析环境开发嘅基于云嘅机器学习平台“Azure ML”。 

    之所以决定使用呢个平台,一系因为它有一个“设计师”功能,但系以等唔习惯编码程序嘅学生通过拖拽嘅方式建立分析模型,二系它可以安全地喺云端完成对敏感同庞大调查数据嘅处理。 

    上交友软件先“测谎”?日本大学生开发匹配模型,60个问题综评价值观,精度达75%

    喺上述交友软件嘅开发过程中,学生团队就使用“Jupyter Notebook”编写,用于Python分析嘅代码,该代码可以轻松地喺Azure ML上编写同执行代码。 

    由于分析数据量好大,喺PC嘅本地环境中就资源而言好难处理。此外,由于数据系从实际调查表中获得嘅,因此大学方面希望避免喺本地下载。Azure嘅功能同本地分析环境几乎相同,并且可以执行从数据存储到云分析嘅所有操作,都符合本次竞赛嘅需求。 

    团队中负责应用程序开发嘅铃木讲:“我可以立即共享无办法喺本地保存嘅数据或谂要喺线共享嘅数据,呢啲系一个优势。”  

    作为竞赛嘅组织者,数据科学中心嘅小林学教授表示,“如果你系从头开始安装同设置工具,门槛自然系好高嘅。此外,为,提高利用分析嘅能力,Azure ML会系学生提供最新嘅分析环境。喺设置使用量嘅上限嘅同时,但系以灵活地扩展规格,同时观察学生嘅使用情况,这都系云技术独有嘅优势”。 

    该竞赛嘅宗旨系将数据科学同各专业领域嘅知识相结合,嚟创造新嘅研究同知识,其目的系通过实际数据嘅处理嚟提高数据科学嘅相关技能,提高学生嘅能力。 

    商学院嘅守口刚教授讲:“我哋睇到每个团队喺参加比赛时都使用自己嘅特殊技能,这取决于佢们嘅专业,但都相当有趣。” 

    例如,参加比赛嘅一个理工科学生建议使用一种喺商业中唔广为人知嘅最新机器学习方法。商学院嘅学生擅长将分析结果同商业同营销建议联系起嚟,“呢啲方法同观点都畀我留下,深刻嘅印象”。 

    数据科学中心嘅野村亮教授讲:“当有机会接触到实际数据并获得结果时,学生将变得更有动力并成长。”“明年希望能吸引到更多学生嚟参加”。 

    有技术,有真实数据,希望以后喺国内,都会有更多脑洞大开嘅AI被开发出嚟~ 

    相关报道: 

    链接

    链接

    cantonese.live 足跡 粵字翻譯

    2021-03-11 16:07:24

  • 0
  • 0
  • 0
  • 165
  • 请登录之后再进行评论

    登录
  • 任务
  • 发布
  • 偏好设置
  • 单栏布局 侧栏位置: