• 简中
    • 繁中
  • 注册
  • 查看作者
  • 同被捧上天嘅 AI 相比,元数据可能更重要

    转载:本文来自微信公众号“InfoQ”(ID:infoqchina),作者:凌敏、核子可乐,转载经授权发布。

    喺网络搜索领域,元数据好可能逐步取代 AI。

    元数据正逐步取代 AI

    元数据又称中介数据、中继数据,是用来描述数据嘅数据(Data that describes other data)。

    元数据最大嘅优势喺于,佢具有良好嘅开放性。利用元数据,你可以轻松编写一款面向 OpenGraph 标签嘅解析器,既唔需要 AI 模型也唔需要云计算,就能轻松认识页面中包含边啲内容。此外,元数据嘅获取门槛也并唔高,无需大量交互或协同即可快速获取。

    软件工程师 Cal Paterson 认为,喺网络搜索领域,元数据正逐步取代 AI。准确嚟讲,家阵时嘅 AI 无办法支持搜索引擎查找各类内容、切实理解内容含义,真正喺度背后起作用嘅,其实系元数据。当搜索引擎揾到目标页面后,网站管理员需要提供丰富嘅元数据,来帮助搜索引擎快速理解页面内容。

    以谷歌搜索引擎为例,谷歌一直爬取成个互联网体系页面,但过去嘅事实证明,就算是 20 个简单嘅网站,谷歌嘅页面爬取效果都堪称“惨唔忍睹”。也就是说,常规嘅爬取网站方式根本驾驭唔‌无穷无尽嘅网络资源。

    因此,喺 2005 年嘅时候,谷歌推出‌ Sitemaps 标准,允许网站管理员直接提交页面列表。有‌ Sitemaps 标准,任何一个站点有更新,就会自动通知谷歌,方便谷歌进行检索,大大减轻谷歌嘅爬取负担。唔过,即便多数网站都提供站点地图文件,谷歌面对咁庞大嘅、包含页面链接嘅 XML 文件,仲要是需要借助专门嘅工具来帮助互联网管理员调试具体问题。

    比如,谷歌会通过添加一段元数据嘅方式,从两个相似页面中准确判断出到底谁才是真正嘅原始页面,以便谷歌唔被链接所误导,从而喺搜索结果中显示正确嘅页面。

    此外,谷歌喺对页面作者进行识别时,也会用到元数据。之前,谷歌上线‌ Google+,并鼓励网站管理员提供家阵时页面作者嘅 Google+ 个人资料。而随住 Google+ 项目被废弃,谷歌转而从 Facebook 嘅 OpenGraph 规范当中读取元数据,以此处理谷歌主要搜索结果集以外嘅内容(例如向 Android 用户展示嘅新闻报道)。而对于第啲数据,谷歌则选择解析 JSON-LD 元数据标签、“微格式”乃至第啲指标。

    虽然谷歌家阵时掌握文本分析功能,但同第啲搜索引擎相比,谷歌嘅核心优势并唔喺于更强嘅自然语言处理能力,而喺于其善于使用元数据——佢哋会根据反向链接判断代理嘅知名度。

    例如,PageRank 真正关注嘅并唔系页面嘅实际内容,相反,佢嘅办法更加简单粗暴——边个页面喺第啲页面中嘅链接使用量大,就证明前者嘅优势地位越强。而这,仍然系喺依靠元数据嘅力量。

    唔过,元数据也并唔系“万能神药”,只有元数据内容完全正确时,搜索引擎才能充分利用佢分析内容。家阵时,有好多中立第三方提供元数据,例如公共记录或者多个唔相关数据点嘅加权累计等等。谷歌喺搜索引擎结果页面中展示维基百科数据就属于呢种情况,PageRank 嘅工作原理都系以此为基础。

    AI 神话快编唔落去‌

    好明显,喺网络搜索领域,家阵时嘅 AI 仲未那么智能。那么,喺响应搜索查询、返回文档内容方面,AI 嘅表现点样样呢?答案依然系咪定嘅。

    家阵时,AI 虽然可以从维基百科右侧信息框里提取结构化数据,但其带来嘅“边栏提取”同“零点击结果”反而让维基百科原始页面嘅访问量大大下降。

    喺搜索结果方面,AI 整理出嘅结果基本是由商业网站上嗰啲博眼球嘅劣质“标题党”组成。呢啲网站嘅作者往往是设计页面元数据嘅专家,佢哋特别懂得点样利用谷歌算法,为自己嘅网站积累人气。用户要想得到自己真正想要嘅搜索页面,只能采用更复杂嘅办法进行查询,比如喺搜索时加上网站名等等。

    虽然谷歌声称“网络管理员应该放弃元数据,专注于内容本身”,但呢种喊口号嘅方式并没有真正解决问题,只会误导用户,让用户以为家阵时嘅搜索引擎可以解决好多问题,元数据扮演嘅只是辅助角色。但实际上,唔只系喺网络搜索领域,喺一啲发展更快嘅领域度,元数据嘅作用也比 AI 明显。

    以政府对网络活动嘅监控为例,执法机构更倾向于跟踪往来邮件、语音呼叫或者聊天消息等元数据内容,而唔系采用 AI 模型去逐一分析民众喺说些乜嘢。同样嘅道理,好多人以为自动驾驶汽车会读取路标来计算特定道路嘅限速规定,但实际上,自动驾驶系统大多会结合家阵时 GPS 坐标直接查询限速规定。也就是说,只要移动应用同卫星导航配合良好,我哋就会有呢种“智能化”嘅体验。

    人朝住增强 AI 嘅目标一路狂奔,睇上去一切美好。但拧巴嘅系,数据科学家们费尽心力打造嘅 AI 模型一旦公布,人就会唔断利用元数据让其推理过程更可靠、更具可解释性。有啲时候,一个标记甚至可以抵得上 AI 模型计算半个个钟头。呢个真实世界,就是咁魔幻。

    参考链接:

    链接

    cantonese.live 足跡 粵字翻譯

  • 0
  • 0
  • 0
  • 166
  • 请登录之后再进行评论

    登录
  • 任务
  • 发布
  • 偏好设置
  • 单栏布局 侧栏位置: