首页
/
每日頭條
/
生活
/
阿裡巴巴商品類目有哪些
阿裡巴巴商品類目有哪些
更新时间:2024-10-05 12:22:19

阿裡巴巴商品類目有哪些?導語:一淘網是阿裡巴巴集團旗下的促銷類導購平台,成立于2010年一淘網立足淘寶網、天貓、飛豬等阿裡巴巴集團的豐富商品基礎,通過返利、紅包、優惠券等豐富的促銷利益點,為用戶提供高性價比的購物體驗,是用戶必不可少的網購利器,下面我們就來說一說關于阿裡巴巴商品類目有哪些?我們一起去了解并探讨一下這個問題吧!

阿裡巴巴商品類目有哪些(阿裡一淘商品類目預測)1

阿裡巴巴商品類目有哪些

導語:一淘網是阿裡巴巴集團旗下的促銷類導購平台,成立于2010年。一淘網立足淘寶網、天貓、飛豬等阿裡巴巴集團的豐富商品基礎,通過返利、紅包、優惠券等豐富的促銷利益點,為用戶提供高性價比的購物體驗,是用戶必不可少的網購利器。

原文來自一淘的産品與技術的分享内容,本文是内容梳理 自己的一些點評。(點評為紫色)主要從商品類目預測的難點分析出發,衍生出一淘商品類目預測的架構以及實現,同時還對商品類目預測的進階提出了暢想。适合做搜索、搜索優化,以及想對商品類目預測有一些了解的同學閱讀。

背景

一淘商品類目預測:是指計算機利用算法将外網商品分到淘寶後台類目結構中相應類目的過程。

商品類目預測業務應用點一淘網站中,那些外網(非淘寶的電商網站,如蘇甯、當當等)的商品都是通過spider/feed兩種方式獲得,在得到這些商品基本信息(标題、面包屑、屬性描述)後,還需要給每個商品挂到淘寶後台類目上,作為搜索中商品類目導航、各種維度數據統計、産品庫建設的依據。

ps:面包屑即“衣服-男裝-褲子”,類似這些類目分類路徑的意思,底部會有一些特定術語名詞解釋。

幹貨

(一)一淘商品類目預測難點

一淘商品類目預測的難點主要體現在如下幾個方面:

(1)類目數量多

淘寶網的商品品類是現有電商公司最全的(阿裡系的電商産品庫是目前中國最全,沒有之一),基本覆蓋了所有品類的商品,大到大家都知道的彩電,冰箱,小到小衆所需的蚊子拍,應有盡有,類目數量多,極大增大了分類空間,提高了分類問題的複雜度。

不同的類目的類目層次不同,有些類目隻有一級類目,比如手機,有些類目有多層類目結構,如“書籍/雜志/報紙->計算機/網絡->程序設計->C語言”,層次越深,需要分類的計算量越大。

(2)分類空間不同

不同類目的葉子類目個數不同。

  • 有些類目的葉子類目數目較少,如“箱包皮具/女包/男包”隻有3個葉子類目;
  • 有些類目的葉子類目數目很多,如“運動/瑜伽/健身/球迷用品”有800 葉子類目,葉子類目越多,這些葉子類目之間區分度越小,分類越難。(可以理解是空間越窄,越難擺放商品,從而越難“尋找定位”搜索)

(3)不同類目的分類難度不同

如“箱包皮具/熱銷女包/男包”類目,隻有“包袋”、“錢包卡套”、“旅行箱”,這三個類目非常好分,但是像“電視機”這樣的類目,它有5個葉子類目:“LCD液晶電視”、“等離子電視”、“LED電視”、“3D電視”、“其他電視機”,這幾個類目的區别度不大,尤其對于一些網站對于這些商品并沒有顯式描述,給分類帶來了很大的難度。

(不同類目商品“自帶的屬性”有天然的分類差異)

(4)商品标題内容多樣

有些商品标題非常容易分類,如“2012時尚雪紡連衣裙”,這個标題包含唯一的一個産品詞“連衣裙”;而有些包含多個産品詞或者類目詞,如“飛利浦電視47PFL3609/93兒童Lock Parental控制/睡眠定時器”,還有更複雜的标題,比如标題包含贈送等混淆類目詞或者産品詞,像“美國正品thechildrenplace女童半身休閑短裙4T内含短褲”,既有“短裙”,也有“短褲”,而這兩個産品屬于不同的類目,算法就需要對這種情況識别出來,這條商品到底賣的是什麼東西。

這些情況就需要采用不同的算法策略。淘寶基本包含了現實世界中所有品類商品,這些商品從語種上看,既有中文,也有英文和繁體的,有标題中包含明顯類目特征的,如類目詞、産品詞。也有通過标題和商品描述基本不能判斷其類目的商品,我們對于不同語種、不同類型的商品采用不同的分類算法。(按類目采用不同分類算法,可以和開發一起研究下類目特點所制定,這些算法後面會提)

(二)一淘商品類目實現方法

主要分類算法和策略:

表征向量法、最大熵、SVM二分類、直接關鍵詞匹配等。

但是首先需要處理的是語種識别,識别出商品的語種,确定海外購商品(英文)、繁體(繁體轉換成簡體)、簡體商品,對于不同的語種,采用不同的處理策略。

(1)SVM二分類

主要分商品是不是書籍。

書籍這類商品比較特殊,從該類商品标題上看,書籍内容包羅萬象,标題也就包羅萬象,如果僅僅從标題來判斷,連人就難以将它分正确,比如“毛衣編織方法大全”,“洗衣機維修手冊”,這些都是書名,但是僅僅憑借标題,很可能将它分到“毛衣”和“洗衣機”類目好在書籍一本都有“書籍批号ISBN”、“出版社”、“出版時間”等比較明顯的信息,利用SVM二分首先将判斷一個商品是不是書籍。(這些信息即是這種算法的特征因子)

(2)表征向量分類法

該方法刻畫了一個特征對某個類目的表征能力。

假定A是一個類目,而B是該類目下一級類目,特征F表征B類目的能力定義為:F在B中的密度以及B補中(A-B)的密度的差異度。

而特征F在B中密度PB(f)=B中包含特征F的樣本數/B總的樣本數,

特征F在A-B中密度PA-B(f)=(A-B)中包含特征F的樣本數/B總的樣本數特征F表征B的能力WB(f)=1-PA-B(f)/PB(f)取值範圍小于0的部分取0,越接近1,f代表B的能力越強利用表征向量法對商品類目的預測是自頂向下逐層進行,先預測一級類别,然後逐級往下直到葉子類目,S(i)=Sum(Wi(f)),f是從該商品中提取的特征,可以使詞的unigran和Bigram特征,特征可以來自商品标題,也可以來自商品面包屑和一些屬性區文本(如描述等)。

簡單的理解,即可以判斷商品屬于在不同“層級、路徑類目”下的符合度。

(3)最大熵方法

表征向量法類似于隻能于最大似然估計方法,它的訓練和分類過程簡單快速,可以從所有淘寶内網的商品中學習這種表征知識。

但是這是一個經驗化直觀的分類方法,在計算特征對于類目的表征能力,缺少必要的理論基礎(這個和AI、搜索的知識圖譜都一樣,可以從業務能力、專業角度去構建。),而且,對于多種不同來源的知識融合問題,也難以解決。

為此進一步提高分類效果的角度,引入最大熵方法來分類。

最大熵方法不僅有完備的理論基礎,而且可以融合多種不同來源的知識,在面向業務性問題(業務性問題往往積累了各方面的知識)是一個很好的應用場景。

在最大熵模型中,以下特征有助于分類:

普通詞彙:詞往往描述了商品的類目、商品的屬性等

類目詞/産品詞:這類詞基本可以直接判斷商品所在的類目

性别年齡詞:對于與性别相關的類目(男裝、女裝、男鞋、女鞋),與年齡相關的類目(童裝、童鞋、孕婦裝)等非常有幫助

品牌詞、型号詞、系列詞、貨号詞:對于3C類目和一些知名品牌的商品分類有幫助

停用詞:去掉一些無用的标點、服務詞、促銷詞等

這些特征有些從商品的标題、面包屑中直接提取,有些需要從商品的屬性或者描述中提取。

以上特征直接從商品中直接獲取,還有一些知識可以從其他來源獲取。

比如,商品的聚類知識:商品分類是一個有指導的機器學習和預測過程。

商品聚類是一個無指導的過程,通過聚類,可以将類目相似的商品聚類在一起,每個商品所在的聚類可以作為一種外部知識源,該知識源傾向将相同聚類的商品歸結為同一個類目。

(聚類是很常用很有用的方法,不管是推薦、數據挖掘、AI等都用到)

比如,Query的類目知識:也可以作為一種外部知識源。

在搜索系統中,query類目知識往往可以通過用戶對于query召回商品的點擊數據統計獲得,通過計算商品是否包含某些query或者與這些query的相似度來輔助商品類目預測,尤其對那些标題比較短的商品的類目預測有比較大的幫助。

(即依據搜索關鍵詞做預判)

最大熵與表征向量法比較而言,優點不言自明,分類效果有一個非常大的提升,相對于表征向量法,一級類目往往提升在10個百分點以上。但是模型訓練所消耗的時間往往很長,訓練一個50類的分類器,一台計算能力非常強的機器(24G)往往需要計算24小時。

另外,最大的問題是不能充分利用淘寶内網數據的威力,當前主要利用全局抽樣的策略來解決這個問題,抽樣得到的訓練樣本的分布合理性直接決定了分類的效果。

(4)直接關鍵詞匹配

對于某些類目的商品,淘寶上曆史已有的商品很少,比如面向海外賣家的英文商品和醫藥類商品,前者是去年才開始抓取的商品數據,後者是國家2012年才準許電商賣藥,商品比較少,決定了不能簡單利用模型來進行統計學習,為此,我們利用關鍵詞直接命中的方法來解決這些小衆類目的商品葉子類目分類問題。(當商品較少、入庫較少,可以考慮用這個策略)

(5)類目預測進階

1、先驗知識進模型,将品牌、貨号、型号、系列對于類目的先驗知識融合到預測模型中,改善由于訓練抽樣分布不合理帶來的問題;

(即有個正确的訓練集,最好是覆蓋面更全的數據訓練集,訓練出的模型會比較好用)

2、基于錯誤驅動的抽樣技術解決訓練抽樣分布不合理問題;

3、Query類目預測知識輔助商品類目預測。一些标題短的商品,利用;

4、基于模型的預測,效果比較差,利用query類目預測知識反而效果會比較好,通過計算title也query的相似度,用相似query的類目來拟合商品的類。

5、利用商品聚類特征改善類目預測

PS:名詞解釋

面包屑:外網商品對商品類目層次的描述文字,比如“服裝鞋帽->男裝->polo衫”

葉子類目:淘寶後台類目結構中最後一層類目,比如“書籍/雜志/報紙->計算機/網絡->程序設計->C語言”,“C語言”是“書籍/雜志/報紙”類目下的葉子類目。

,
Comments
Welcome to tft每日頭條 comments! Please keep conversations courteous and on-topic. To fosterproductive and respectful conversations, you may see comments from our Community Managers.
Sign up to post
Sort by
Show More Comments
Copyright 2023-2024 - www.tftnews.com All Rights Reserved