關聯分析的過程和步驟?

關聯分析的過程和步驟?古古惑惑2021-06-23 09:59:13

一、關聯分析的基本概念

關聯分析(Association Analysis):在大規模資料集中尋找有趣的關係。

頻繁項集(Frequent Item Sets):經常出現在一塊的物品的集合。

關聯規則(Association Rules):暗示兩個物品之間可能存在很強的關係。

支援度(Support):資料集中包含該項集的記錄所佔的比例,是針對項集來說的。

例子:豆奶,橙汁,尿布和啤酒是超市中的商品。

下表呈現每筆交易以及顧客所買的商品:

由此可見,總記錄數為5,下面求每項集的支援度(以下並沒有列出全部的支援度)。

{豆奶} :支援度為3/5。

{橙汁}:支援度為3/5。

{尿布}:支援度為3/5。

{啤酒}:支援度為4/5。

{啤酒,尿布}:支援度為3/5。

{橙汁,豆奶,啤酒}:支援度為2/5。

置信度(Confidence):出現某些物品時,另外一些物品必定出現的機率,針對規則而言。

規則1:{尿布}——>{啤酒},表示在出現尿布的時候,同時出現啤酒的機率。

該條規則的置信度被定義為:支援度{尿布,啤酒}/支援度{尿布}=(3/5)/(3/5)=3/3=1

規則2:{啤酒}——>{尿布},表示在出現啤酒的時候,同時出現尿布的機率。

該條規則的置信度被定義為:支援度{尿布,啤酒}/支援度{啤酒}=(3/5)/(4/5)=3/4

二、關聯分析步驟

1。 發現頻繁項集,即計算所有可能組合數的支援度,找出不少於人為設定的最小支援度的集合。

2。 發現關聯規則,即計算不小於人為設定的最小支援度的集合的置信度,找到不小於認為設定的最小置信度規則。

例子:豆奶,橙汁,尿布和啤酒是超市中的商品,併為其編號,豆奶0,橙汁1,尿布2,啤酒3。

可能集合數:

可能組合的個數:C4,1+C4,2+C4,3+C4,4=4+6+4+1=15種

快速計算公式:2^n-1=2^4-1=15種

步驟一:發現頻繁項集

此時,人為設定最小支援度為2/5。 以下塗黃色為大於2/5的集合。

由此找到頻繁項集。

步驟二:發現關聯規則

此時,人為設定最小置信度為3/4。 塗黃色的為大於等於3/4,塗橙色的為小於3/4。