目的

限電警戒！全台用電量持續上升！

全臺／夏至熱呼呼！　尖峰用電創史上第二高(20160622)，由於實際備轉容量為126.4萬瓩，備轉容量率僅3.59％，台電也亮起了象徵「供電警戒」的橘燈。而用來衡量電力系統供電可靠度之指標–備轉容量率，代表著全台已達限電警戒橘燈的標準。雖然經濟部長李世光曾經說過「兩年不缺電」，但近期他改口表示，供電的確吃緊；至於今夏能否保證不跳電，他也不承諾，只說：「全世界的工程沒有百分之百。」。李世光上任前，在5月初拜會工商團體時曾表示，今、明兩年都不會有缺電問題；但今天再被問及相同議題，未再對不缺電掛保證。對於電價議題，李世光也改口說：「基本民生電價沒有要漲價。」一改過去「基本度數以下」不漲價的說法。李世光指出，依照現行法規，10月才會調整電價，目前沒有調整規劃。

非核家園？

在全台用電量不斷上升、即將面臨限電的情況下，國人的生活、工作環境勢必受到極大的影響。新政府於2016年5月20日正式走馬上任，在電力政策上提出了「2025年達成非核家園」的政見，計畫中指出政府希望透過尋找替代能源、提升發電效率、節約能源、產業結構調整和電業自由化，來達到台灣於2025年可以不再依賴核能發電，並且核ㄧ、核二、核三廠可以如期除役。但是，為了解決用電量的問題，行政院表示「不排除重啟核一」，引發外界質疑政府的「非核家園」主張，用電量攀升也產生了許多社會議題的討論。無核家園都是國人共同期待的美好環境。為了達成此願景，節電、火電、綠電是達成非核家園的三條路徑，三路並進補足核電缺口及滿足需求成長，其中節電是最重要策略。

節電？從何節起？

節電的首要目標對象是用電大戶。目前已知的用電大戶不外乎：政府機關、公營事業、大專院校，政府已有許多具有強制能力的法規可以針對用電大戶限電。經長：真要限電，將先從工業大戶開始，盡量不動民生用電，對於用電大戶，如工業用電，已有很完善的限電措施。那麼民生用電呢？民生用電的節電通常都是以宣導的方式，希望國人可以減少民生用電。但是，未必每個地區的用電量狀況皆會一致，勢必會有某些地區用電量較高、其他地區的用電量較低的狀況，未必每個地方都需要加強宣導節電的概念。而過去已有相關的研究針對台灣鄉鎮區用電情況進行了解。發現到，如：前20名鄉鎮區主要集中在中南部，其中高雄前金區和新興區分居第1、2名，臺南市和臺中市也有多座鄉鎮區榜上有名。對於一般民眾來說，我們能貢獻的部分只有「節約能源」，故了解台灣整體的用電狀況為首要之急，透過統計上的方法將村里分群，在將各群的用電輪廓描繪出來，進一步推論並比較其用電量高低的原因為何。

那我們到底要來分析什麼？

過去的研究大多著重在 地區與用電量的關係 ，找出用電量高的地方。而本專案想要帶領大家一起深入研究： 用電量與人口特性的關係 ，針對台北市地區深入研究，找出用電量高的村里具有什麼樣的人口特性？你是否剛好符合這些人口特性呢？你瞭解台北市各鄉鎮各村里的用電概況嗎？我們又該如何對台北市的各個村里的用電做出有效的評估？是不是有隱藏了不為人知的現象影響著台北市的用電量？是否台北市各個角落有著特別的用電群體，並且自成一格的存在於整個大台北地區而不被發現呢？
此次分析將針對這些相關議題，且使用政府開放資料做實際的分析與探索。此研究較具有挑戰的地方在於 需要整合不同面向的資料來源 (如：經濟、人口、住宅…等等)，激盪出各方資料的火花，促進社會公益，提供民生用電限電的對象之參考依據與用電量有關的人口特性。

參考文獻：
- 李安妮、侯仁義、柯亮群（2010），能源消費及節能意識之性別差異分析，中華民國能源經濟學會CAEE

資料收集與清理

整理有關人口特性相關的Open Data，將以下不同來源的資料按照村里進行串檔(JOIN)：

Note 1: 因為資料的時間涵蓋範圍不同，本研究取2014年進行分析(除所得資料未涵蓋，其他皆有）。

Note 2: 因各村里綜合所得稅總和僅有2012年份的資料，假設2012年與2014年個村裡綜合所得表現一致進行推估，與其他資料進行串檔。

Note 3: 各村里教育程度資料僅有年資料，雖然沒有月資料，但教育程度不會因為月份不同而有太大的改變，因此我們將2012教育程度年資料作為月資料的推估。

Note 4: 台電電力資料記錄住商混合用電量，期待未來台電能釋出住宅用電量的相關資料。

資料長相

用電量資料取自104年7~8月（因需與其他資料來源年份對齊）
與電力相關的指標
- 經濟能力：綜合所得中位數_log
- 平均教育程度：教育程度（非義務教育就讀幾年，碩博設六年、大學設四年）
- 有偶比例：婚姻狀態（有偶人數/青年以上人數）
- 性別比：女性人數/男性人數
- 老人比例：扶老比_log（60歲以上的人口數/20~60歲人口數） 60up/(20~60)
- 用電量多寡：每戶平均用電量_log（取Log為解決右偏資料進行[0,1]標準化所碰到的問題）

群集分析

Column

第1群

第2群

第3群

第4群

第5群

第6群

第7群

第8群

Summary

Column

分群結果

分群 vs 村里地圖在這裡找
 村里的各項指標資料在這裡找

第一群：高扶老比族群(銀髮族群)

根據雷達圖的指標顯示，這個族群同時具備了低於平均水平的所得、教育程度、有偶比、女男比，而具備了較高的扶老比，因此我們推測此族群為老年人口相對較多的區域。在其他指標中，低於平均水平的所得水準可能也受老年人口較多的影響，多數都已退休，使得整體平均所得相對拉低；又教育程度的可能原因為，這群老人家在求學階段的教育環境並無今日榮景，學校相對較少亦較競爭，並非人人都有機會唸書；有偶比與女男比較低的狀況可能為該地區多為單身男性。對於這樣的族群輪廓，顯示出其用電量相對低於平均用電量，我們推論可能原因為老人家的節儉觀念，使得其對於許多高耗電量的家電用品依賴性相對較低，例如：為了節省電費以電扇代替冷氣等。

分布於何處？

北投區大屯里、泉源里、湖山里等，士林區洲美里、平等里、溪山里等，大同區臨江里、國順里等，萬華區忠勤里、忠德里、榮德里等，信義區黎安里等分布於此群中。臺北市最老的社區 – 南機場社區座落於萬華區忠勤里南機場夜市旁，南機場社區約有6000多位居民，其中65歲以上的老年人口約有1500位，相對於夜晚人聲鼎沸的南機場夜市，夜市旁的國宅公寓，居住了上百位孤苦無依的獨居老人，生活資源的匱乏，尚待政府制定相對因應的政策，來迎接這高齡化社會所帶來影響甚巨的負面影響。在此群中，北投區與士林區的里多數座落於大屯山周圍，此處非位於都市核心地區，學區亦非明星學區，因此可能致使老年人口比例相對較高。萬華區亦有數個里位於此群中，萬華區多老舊公寓國宅，且根據政府統計，萬華區為臺北市十二個行政區中人口老化指數最高的區，根據統計，萬華區102年底的老年人口比率為15.67%，約有3萬312人，儘管老年人的人口數還略輸大安區，但「人口老化指數」卻高達133.06%，在老人多、幼童少的狀況之下，仍是台北市最老的行政區。資料來源

第二群：已婚之高收入知識份子族群

根據分群結果顯示：第二群的指標特色主要以高教育程度、高所得、高有偶比等特徵為主，雖然用電量高於平均但並沒有明顯地突出，其與第三群輪廓相似，唯一顯著不同的地方在於其扶老比較低，故我們將此一族群推測為扶養壓力較小且教育程度高的已婚高收入知識份子族群。

分布於何處？

此群主要分布以內湖區為主，包含大湖里、三重里、南湖里、金湖里，以及文山區的政大里，而該群在內湖區的分布緊依內湖科技園區，許多人才與經濟能力較佳的家庭多居住於該地區，且特性為扶老比低。內湖區為台北市中居住環境相對較佳的地帶，而文山區政大里為一明星學區，包括國立政治大學、政大附中等，許多教授、行政人員與公務人員多居住於附近。該群收入普遍較為豐厚，地點座落於一般住宅地區，非位於商辦地帶或繁華鬧區，其用電量高於平均。

第三群 : 高知識份子小康家庭族群

顧名思義，此族群特色在於其所得、教育程度皆明顯高於臺北市整體的平均指數。同時，些微高於平均的扶老比指數，亦可以凸顯這個族群有較高的能力去照顧家中的長輩。

分布於何處？

這個族群主要士林區翠山里、松山區精忠里、信義區新仁里、半個大安區與中正區南門里。

松山區精忠里，為全台灣最有錢的里，信義區新仁里及大安區等都是台北市生活品質與水準較高的村里，又士林區翠山里隸屬臺北市士林區轄治，位於外雙溪東方，大崙尾山山腰，面積1.6092平方公里，社區傍溪依山興建，風景秀麗，林木蓊鬱蒼翠，蟲吟蝶舞，綠意盎然，面對陽明山之秀峰，岡巒起伏，騁目遠眺，視野廣闊，大崙山區有豐富之自然動植物生態資源，一年四季各有特色，鄰近風景名勝甚多，中央社區係於民國62年(公元1973年)由行政院人事行政局開發興建，配售予中央政府各部會及國立大學公教人數居住，現均已退休多年，居民教育水準甚高，均為大學或專科以上程度，高普考試及格之公務人員。(資料來源：臺北市士林區翠山里辦公處)；聚集眾多高知識份子的士林區翠山里，其中包含至善國中、衛理女中、東吳大學等學校。根據分析結果顯示，此群的用電量高於台北市整體平均用電，此指在臺北市各個生活品質高、教育機能亦不錯的地區有著高於平均的用電量？一般而言，高知識份子相對於社會議題會較關注，但在用電量上無法獲得佐證。

第四群：低收入單身男性族群

根據雷達圖，我們可以發現此群特色為男性比例稍高於女性、教育程度與所得相對低於平均水準，且單身的比例亦相對較高，扶老比落於整體平均值。此群的用電量低於北市平均，此群多分布在台北市較外圍行政區的縣市邊界上，房價相對台北市市中心地區稍微低一些，是所得相對較低的族群可以負擔的價格，教育程度較低可能與人口結構關聯性較高，扶老比落於整體平均水準，顯示老年人口在此群仍佔有一定比例，可能使得教育程度整體平均被些微下拉。相較於第一群的整體輪廓而言非常類似，但扶老比相對較低可能為影響戶均用電量相較稍高一些的原因之一。

分布於何處？萬華區錦德里、華中里等，士林區社子里、葫蘆里等，大同區老師里、蓬萊里等，南港區舊莊里等皆落於此群中。萬華區為台北市老化指數最高的地區，與第一群的狀況類似，老年人口普遍生活節儉，故用電量相對較沒這麼高。社子島所涵蓋的里亦落於此群中，社子島是一個天然生成的滯洪區，又因區域發展、地方建設等因素，被劃定為農業或綠地用地不得做任何都市發展計劃之用，加上基隆河截彎取直的防洪整治工程完工與高速公路的興建，社子島的地方發展也明顯有了堤內與堤外地區的分野和落差(資料來源：林素雯（2009）。社子島：社區？社群？還是地方社會？。東吳大學人文社會學院第26屆系際學術研討會 )。如今社子島 95% 的房子都是違建，且蓋到五樓就是「最高地標」；不僅如此，社子島上多是因禁建而缺水、缺電的住戶，留下來的居民幾乎都是弱勢。資料來源，此特色亦反映再分群雷達圖中：教育程度與所得相對較低。

第五群：單身小資女族群

此群特色在於所得相對較低與女男比與用電量相較高，並且有偶比例低於台北市平均，故我們將其定義為單身小資女。而由分析結果指出，此族群對於用電的使用量高於整體平均，在相關文獻指出，女性對居家設備及家電的使用性依賴性高且喜愛烹煮食物(經濟部文章已有實證此現象)。

分布於何處？

此族群分布於台北市中山區中，中山北路一段至三段的周圍鄰里，為一住商混合區，包含圓山里、晴光里、聚盛里等。由於台電的用電量資料為住商混合資料，中山北路沿路上有許多商辦大樓，故此群用電量較高可能與其有關。此一區域的戶籍人口資料顯示女性多於男性，由於目前已有文獻證實，女性對於家電依賴性高於男性，又單身人數較多且收入相對較低，小資女們往往為了節省開銷而選擇自己開伙，且多數家電皆為高耗電量用品，使得此群的用電量相對其他群為最高。

分群比較

原始資料型態

   統計年月   縣市     行政區域 售電量度數 教育程度總計 大學以上比例
1:    10401 臺北市 北投區八仙里    1106675         4988       0.0910
2:    10401 臺北市 北投區大同里    1187859         5492       0.0954
3:    10401 臺北市 北投區大屯里     370339         1105       0.0588
4:    10401 臺北市 北投區稻香里    1036080         4719       0.0799
5:    10401 臺北市 北投區東華里     879960         4005       0.1134
6:    10401 臺北市 北投區豐年里     650055         4097       0.0588
   大學比例 大學以下比例 納稅單位 綜合所得總額 綜合所得中位數 綜合所得IQR
1:   0.3031       0.6059     1768      1860333            647         874
2:   0.2930       0.6116     1934      2110861            649         919
3:   0.2045       0.7367      346       498508            570         726
4:   0.2823       0.6378     1579      1461138            629         756
5:   0.3144       0.5723     1455      1568597            688         934
6:   0.2670       0.6742     1399      1152844            604         724
   戶數 總人數 女性比例 男性比例 少年人口比例 青年人口比例 壯年人口比例
1: 2116   5757   0.5107   0.4893       0.2024       0.3054       0.3808
2: 2344   6286   0.5033   0.4967       0.2068       0.3016       0.3791
3:  425   1246   0.4751   0.5249       0.1790       0.2978       0.3756
4: 2040   5306   0.4964   0.5038       0.1813       0.3166       0.3830
5: 1622   4756   0.5290   0.4710       0.2183       0.2843       0.3810
6: 1706   4933   0.5149   0.4853       0.2303       0.3205       0.3353
   老年人口比例 出生數 出生數.男 出生數.女 結婚對數 離婚對數 設有戶籍宅數
1:       0.1115     16         9         7        8        4         1519
2:       0.1125     10         5         5        6        1         1784
3:       0.1477      4         2         2        4        0          287
4:       0.1191     14         4        10        5        0         1623
5:       0.1165      6         3         3        4        0         1171
6:       0.1139     15         7         8        7        2         1180
   設有戶籍宅數之平均人口數 單身或頂客家庭 核心家庭 折衷或大家庭 總戶長數
1:                     3.77            610      463          446     2112
2:                     3.53            736      565          483     2375
3:                     4.38            123       67           97      429
4:                     3.26            726      543          354     2043
5:                     4.01            376      421          374     1604
6:                     4.18            369      368          443     1712
   戶長平均年齡 少年戶長數 青年戶長數 壯年戶長數 老年戶長數
1:        54.05         33        581       1065        433
2:        54.25         52        636       1174        513
3:        58.14          5         74        218        132
4:        54.19         37        604        952        450
5:        55.71         18        394        832        360
6:        53.64         25        554        747        386
   每戶平均老年人口數 獨居老人宅數 一名老年人口宅數 二名以上老年人口宅數
1:               0.32           95               73                   22
2:               0.32          124               99                   25
3:               0.47           38               30                    8
4:               0.33          106               89                   17
5:               0.36           68               44                   24
6:               0.35           59               40                   19
   有偶人數 離婚人數 未婚人數 便利商店數 每戶平均用電度數 每人平均用電度數
1:     1329      249      333          0           523.00           192.23
2:     1477      258      404          0           506.77           188.97
3:      280       46       55          0           871.39           297.22
4:     1233      220      357          0           507.88           195.27
5:     1099      160      170          0           542.52           185.02
6:     1094      200      229          1           381.04           131.78

資料加工與指標定義

雷達圖堆疊

第5群(高) vs 第1群(低)

第一群與第五群用電量互有高低，我們從幾個顯著有差異的指標下去觀察發現，用電量較低的第一群男性比例較高，而用電量較高的第五群女性比例較高，在先前群集分析時已有介紹相關文獻對於女性用電量較高的相關研究，而銀髮族的節儉觀念亦可以推測該群用電量較低的原因。地點分布方面也可能為造成兩群用電量差異的原因，第一群的銀髮族群多分布在台北市與新北市交界的地區，例如：萬華區、北投區、士林區等，而第五群的小資女族群集中分佈在中山區，而中山區為台北市黃金地段之一，眾多的商辦大樓亦可能為導致該群用電量較高的因素之一。

第2群(高) vs 第1群(低)

已婚之高收入知識份子族群與高扶老比族群的比較可以明顯得到一個結論：內外分布明顯。台北市如同一顆心臟，而高扶老比族群多集中於北部，包括北投與士林地帶，或是最南邊的文山區老泉里。老泉里有一老泉養生休閒農場，而分群結果顯示出，該群的老年人口比例也確實較高，有許多溫泉的北投地區，具有較佳且步調相對較慢的生活環境，並且又保有便利的交通運輸系統，為老年人口普遍較聚集於此等地區的原因。已婚之高收入知識份子族群分布的地方相對於高扶老比族群，明顯以台北市中心地區為主，除了可以負擔較高的房價外，生活便利性較高且學區多明星學校可選擇亦為可能原因。用電量方面，由於老年人口生活較為節儉，且高收入的知識份子對於生活品質要求普遍較高，加上多座落於市中心地區，可能包含部分商辦地，使得用電量相對銀髮族群高。

第3群(高) Vs 第4群(低)

由高知識份子小康家庭族群與低收入男性單身族群地理位置比較可以發現，前者主要分布於大安區、信義區等市中心的區域，後者主要分布於南港、萬華與北投等地區。除了地理位置明顯不同之外，各種指標上亦有明顯差異，高知識份子小康家庭族群平均用電量高於低收入男性單身族群，教育程度也有明顯的差異，但以區域面積可以發現低收入男性單身族群分佈較廣泛。相對第二群扶老比較高的高知識份子小康家庭族群，可能由於多與長輩同住，導致每戶人數相對較多，使得戶均用電量亦有所提升，且位於市中心的分布狀況可能也包含了商辦地區，相對於分散在台北市外圍區域的低收入男性單身族群而言，對於用電的需求相對提升許多。

用電量地圖

分群地圖

結論與限制

這份分析有什麼特色？

本研究使用探索性資料分析(EDA)和分群方法做一個初步分析，針對北市各村里的用電量與人口特性做分群，根據各種不同的指標將台北市各村里定義為各種不同的集群，觀察與用電量之間的關聯。相較於過去文獻與報導大多以各地區電量高低的分析做報導，而本研究嘗試從人口特徵做出發，探究與用電量之間的關係。此外，亦使用統計分群方法針對不同輪廓的族群給予名稱，或許可協助政府在制定政策或幫助社會大眾更深一層了解北市的電力概況，以不同的角度去看台北市的電力分析。

我們發現了什麼？

台北市如同一顆心臟，內外分布明顯

外部用電量相較低：高扶老比族群多集中於北部北投與士林地帶、最南邊文山區老泉里、西邊萬華區，老年人口生活較為節儉，如：群一：高扶老比族群。內部用電量相較高：對於生活品質要求普遍較高，加上多座落於市中心地區，可能包含部分商辦地的用電，使得用電量相對銀髮族群高，如：群二、三。

台北市女性比例較高的村里普遍用電量較高

過去有相關文獻指出女性用電量較高，與本次分析所呈現的趨勢一致，而第五群的小資女族群集中分佈在中山區，而中山區為台北市黃金地段之一，眾多的商辦大樓亦可能為導致該群用電量較高的因素之一。

用電大戶坐落於市中心、士林北投山區、內湖區元湖里

市中心有許多商業辦公大樓，內湖元湖里有Costco、hola、家樂福、大潤發、特力屋等量販店，用電量高非常可能是因為資料為住商混合用電量所導致。期待未來台電提供住商分離的用電量資料，提供本研究進一步驗證，用電量高是否與此區的人口特性有所關連。

有趣的族群輪廓

屬於用電量高的群體(高於平均)：
　- 已婚之高收入知識份子族群
　- 高知識份子小康家庭族群
　- 單身小資女族群

已婚之高收入知識份子族群：

根據分群結果顯示：第二群的指標特色主要以高教育程度、高所得、高有偶比等特徵為主，用電量高於平均，其與第三群輪廓相似，唯一顯著不同的地方在於其扶老比較低，故我們將此一族群推測為扶養壓力較小且教育程度高的已婚高收入知識份子族群。此群主要分布以內湖區為主，該群在內湖區的分布緊依內湖科技園區，許多人才與經濟能力較佳的家庭多居住於該地區，收入普遍較為豐厚，地點座落於一般住宅地區，非位於商辦地帶或繁華鬧區，用電量高於平均但與整體台北市平均。

高知識份子小康家庭族群：

此族群主要位於士林區翠山里、松山區精忠里、信義區新仁里、半個大安區與中正區南門里，特色在於其所得、教育程度皆明顯高於臺北市整體的平均指數。同時，些微高於平均的扶老比指數，亦可以凸顯這個族群有較高的能力去照顧家中的長輩。松山區精忠里，為全台灣[最有錢的里]，信義區新仁里及大安區等都是台北市生活品質與水準較高的村里，此群的用電量高於台北市整體平均用電，此指在臺北市各個生活品質高、教育機能亦不錯的地區有著高於平均的用電量？一般而言，高知識份子相對於社會議題會較關注，但在用電量上無法獲得佐證。

單身小資女族群

此族群分布於台北市中山區中，中山北路一段至三段的周圍鄰里，中山北路沿路上有許多商辦大樓，故此群用電量較高可能與其有關。此一區域的戶籍人口資料顯示女性多於男性，由於目前已有文獻證實，女性對於家電依賴性高於男性，又單身人數較多且收入相對較低，小資女們往往為了節省開銷而選擇自己開伙，且多數家電皆為高耗電量用品，使得此群的用電量相對其他群為最高。

本文經由相關性分析發現，高知識份子小康家庭族群在女性越多的情況下與用電量的相關性越高，然而若有偶比例越高與用電量的關係則越趨下降，而在綜合所得與平均教育越高時與用電量的相關性亦呈現下降趨勢，在現今社會中，性別與用電量存在著關聯性，但若教育程度越高且所得也越高，則更能約束用電量的狀況，本文僅討論相關性，也希望能為未來的台灣社會盡一份力。

資料限制

電力資料：台電電力資料所記錄的用電量為住商混合用電量，無法清楚區隔在不同地區兩者間的差異大小。電力資料為月資料，但某些里在部分月份的用電量記錄為零，可能原因為目前台灣的電費計價方式為以雙月為單位，故必須將資料進行月份間的合併，才能較為確切的估算用電量狀況。

經濟資料：各村里綜合所得稅總和僅有2012年份的資料，本專案為了考量該村里的所得狀況，假設2012年與2014年個村裡綜合所得表現一致，進行推估。

教育程度資料：各村里教育程度資料僅有年資料，雖然沒有月資料，但教育程度不會因為月份不同而有太大的改變，因此我們將2012年的教育程度年資料作為月資料的推估。

研究時間為何選擇2014？

因不同資料的時間區間不相同，僅能擷取交集的部份進行分析，因2014年涵蓋最多資料，因此選擇2014年進行分析。

研究月份為何選擇7、8月？

因為7、8月長期以來為用電尖峰，電力短缺的問題在這時也較容易發生。在專案研究時間有限的情況下(辛苦的碩士生被指導教授追殺)，僅針對最急迫的月份著手分析。

為何選擇台北市？

我們所使用的人口相關資料為取自於政府所公布之戶籍統計資料，戶籍人口可能存在著籍在人不在的問題，由於台北市無論在就業機會與資訊發達的程度皆高，人才相對其他縣市更集中，故我們認為籍在人不在的問題影響力可以降到最低，故在現階段可以取得的有限資料下，我們選擇台北市作為首要分析的地區。

心得

Column

Lin心得碎碎念

首先非常感謝DSP Data Lab這個專案，提供我們以Open Data進行資料科學實戰分析，以資料力關心及貢獻今年的熱門議題。第一次用Open Data進行分析，吃了很多閉門羹，在這邊將心路歷程簡單地分享給各位：

資料收集：

在捲起袖子進行分析之前，首先，我們必須瞭解需要什麼資料？而通常這個問題的答案來自於研究問題本身。以本專案為例，希望找出用電量與人口特性之間的關聯，與用電量可能有關的包含：教育程度、經濟、人口結構等。接著，在針對這些人口特性去請教Google大神資料來源！若問題的定義不明確，很容易不清楚需要什麼資料、資料能夠回答什麼問題、甚至是用錯誤的資料來回答問題。

資料清理：

資料清理上對於我來說不算太大的障礙。碩士班的研究使用的資料是全民健保資料庫，其特色除了又大又髒外、還是髒！兩年下來除了獲得碩士學位外，考到資料黑手的證照都不是問題了哈哈！回來正題，資料清理與整併大概僅花了我們40%的時間，簡單分享一個踩過地雷給大家：若以村里名稱作為合併的Key，需要特別小心中文字！(如：台北市萬華區的糖部里)，其餘的都只是很Tricky的清理方式了！

資料分析：分群方法的限制

在使用統計方法前，EDA是非常重要的一個前置作業，EDA能使我們更加瞭解資料的輪廓。K-Means是分群方法中較簡單又容易理解，但是天下沒有白吃的午餐，K命斯也有致命傷。如：K-Means是以平方和計算距離，因此對於資料中的Outlier非常敏感，為了解決這個問題，我們嘗試使用Density-based Spatial Clustering，但此方法應用至此資料的分群結果並不理想(群與群之間的資料筆數差異過大)。最後解決的方法是，對每個變數做EDA，觀察分布情形，在針對右偏的變數取Log，降低Outlier的影響。

資料視覺化：

找到適合的圖表、呈現方式，表達資訊給讀者也是一門學位。如果想要呈現的是空間上的分佈，如：各村里用電量，可以利用Cartodb來繪製。如果想要表達分群後在各個面向上的輪廓差異，可以使用以雷達圖的方式呈現，但維度不能過高(建議不要超過六個)，否則會造成資訊過於雜亂的狀況。如果想要呈現兩個維度之間的關聯性，散佈圖加上線性迴歸線是一個不錯的選擇，若要在加上第三個維度，可以選擇用顏色進行表示，但也要小心資訊太雜亂的問題！

最後非常感謝我的好夥伴們，這份分析最大的功臣就是你們，GU、Alger辛苦的清理資料以外，還研究非常好用的Highcharter套件，很開心我們又再次合體了，除了一起被指導教授追殺論文外，還一起被Johnson與CK哥追殺Q_Q。

Alger心得碎碎念

大家好，我是楊崇甫，非常感謝你們耐心的閱讀這份台電專案分析，老大要求我們寫一篇心得文，於是我來說說這幾個月來的專案歷程。分析過程及步驟在Dashboard寫得很清楚，我就不多闡述了，在看完隊友寫的心得後，我想我應該也不用再多寫一些專業的東西，所以我就來分享一些在處理專案時的心得與歷程。

這個專案是在四月的時候開始的，每個禮拜固定會與我的偶像強森大大meeting，我們meeting時間是禮拜三的下午，我總是在禮拜二時瘋狂寫code或是執行任務(逃跑~)，那個時候同時是研討會論文發表的前期，所以真的是特別地轟炸，但是其實內心感到很愉悅，畢竟能同時面對那麼多重要的事情，而且從扛住到解決真的是一件很有成就感的事，也讓我成長許多。

在這個專案中，我們偶爾會私下開小組會議討論各種問題，例如：

統計方法的抉擇(分群方法到底要用k-means好還是……，要不要先做PCA啊？！)
資料清理的問題(奇怪我併完檔怎麼資料筆數暴增啊，我code是不是寫錯？！編碼有問題！！！Ｑ～Ｑ)
分析結果的解釋(ㄜ…這篇報導寫說哪個里最有錢欸，真的是這樣嗎？…好像跟我分析結果不太一樣…問題在哪…)
Dashboard的建立(我覺得這張圖顏色配得不好看，文章跟圖最好能對應同時切換…不然看的人會暈死過去…)等等……。

當然，還有面對大大們的追殺時要如何defense(哈哈哈哈，但是其實CK大一直很和善，我覺得真是一個好的前輩，而且每次看到能說出很多故事就覺得很佩服！)，強森大也是不斷端出很多新招，每次看到我就眼睛發亮，技術與分析上，他們給了我們很大的援助與方向。
最後，說一下我隊友，感謝我的隊友在各種時候carry包括技術、domain與defense，我個人負責的部分主要是整理資料與文章撰寫為主。其實在寫故事的過程中，有很多專欄與文章寫著不同卻又類似的主題，過濾這些文章並選擇可信及可參考的文獻又是另一層的訓練。我常常看到很多文章寫著我想參考的內容，但如何根據我的分析寫出合理的解釋，同時又不能有過多的猜測與推論是極為困難的，這個時候多多討論時唯一選擇吧。總之，謝謝DSP給我這個機會去參與這個專案，也感謝隊友們跟大大們的包容，用資料做公益這件事真的是非常的帥！

GU心得碎碎念

大家好，我是DSP Data Lab的昱霈，終於也將這份專案完成到一個段落，相信若有看到心得篇的您們，勢必已經完整瀏覽過我們的台電分析專案了，很開心出生在這個越來越重視open data的國家，第一次完整地利用台灣土生土長的open data分析，還可以與碩班兩年來最重要的戰友兼摯友們一起完美合作，也算是替我們的碩士生涯劃上一筆完美的句點。

首先，要非常萬分感謝DSP智庫驅動的Johnson大大與CK大大，若不是兩位大大願意給我們三個小朋友們這樣的機會，我們的作品或許不會這麼幸運的讓大家所看見，感謝大大們的信任，幾乎是完全放手的讓我們去玩，能認識這樣不吝於提攜後輩的前輩們，此生已無憾。每週一次的固定meeting，有Johnson大在統計domain上給我們的意見，還有CK大給我們許多creative thinking的想法，還有傳授我們說故事的能力，雖然在論文、ATCC以及其他各式各樣瑣事的多方夾擊下，通宵到天亮已經是家常便飯，感謝我們總是互相照應，以及無限默契。

不免俗來分享一下整個分析下來的心路歷程吧！我們在做資料分析時，大致的流程為資料蒐集、資料清理、探索性資料分析、統計分析、資料視覺化等，順序可能會穿插不定。我們這次在整個分析的流程中，每個階段都有或小或大的卡關；在資料蒐集時，因為是open data，尤其又台灣近幾年才慢慢開始重視並且累積我們在各領域的開放資料，第一個問題就會碰到「時間對不上」的狀況，簡言之，A資料可能包含了2007-2012年所有資料，但是B資料可能只有2010年的資料，抑或更慘的狀況還有C資料只有2014年的資料，相信不管是前輩大大們或是未來即將與我們一起徜徉資料科學領域的您們，都一定會碰到這個關卡，就是所謂的資料限制。我們的處理方式為：用合理的方式推估未知的年份資料，並且在做合併資料之前一定要將各個資料篩選自統一的年份才能進行整併，至於推估的方式不見得一定要用什麼很艱深的理論推估，其實只要合理並且說明清楚就好了。

資料清理在我們這次的分析流程中沒有碰到太大的難關，可能因為資料的複雜度沒有像實價登錄資料那般的複雜，在合併年度以及推估的過程中有特別討論一下，以及在整理電力資料的時候，發現了電力資料的記錄雖然為月資料，但是卻有許多里在某些月份沒有任何的用電量，就常理而言是不可能的，於是我們探究了台灣在電費繳交的狀況，電費為雙月為單位繳交，若把用電量依照這樣的邏輯雙月進行加總，這個問題就迎刃而解了，這讓我們也意識到在做分析的時候，domain knowlege真的非常重要，倘若沒有去研究該領域的背景知識，只是單純的data-driven，一定會在最後結果解釋上出現非常大的問題，內行人看門道，一看你就倒；這裡還要特別分享一下中文字讓人又愛又恨的地方，我很喜歡中文字相較於英文字母，因為中文字很美，但是每每在分析的時候，常常壓垮駱駝的最後一根稻草都是中文字這個大魔王，例如：群與羣，相信大家看到我舉這個例子一定可以馬上理解我們的無奈，在統一台北市各里的里名稱花了一點點時間，好險台北市里名稱難字不算太多。

再來就進入到資料分析的部分了，要運用什麼樣的統計方法也是讓我們困擾一陣子，每個方法都有每個方法使用的限制與條件，以及可能會因為什麼狀況導致分析結果會不太優美，所以建議大家在使用統計方法時，一定記得先了解該方法的使用限制跟條件。最後是資料視覺化的部分，我們有資料視覺化的大師們，所以在這塊沒有碰到太多的關卡，這裡就不得不強力推薦R這個很強大的軟體，視覺化功力真的很強大，如果大家有興趣可以好好鑽研幾個常用的畫圖packages。

最後要再次感謝所以提攜過我們的大大們，Wush大、Johnson大、Rafe大、CK大、懷中大，還有DSP的婉如姐跟資科助教，希望用更多人可以加入一起用資料做公益！

Sidebar

(建議使用Chrome瀏覽器)

Hi All :

我們是一群熱愛資料分析與統計方法的團隊。投入資料科學領域，參與社會公益是我們的願景，希望台灣會有更好的未來。

若對此分析有任何建議，期望各界高手能夠提供寶貴的意見或是相關的資料給我們，一起創造資料價值。

「台北市電力使用分析」是我們參加 DSP智庫驅動 Data Labs所執行的資料分析專案。若有任何問題歡迎聯繫我們！

共同作者簡介:

---
title: "北市電力分析"
output: 
  flexdashboard::flex_dashboard:
    source_code: embed
---

```{r setup, include=FALSE}
library(flexdashboard)
library(data.table)
library(dplyr)
library(tidyr)
library(stringr)
library(DT)
library(ggthemes)
library(ggplot2)
library(plotly)
library(highcharter)
c("#A6CEE3","#1F78B4","#B2DF8A","#33A02C","#FB9A99","#E31A1C","#FDBF6F","#FF7F00","#CAB2D6","#6A3D9A") -> col.raw
cbind(grDevices::col2rgb(col.raw),3) -> col
data_cluster <- fread('./20160613_data_cluster.csv')
radar.data <- read.csv('./20160613_Radar_plot.csv') %>% 
  mutate_each(funs(round(.,digits=2)),-index) 
radar.data$mean <- rowMeans(radar.data[,-1])
data <- fread('iconv -f big5 -t utf8 ./20160426_data.csv')
```


目的 {#motivation-and-goal }
======

 限電警戒！全台用電量持續上升！ 



[全臺／夏至熱呼呼！　尖峰用電創史上第二高(20160622)](http://times-bignews.com/content.php?t=39051#)，由於實際備轉容量為126.4萬瓩，備轉容量率僅3.59％，台電也亮起了象徵「供電警戒」的橘燈。而用來衡量電力系統供電可靠度之指標--[備轉容量率](http://www.taipower.com.tw/content/new_info/new_info-c33.aspx?LinkID=13)，代表著全台已達限電警戒橘燈的標準。雖然經濟部長李世光曾經說過[「兩年不缺電」](http://udn.com/news/story/1/1731217-%E4%B8%8D%E7%BC%BA%E9%9B%BB%E6%B2%92%E6%BB%BF%E6%9C%88%E5%B0%B1%E6%94%B9%E5%8F%A3-%E6%A0%B8%E7%B5%82%E6%88%B0%E7%A5%9E%E8%A6%81%E6%9D%8E%E4%B8%96%E5%85%89%E7%9F%A5%E6%89%80%E9%80%B2%E9%80%80)，但近期他改口表示，供電的確吃緊；至於今夏能否保證不跳電，他也不承諾，只說：「全世界的工程沒有百分之百。」。李世光上任前，在5月初拜會工商團體時曾表示，今、明兩年都不會有缺電問題；但今天再被問及相同議題，未再對不缺電掛保證。對於電價議題，李世光也改口說：「基本民生電價沒有要漲價。」一改過去「基本度數以下」不漲價的說法。李世光指出，依照現行法規，10月才會調整電價，目前沒有調整規劃。


 非核家園？ 



在全台用電量不斷上升、即將面臨限電的情況下，國人的生活、工作環境勢必受到極大的影響。新政府於2016年5月20日正式走馬上任，在電力政策上提出了「2025年達成非核家園」的政見，計畫中指出政府希望透過尋找替代能源、提升發電效率、節約能源、產業結構調整和電業自由化，來達到台灣於2025年可以不再依賴核能發電，並且核ㄧ、核二、核三廠可以如期除役。但是，為了解決用電量的問題，行政院表示「不排除重啟核一」，引發外界質疑政府的「非核家園」主張，用電量攀升也產生了許多社會議題的討論。無核家園都是國人共同期待的美好環境。為了達成此願景，[節電、火電、綠電是達成非核家園的三條路徑](http://news.ltn.com.tw/news/politics/paper/999816)，三路並進補足核電缺口及滿足需求成長，其中節電是最重要策略。


 節電？從何節起？ 


節電的首要目標對象是用電大戶。目前已知的用電大戶不外乎：政府機關、公營事業、大專院校，政府已有許多具有[強制能力的法規](http://www.rootlaw.com.tw/LawContent.aspx?LawID=A040100150001900-0951229)可以針對用電大戶限電。[經長：真要限電，將先從工業大戶開始，盡量不動民生用電](http://www.thenewslens.com/article/15447)，對於用電大戶，如工業用電，已有很完善的限電措施。那麼民生用電呢？民生用電的節電通常都是以宣導的方式，希望國人可以減少民生用電。但是，未必每個地區的用電量狀況皆會一致，勢必會有某些地區用電量較高、其他地區的用電量較低的狀況，未必每個地方都需要加強宣導節電的概念。而過去已有相關的研究針對 [台灣鄉鎮區用電情況](http://www.thenewslens.com/article/21324) 進行了解。發現到，如：前20名鄉鎮區主要集中在中南部，其中高雄前金區和新興區分居第1、2名，臺南市和臺中市也有多座鄉鎮區榜上有名。對於一般民眾來說，我們能貢獻的部分只有「節約能源」，故了解台灣整體的用電狀況為首要之急，透過統計上的方法將村里分群，在將各群的用電輪廓描繪出來，進一步推論並比較其用電量高低的原因為何。


 那我們到底要來分析什麼？ 



過去的研究大多著重在 __地區與用電量的關係__ ，找出用電量高的地方。而本專案想要帶領大家一起深入研究： __用電量與人口特性的關係__ ，針對台北市地區深入研究，找出用電量高的村里具有什麼樣的人口特性？你是否剛好符合這些人口特性呢？你瞭解台北市各鄉鎮各村里的用電概況嗎？我們又該如何對台北市的各個村里的用電做出有效的評估？是不是有隱藏了不為人知的現象影響著台北市的用電量？是否台北市各個角落有著特別的用電群體，並且自成一格的存在於整個大台北地區而不被發現呢？

此次分析將針對這些相關議題，且使用政府開放資料做實際的分析與探索。此研究較具有挑戰的地方在於 __需要整合不同面向的資料來源__ (如：經濟、人口、住宅...等等)，激盪出各方資料的火花，促進社會公益，提供民生用電限電的對象之參考依據與用電量有關的人口特性。




- 參考文獻：
    - 李安妮、侯仁義、柯亮群（2010），能源消費及節能意識之性別差異分析，中華民國能源經濟學會CAEE


資料收集與清理 {#data}
========


整理有關人口特性相關的Open Data，將以下不同來源的資料按照村里進行串檔(JOIN)：

- [台電電力資料](http://www.taipower.com.tw/content/announcement/ann01.aspx)
- [各村里綜合所得稅所得總額](http://data.gov.tw/node/17983)
- [各村里戶籍人口統計月報表](http://data.gov.tw/node/8411)
- [各村里教育程度資料](http://data.gov.tw/node/8409)


Note 1: 因為資料的時間涵蓋範圍不同，本研究取2014年進行分析(除所得資料未涵蓋，其他皆有）。

Note 2: 因各村里綜合所得稅總和僅有2012年份的資料，假設2012年與2014年個村裡綜合所得表現一致進行推估，與其他資料進行串檔。

Note 3: 各村里教育程度資料僅有年資料，雖然沒有月資料，但教育程度不會因為月份不同而有太大的改變，因此我們將2012教育程度年資料作為月資料的推估。

Note 4: 台電電力資料記錄住商混合用電量，期待未來台電能釋出住宅用電量的相關資料。


 [資料長相](#clustering) 

- 用電量資料取自104年7~8月（因需與其他資料來源年份對齊）
- 與電力相關的指標
    - 經濟能力：綜合所得中位數_log
    - 平均教育程度：教育程度（非義務教育就讀幾年，碩博設六年、大學設四年）
    - 有偶比例：婚姻狀態（有偶人數/青年以上人數）
    - 性別比：女性人數/男性人數
    - 老人比例：扶老比_log（60歲以上的人口數/20~60歲人口數） 60up/(20~60)
    - 用電量多寡：每戶平均用電量_log（取Log為解決右偏資料進行[0,1]標準化所碰到的問題）

-  

-  


群集分析 {#preliminary}
=======

Column {.tabset .tabset-fade}
-------------------------------------


### 第1群

```{r}
radar.name <- radar.data$index
highchart() %>% 
  hc_chart(polar = TRUE, type = "line") %>% 
  hc_title(text = "第1群 : 高扶老比族群(銀髮族群)") %>% 
  hc_xAxis(categories = radar.name,
           tickmarkPlacement = 'on',
           lineWidth = 0) %>% 
  hc_yAxis(gridLineInterpolation = 'polygon',
           lineWidth = 0,
           min = 0, max = 1) %>% 
  hc_series(
    list(
      name = "第1群 - 高扶老比族群(銀髮族群)",
      data = radar.data[,c(2)],
      pointPlacement = 'on',color=col.raw[1]),
    list(
      name = "各群平均",
      data = radar.data[,c(10)],
      pointPlacement = 'on',color='#474747')
    )
```

### 第2群

```{r}
highchart() %>% 
  hc_chart(polar = TRUE, type = "line") %>% 
  hc_title(text = "第2群：已婚之高收入知識份子族群") %>% 
  hc_xAxis(categories = radar.name,
           tickmarkPlacement = 'on',
           lineWidth = 0) %>% 
  hc_yAxis(gridLineInterpolation = 'polygon',
           lineWidth = 0,
           min = 0, max = 1) %>% 
  hc_series(
    list(
      name = "第2群：已婚之高收入知識份子族群",
      data = radar.data[,c(3)],
      pointPlacement = 'on',color=col.raw[2]),
    list(
      name = "各群平均",
      data = radar.data[,c(10)],
      pointPlacement = 'on',color='#474747')
    )
```

### 第3群

```{r}
highchart() %>% 
  hc_chart(polar = TRUE, type = "line") %>% 
  hc_title(text = "第3群：高知識份子小康家庭族群") %>% 
  hc_xAxis(categories = radar.name,
           tickmarkPlacement = 'on',
           lineWidth = 0) %>% 
  hc_yAxis(gridLineInterpolation = 'polygon',
           lineWidth = 0,
           min = 0, max = 1) %>% 
  hc_series(
    list(
      name = "第3群：高知識份子小康家庭族群",
      data = radar.data[,c(4)],
      pointPlacement = 'on',color=col.raw[3]),
    list(
      name = "各群平均",
      data = radar.data[,c(10)],
      pointPlacement = 'on',color='#474747')
    )
```

### 第4群

```{r}
highchart() %>% 
  hc_chart(polar = TRUE, type = "line") %>% 
  hc_title(text = "第4群 : 低收入單身男性族群") %>% 
  hc_xAxis(categories = radar.name,
           tickmarkPlacement = 'on',
           lineWidth = 0) %>% 
  hc_yAxis(gridLineInterpolation = 'polygon',
           lineWidth = 0,
           min = 0, max = 1) %>% 
  hc_series(
    list(
      name = "第4群 : 低收入單身男性族群",
      data = radar.data[,c(5)],
      pointPlacement = 'on',color=col.raw[4]),
    list(
      name = "各群平均",
      data = radar.data[,c(10)],
      pointPlacement = 'on',color='#474747')
    )
```

### 第5群

```{r}
highchart() %>% 
  hc_chart(polar = TRUE, type = "line") %>% 
  hc_title(text = "第5群 : 單身小資女族群") %>% 
  hc_xAxis(categories = radar.name,
           tickmarkPlacement = 'on',
           lineWidth = 0) %>% 
  hc_yAxis(gridLineInterpolation = 'polygon',
           lineWidth = 0,
           min = 0, max = 1) %>% 
  hc_series(
    list(
      name = "第5群 : 單身小資女族群",
      data = radar.data[,c(6)],
      pointPlacement = 'on',color=col.raw[5]),
    list(
      name = "各群平均",
      data = radar.data[,c(10)],
      pointPlacement = 'on',color='#474747')
    )
```

### 第6群

```{r}
highchart() %>% 
  hc_chart(polar = TRUE, type = "line") %>% 
  hc_title(text = "第6群") %>% 
  hc_xAxis(categories = radar.name,
           tickmarkPlacement = 'on',
           lineWidth = 0) %>% 
  hc_yAxis(gridLineInterpolation = 'polygon',
           lineWidth = 0,
           min = 0, max = 1) %>% 
  hc_series(
    list(
      name = "第6群 ",
      data = radar.data[,c(7)],
      pointPlacement = 'on',color=col.raw[6]),
    list(
      name = "各群平均",
      data = radar.data[,c(10)],
      pointPlacement = 'on',color='#474747')
    )
```


### 第7群

```{r}
highchart() %>% 
  hc_chart(polar = TRUE, type = "line") %>% 
  hc_title(text = "第7群") %>% 
  hc_xAxis(categories = radar.name,
           tickmarkPlacement = 'on',
           lineWidth = 0) %>% 
  hc_yAxis(gridLineInterpolation = 'polygon',
           lineWidth = 0,
           min = 0, max = 1) %>% 
  hc_series(
    list(
      name = "第7群",
      data = radar.data[,c(8)],
      pointPlacement = 'on',color=col.raw[7]),
    list(
      name = "各群平均",
      data = radar.data[,c(10)],
      pointPlacement = 'on',color='#474747')
    )
```

### 第8群

```{r}
highchart() %>% 
  hc_chart(polar = TRUE, type = "line") %>% 
  hc_title(text = "第8群") %>% 
  hc_xAxis(categories = radar.name,
           tickmarkPlacement = 'on',
           lineWidth = 0) %>% 
  hc_yAxis(gridLineInterpolation = 'polygon',
           lineWidth = 0,
           min = 0, max = 1) %>% 
  hc_series(
    list(
      name = "第8群",
      data = radar.data[,c(9)],
      pointPlacement = 'on',color=col.raw[8]),
    list(
      name = "各群平均",
      data = radar.data[,c(10)],
      pointPlacement = 'on',color='#474747')
    )
```

### Summary

```{r}
data_cluster %>% 
  group_by(cluster) %>% 
  tally %>% 
  arrange(desc(n)) %>% 
  as.data.frame() %>% 
  datatable()

```


Column 
-------------------------------------

### 分群結果

[分群 vs 村里地圖在這裡找](#clustering)

[村里的各項指標資料在這裡找](#clustering)



__第一群：高扶老比族群(銀髮族群)__



根據雷達圖的指標顯示，這個族群同時具備了低於平均水平的所得、教育程度、有偶比、女男比，而具備了較高的扶老比，因此我們推測此族群為老年人口相對較多的區域。在其他指標中，低於平均水平的所得水準可能也受老年人口較多的影響，多數都已退休，使得整體平均所得相對拉低；又教育程度的可能原因為，這群老人家在求學階段的教育環境並無今日榮景，學校相對較少亦較競爭，並非人人都有機會唸書；有偶比與女男比較低的狀況可能為該地區多為單身男性。對於這樣的族群輪廓，顯示出其用電量相對低於平均用電量，我們推論可能原因為老人家的節儉觀念，使得其對於許多高耗電量的家電用品依賴性相對較低，例如：為了節省電費以電扇代替冷氣等。



分布於何處？



北投區大屯里、泉源里、湖山里等，士林區洲美里、平等里、溪山里等，大同區臨江里、國順里等，萬華區忠勤里、忠德里、榮德里等，信義區黎安里等分布於此群中。臺北市最老的社區 -- 南機場社區座落於萬華區忠勤里南機場夜市旁，南機場社區約有6000多位居民，其中65歲以上的老年人口約有1500位，相對於夜晚人聲鼎沸的南機場夜市，夜市旁的國宅公寓，居住了上百位孤苦無依的獨居老人，生活資源的匱乏，尚待政府制定相對因應的政策，來迎接這高齡化社會所帶來影響甚巨的負面影響。在此群中，北投區與士林區的里多數座落於大屯山周圍，此處非位於都市核心地區，學區亦非明星學區，因此可能致使老年人口比例相對較高。萬華區亦有數個里位於此群中，萬華區多老舊公寓國宅，且根據政府統計，萬華區為臺北市十二個行政區中人口老化指數最高的區，根據統計，萬華區102年底的老年人口比率為15.67%，約有3萬312人，儘管老年人的人口數還略輸大安區，但「人口老化指數」卻高達133.06%，在老人多、幼童少的狀況之下，仍是台北市最老的行政區。[資料來源](http://www.nownews.com/n/2014/06/16/1280464)



__第二群：已婚之高收入知識份子族群__



根據分群結果顯示：第二群的指標特色主要以高教育程度、高所得、高有偶比等特徵為主，雖然用電量高於平均但並沒有明顯地突出，其與第三群輪廓相似，唯一顯著不同的地方在於其扶老比較低，故我們將此一族群推測為扶養壓力較小且教育程度高的已婚高收入知識份子族群。



分布於何處？



此群主要分布以內湖區為主，包含大湖里、三重里、南湖里、金湖里，以及文山區的政大里，而該群在內湖區的分布緊依內湖科技園區，許多人才與經濟能力較佳的家庭多居住於該地區，且特性為扶老比低。內湖區為台北市中居住環境相對較佳的地帶，而文山區政大里為一明星學區，包括國立政治大學、政大附中等，許多教授、行政人員與公務人員多居住於附近。該群收入普遍較為豐厚，地點座落於一般住宅地區，非位於商辦地帶或繁華鬧區，其用電量高於平均。



__第三群 : 高知識份子小康家庭族群__



顧名思義，此族群特色在於其所得、教育程度皆明顯高於臺北市整體的平均指數。同時，些微高於平均的扶老比指數，亦可以凸顯這個族群有較高的能力去照顧家中的長輩。



分布於何處？



這個族群主要士林區翠山里、松山區精忠里、信義區新仁里、半個大安區與中正區南門里。



松山區精忠里，為全台灣[最有錢的里](http://news.cts.com.tw/cts/general/201010/201010120583794.html)，信義區新仁里及大安區等都是台北市生活品質與水準較高的村里，又士林區翠山里隸屬臺北市士林區轄治，位於外雙溪東方，大崙尾山山腰，面積1.6092平方公里，社區傍溪依山興建，風景秀麗，林木蓊鬱蒼翠，蟲吟蝶舞，綠意盎然，面對陽明山之秀峰，岡巒起伏，騁目遠眺，視野廣闊，大崙山區有豐富之自然動植物生態資源，一年四季各有特色，鄰近風景名勝甚多，中央社區係於民國62年(公元1973年)由行政院人事行政局開發興建，配售予中央政府各部會及國立大學公教人數居住，現均已退休多年，居民教育水準甚高，均為大學或專科以上程度，高普考試及格之公務人員。(資料來源：臺北市士林區翠山里辦公處)；聚集眾多高知識份子的士林區翠山里，其中包含至善國中、衛理女中、東吳大學等學校。
根據分析結果顯示，此群的用電量高於台北市整體平均用電，此指在臺北市各個生活品質高、教育機能亦不錯的地區有著高於平均的用電量？一般而言，高知識份子相對於社會議題會較關注，但在用電量上無法獲得佐證。



__第四群：低收入單身男性族群__



根據雷達圖，我們可以發現此群特色為男性比例稍高於女性、教育程度與所得相對低於平均水準，且單身的比例亦相對較高，扶老比落於整體平均值。此群的用電量低於北市平均，此群多分布在台北市較外圍行政區的縣市邊界上，房價相對台北市市中心地區稍微低一些，是所得相對較低的族群可以負擔的價格，教育程度較低可能與人口結構關聯性較高，扶老比落於整體平均水準，顯示老年人口在此群仍佔有一定比例，可能使得教育程度整體平均被些微下拉。相較於第一群的整體輪廓而言非常類似，但扶老比相對較低可能為影響戶均用電量相較稍高一些的原因之一。



分布於何處？
萬華區錦德里、華中里等，士林區社子里、葫蘆里等，大同區老師里、蓬萊里等，南港區舊莊里等皆落於此群中。萬華區為台北市老化指數最高的地區，與第一群的狀況類似，老年人口普遍生活節儉，故用電量相對較沒這麼高。社子島所涵蓋的里亦落於此群中，社子島是一個天然生成的滯洪區，又因區域發展、地方建設等因素，被劃定為農業或綠地用地不得做任何都市發展計劃之用，加上基隆河截彎取直的防洪整治工程完工與高速公路的興建，社子島的地方發展也明顯有了堤內與堤外地區的分野和落差(資料來源：林素雯（2009）。社子島：社區？社群？還是地方社會？。東吳大學人文社會學院第26屆系際學術研討會 )。如今社子島 95% 的房子都是違建，且蓋到五樓就是「最高地標」；不僅如此，社子島上多是因禁建而缺水、缺電的住戶，留下來的居民幾乎都是弱勢。[資料來源](https://buzzorange.com/2016/02/22/about-shezidevelopment/)，此特色亦反映再分群雷達圖中：教育程度與所得相對較低。



__第五群：單身小資女族群__



此群特色在於所得相對較低與女男比與用電量相較高，並且有偶比例低於台北市平均，故我們將其定義為單身小資女。而由分析結果指出，此族群對於用電的使用量高於整體平均，在相關文獻指出，女性對居家設備及家電的使用性依賴性高且喜愛烹煮食物(經濟部文章已有實證此現象)。



分布於何處？



此族群分布於台北市中山區中，中山北路一段至三段的周圍鄰里，為一住商混合區，包含圓山里、晴光里、聚盛里等。由於台電的用電量資料為住商混合資料，中山北路沿路上有許多商辦大樓，故此群用電量較高可能與其有關。此一區域的戶籍人口資料顯示女性多於男性，由於目前已有文獻證實，女性對於家電依賴性高於男性，又單身人數較多且收入相對較低，小資女們往往為了節省開銷而選擇自己開伙，且多數家電皆為高耗電量用品，使得此群的用電量相對其他群為最高。


分群比較 {#clustering .storyboard}
=======


### 原始資料型態

```{r width = 3}
data %>% head
```

### 資料加工與指標定義

```{r}
data %>% 
  filter(統計年月 == c(10407)) %>% 
  select(-c(統計年月,縣市)) %>% 
  group_by(行政區域) %>% 
  summarise_each(funs(mean(.))) %>% 
  select(行政區域,每戶平均用電度數,
         女性比例, 男性比例,
         少年人口比例,青年人口比例,壯年人口比例,老年人口比例,總人數,有偶人數, ## 有偶比例
         綜合所得中位數, 大學以上比例, 大學比例, 大學以下比例) %>% 
  mutate(扶老比 = (1-青年人口比例-壯年人口比例-少年人口比例)/(青年人口比例+壯年人口比例),
         有偶比例 = 有偶人數/((1-少年人口比例)*總人數),
         平均教育程度 = 大學以上比例*6+大學比例*4+大學以下比例*0,
         女男比 = round(女性比例/男性比例,4)) %>% 
  select(行政區域,綜合所得中位數,平均教育程度,有偶比例,女男比,扶老比,每戶平均用電度數) %>%
  mutate_each(funs(scale(.)),-行政區域)  -> data.h


data %>% 
  filter(統計年月 == c(10407)) %>% 
  select(-c(統計年月,縣市)) %>% 
  group_by(行政區域) %>% 
  summarise_each(funs(mean(.))) %>% 
  select(行政區域,每戶平均用電度數,
         女性比例, 男性比例,
         少年人口比例,青年人口比例,壯年人口比例,老年人口比例,總人數,有偶人數, ## 有偶比例
         綜合所得中位數, 大學以上比例, 大學比例, 大學以下比例) %>% 
  mutate(扶老比 = (1-青年人口比例-壯年人口比例-少年人口比例)/(青年人口比例+壯年人口比例),
         有偶比例 = 有偶人數/((1-少年人口比例)*總人數),
         平均教育程度 = 大學以上比例*6+大學比例*4+大學以下比例*0,
         女男比 = round(女性比例/男性比例,4)) %>% 
  select(行政區域,綜合所得中位數,平均教育程度,有偶比例,女男比,扶老比,每戶平均用電度數) -> data.f

colnames(data.f)[1] <- 'id'
colnames(data_cluster)[1] <- 'id'

data_cluster %>% 
  as.data.frame() %>% 
  DT::datatable(
    colnames = c('分群結果' = 'cluster'),
    filter = 'top',
    options = list(pageLength = 20)) %>% 
  formatRound(2:7,digits = 2)
```



### 雷達圖堆疊

```{r}
highchart() %>% 
  hc_chart(polar = TRUE, type = "line") %>% 
  hc_xAxis(categories = radar.name,
           tickmarkPlacement = 'on',
           lineWidth = 0) %>% 
  hc_yAxis(gridLineInterpolation = 'polygon',
           lineWidth = 0,
           min = 0, max = 1) %>% 
  hc_series(
    list(
      data = radar.data[,c(2)],
      pointPlacement = 'on',color=col.raw[1]),
    list(
      data = radar.data[,c(3)],
      pointPlacement = 'on',color=col.raw[2]),
    list(
      data = radar.data[,c(4)],
      pointPlacement = 'on',color=col.raw[3]),
    list(
      data = radar.data[,c(5)],
      pointPlacement = 'on',color=col.raw[4]),
    list(
      data = radar.data[,c(6)],
      pointPlacement = 'on',color=col.raw[5]),
    list(
      data = radar.data[,c(7)],
      pointPlacement = 'on',color=col.raw[6]),
    list(
      data = radar.data[,c(8)],
      pointPlacement = 'on',color=col.raw[7]),
    list(
      data = radar.data[,c(9)],
      pointPlacement = 'on',color=col.raw[8]),
    list(
      name = "各群平均",
      data = radar.data[,c(10)],
      pointPlacement = 'on',color='#474747'))
  
```


### 第5群(高) vs 第1群(低)

```{r}
highchart() %>% 
  hc_chart(polar = TRUE, type = "line") %>% 
  hc_title(text = "第5群 vs 第1群") %>% 
  hc_xAxis(categories = radar.name,
           tickmarkPlacement = 'on',
           lineWidth = 0) %>% 
  hc_yAxis(gridLineInterpolation = 'polygon',
           lineWidth = 0,
           min = 0, max = 1) %>% 
  hc_series(
    list(
      name = "第5群 - 單身小資女族群",
      data = radar.data[,c(6)],
      pointPlacement = 'on',color=col.raw[5])
    ,
    list(
      name = "第1群 - 高扶老比族群(銀髮族群)",
      data = radar.data[,c(2)],
      pointPlacement = 'on',color=col.raw[1]))
```

***

第一群與第五群用電量互有高低，我們從幾個顯著有差異的指標下去觀察發現，用電量較低的第一群男性比例較高，而用電量較高的第五群女性比例較高，在先前群集分析時已有介紹相關文獻對於女性用電量較高的相關研究，而銀髮族的節儉觀念亦可以推測該群用電量較低的原因。地點分布方面也可能為造成兩群用電量差異的原因，第一群的銀髮族群多分布在台北市與新北市交界的地區，例如：萬華區、北投區、士林區等，而第五群的小資女族群集中分佈在中山區，而中山區為台北市黃金地段之一，眾多的商辦大樓亦可能為導致該群用電量較高的因素之一。


### 第2群(高) vs 第1群(低)

```{r}
highchart() %>% 
  hc_chart(polar = TRUE, type = "line") %>% 
  hc_title(text = "第2群 vs 第1群") %>% 
  hc_xAxis(categories = radar.name,
           tickmarkPlacement = 'on',
           lineWidth = 0) %>% 
  hc_yAxis(gridLineInterpolation = 'polygon',
           lineWidth = 0,
           min = 0, max = 1) %>% 
  hc_series(
    list(
      name = "第2群 - 已婚之高收入知識份子族群",
      data = radar.data[,c(3)],
      pointPlacement = 'on',color=col.raw[2])
    ,
    list(
      name = "第1群 - 高扶老比族群(銀髮族群)",
      data = radar.data[,c(2)],
      pointPlacement = 'on',color=col.raw[1]))
```

***

已婚之高收入知識份子族群與高扶老比族群的比較可以明顯得到一個結論：內外分布明顯。台北市如同一顆心臟，而高扶老比族群多集中於北部，包括北投與士林地帶，或是最南邊的文山區老泉里。老泉里有一老泉養生休閒農場，而分群結果顯示出，該群的老年人口比例也確實較高，有許多溫泉的北投地區，具有較佳且步調相對較慢的生活環境，並且又保有便利的交通運輸系統，為老年人口普遍較聚集於此等地區的原因。已婚之高收入知識份子族群分布的地方相對於高扶老比族群，明顯以台北市中心地區為主，除了可以負擔較高的房價外，生活便利性較高且學區多明星學校可選擇亦為可能原因。用電量方面，由於老年人口生活較為節儉，且高收入的知識份子對於生活品質要求普遍較高，加上多座落於市中心地區，可能包含部分商辦地，使得用電量相對銀髮族群高。


### 第3群(高) Vs 第4群(低)

```{r}
highchart() %>% 
  hc_chart(polar = TRUE, type = "line") %>% 
  hc_title(text = "第3群 vs 第4群") %>% 
  hc_xAxis(categories = radar.name,
           tickmarkPlacement = 'on',
           lineWidth = 0) %>% 
  hc_yAxis(gridLineInterpolation = 'polygon',
           lineWidth = 0,
           min = 0, max = 1) %>% 
  hc_series(
    list(
      name = "第3群 - 高知識份子小康家庭族群",
      data = radar.data[,c(4)],
      pointPlacement = 'on',color=col.raw[3])
    ,
    list(
      name = "第4群 - 低收入單身男性族群",
      data = radar.data[,c(5)],
      pointPlacement = 'on',color=col.raw[4]))
```

***

由高知識份子小康家庭族群與低收入男性單身族群地理位置比較可以發現，前者主要分布於大安區、信義區等市中心的區域，後者主要分布於南港、萬華與北投等地區。除了地理位置明顯不同之外，各種指標上亦有明顯差異，高知識份子小康家庭族群平均用電量高於低收入男性單身族群，教育程度也有明顯的差異，但以區域面積可以發現低收入男性單身族群分佈較廣泛。相對第二群扶老比較高的高知識份子小康家庭族群，可能由於多與長輩同住，導致每戶人數相對較多，使得戶均用電量亦有所提升，且位於市中心的分布狀況可能也包含了商辦地區，相對於分散在台北市外圍區域的低收入男性單身族群而言，對於用電的需求相對提升許多。


### 用電量地圖



### 分群地圖



相關性分析 {#eda .storyboard} 
========

### 綜合所得中位數 vs 每戶平均用電度數
    
```{r}
cols <- c("1" = col.raw[1],
          "2" = col.raw[2],
          "3" = col.raw[3],
          "4" = col.raw[4],
          "5" = col.raw[5],
          "6" = col.raw[6],
          "7" = col.raw[7],
          "8" = col.raw[8],
          "9" = col.raw[9],
          "10" = col.raw[10])
data.f %>% 
  left_join(data_cluster %>% select(id,cluster),
            by = 'id') %>% 
  ggplot(aes(x=綜合所得中位數,y=每戶平均用電度數,group=cluster,colour=cluster))+
  geom_point(alpha=0.5,aes(text = paste('地區:',id )))+
  stat_smooth(method = 'lm',formula = y ~ x,se=F,size=0.5,
              aes(text=paste('分群:',cluster)))+
  theme_bw(base_family = 'STHeiti')+
  theme(plot.title = element_text(size=rel(1.3)),
        axis.title.x = element_text(size = rel(2)),
        axis.title.y = element_text(size = rel(2))) +
  scale_colour_manual(values = cols) -> p1
ggplotly(p1)
```
 
### 平均教育程度 vs 每戶平均用電度數
    
```{r}
data.f %>% 
  left_join(data_cluster %>% select(id,cluster),
            by = 'id') %>%
  ggplot(aes(x=平均教育程度,y=每戶平均用電度數,group=cluster,colour=cluster))+
  geom_point(alpha=0.5,aes(text = paste('地區:',id )))+
  stat_smooth(method = 'lm',formula = y ~ x,se=F,size=0.5,
              aes(text=paste('分群:',cluster)))+
  theme_bw(base_family = 'STHeiti')+
  theme(plot.title = element_text(size=rel(1.3)),
        axis.title.x = element_text(size = rel(2)),
        axis.title.y = element_text(size = rel(2)))+
  scale_colour_manual(values = cols)-> p2
ggplotly(p2) 
``` 


### 有偶比例 vs 每戶平均用電度數
    
```{r}
data.f %>% 
  left_join(data_cluster %>% select(id,cluster),
            by = 'id') %>%
  ggplot(aes(x=有偶比例,y=每戶平均用電度數,group=cluster,colour=cluster))+
  geom_point(alpha=0.5,aes(text = paste('地區:',id )))+
  stat_smooth(method = 'lm',formula = y ~ x,se=F,size=0.5,
              aes(text=paste('分群:',cluster)))+
  theme_bw(base_family = 'STHeiti')+
  theme(plot.title = element_text(size=rel(1.3)),
        axis.title.x = element_text(size = rel(2)),
        axis.title.y = element_text(size = rel(2)))+
  scale_colour_manual(values = cols) -> p3
ggplotly(p3)
```
    
### 女男比 vs 每戶平均用電度數

```{r}
data.f %>% 
  left_join(data_cluster %>% select(id,cluster),
            by = 'id') %>%
  ggplot(aes(x=女男比,y=每戶平均用電度數,group=cluster,colour=cluster))+
  geom_point(alpha=0.5,aes(text = paste('地區:',id )))+
  stat_smooth(method = 'lm',formula = y ~ x,se=F,size=0.5,
              aes(text=paste('分群:',cluster)))+
  theme_bw(base_family = 'STHeiti')+
  theme(plot.title = element_text(size=rel(1.3)),
        axis.title.x = element_text(size = rel(2)),
        axis.title.y = element_text(size = rel(2)))+
  scale_colour_manual(values = cols) -> p4
ggplotly(p4)
```

結論與限制 {#Conclusion}
======


這份分析有什麼特色？ 


本研究使用探索性資料分析(EDA)和分群方法做一個初步分析，針對北市各村里的用電量與人口特性做分群，根據各種不同的指標將台北市各村里定義為各種不同的集群，觀察與用電量之間的關聯。相較於過去文獻與報導大多以各地區電量高低的分析做報導，而本研究嘗試從**人口特徵**做出發，探究與用電量之間的關係。此外，亦使用統計分群方法針對不同輪廓的族群給予名稱，或許可協助政府在制定政策或幫助社會大眾更深一層了解北市的電力概況，以不同的角度去看台北市的電力分析。


我們發現了什麼？ 



> 台北市如同一顆心臟，內外分布明顯


外部用電量相較低：高扶老比族群多集中於北部北投與士林地帶、最南邊文山區老泉里、西邊萬華區，老年人口生活較為節儉，如：群一：高扶老比族群。
內部用電量相較高：對於生活品質要求普遍較高，加上多座落於市中心地區，可能包含部分商辦地的用電，使得用電量相對銀髮族群高，如：群二、三。


> 台北市女性比例較高的村里普遍用電量較高


過去有相關文獻指出女性用電量較高，與本次分析所呈現的趨勢一致，而第五群的小資女族群集中分佈在中山區，而中山區為台北市黃金地段之一，眾多的商辦大樓亦可能為導致該群用電量較高的因素之一。



> 用電大戶坐落於市中心、士林北投山區、內湖區元湖里


市中心有許多商業辦公大樓，內湖元湖里有Costco、hola、家樂福、大潤發、特力屋等量販店，用電量高非常可能是因為資料為住商混合用電量所導致。期待未來台電提供住商分離的用電量資料，提供本研究進一步驗證，用電量高是否與此區的人口特性有所關連。



有趣的族群輪廓


屬於**用電量高**的群體(高於平均)：

　- 已婚之高收入知識份子族群

　- 高知識份子小康家庭族群

　- 單身小資女族群 


> 已婚之高收入知識份子族群：

根據分群結果顯示：第二群的指標特色主要以高教育程度、高所得、高有偶比等特徵為主，用電量高於平均，其與第三群輪廓相似，唯一顯著不同的地方在於其扶老比較低，故我們將此一族群推測為扶養壓力較小且教育程度高的已婚高收入知識份子族群。此群主要分布以內湖區為主，該群在內湖區的分布緊依內湖科技園區，許多人才與經濟能力較佳的家庭多居住於該地區，收入普遍較為豐厚，地點座落於一般住宅地區，非位於商辦地帶或繁華鬧區，用電量高於平均但與整體台北市平均。



> 高知識份子小康家庭族群：

此族群主要位於士林區翠山里、松山區精忠里、信義區新仁里、半個大安區與中正區南門里，特色在於其所得、教育程度皆明顯高於臺北市整體的平均指數。同時，些微高於平均的扶老比指數，亦可以凸顯這個族群有較高的能力去照顧家中的長輩。松山區精忠里，為全台灣[最有錢的里]，信義區新仁里及大安區等都是台北市生活品質與水準較高的村里，此群的用電量高於台北市整體平均用電，此指在臺北市各個生活品質高、教育機能亦不錯的地區有著高於平均的用電量？一般而言，高知識份子相對於社會議題會較關注，但在用電量上無法獲得佐證。


> 單身小資女族群

此族群分布於台北市中山區中，中山北路一段至三段的周圍鄰里，中山北路沿路上有許多商辦大樓，故此群用電量較高可能與其有關。此一區域的戶籍人口資料顯示女性多於男性，由於目前已有文獻證實，女性對於家電依賴性高於男性，又單身人數較多且收入相對較低，小資女們往往為了節省開銷而選擇自己開伙，且多數家電皆為高耗電量用品，使得此群的用電量相對其他群為最高。

本文經由相關性分析發現，高知識份子小康家庭族群在女性越多的情況下與用電量的相關性越高，然而若有偶比例越高與用電量的關係則越趨下降，而在綜合所得與平均教育越高時與用電量的相關性亦呈現下降趨勢，在現今社會中，性別與用電量存在著關聯性，但若教育程度越高且所得也越高，則更能約束用電量的狀況，本文僅討論相關性，也希望能為未來的台灣社會盡一份力。


資料限制



**電力資料**：台電電力資料所記錄的用電量為住商混合用電量，無法清楚區隔在不同地區兩者間的差異大小。電力資料為月資料，但某些里在部分月份的用電量記錄為零，可能原因為目前台灣的電費計價方式為以雙月為單位，故必須將資料進行月份間的合併，才能較為確切的估算用電量狀況。


**經濟資料**：各村里綜合所得稅總和僅有2012年份的資料，本專案為了考量該村里的所得狀況，假設2012年與2014年個村裡綜合所得表現一致，進行推估。


**教育程度資料**：各村里教育程度資料僅有年資料，雖然沒有月資料，但教育程度不會因為月份不同而有太大的改變，因此我們將2012年的教育程度年資料作為月資料的推估。




> 研究時間為何選擇2014？


因不同資料的時間區間不相同，僅能擷取交集的部份進行分析，因2014年涵蓋最多資料，因此選擇2014年進行分析。


> 研究月份為何選擇7、8月？

因為7、8月長期以來為用電尖峰，電力短缺的問題在這時也較容易發生。在專案研究時間有限的情況下(辛苦的碩士生被指導教授追殺)，僅針對最急迫的月份著手分析。

> 為何選擇台北市？

我們所使用的人口相關資料為取自於政府所公布之戶籍統計資料，戶籍人口可能存在著籍在人不在的問題，由於台北市無論在就業機會與資訊發達的程度皆高，人才相對其他縣市更集中，故我們認為籍在人不在的問題影響力可以降到最低，故在現階段可以取得的有限資料下，我們選擇台北市作為首要分析的地區。


心得 {#Reviews}
======

Column {.tabset .tabset-fade}
-------------------------------------

### Lin心得碎碎念

首先非常感謝[DSP](https://dsp.im/) Data Lab這個專案，提供我們以Open Data進行資料科學實戰分析，以資料力關心及貢獻今年的熱門議題。第一次用Open Data進行分析，吃了很多閉門羹，在這邊將心路歷程簡單地分享給各位：

> **資料收集：**

在捲起袖子進行分析之前，首先，我們必須瞭解需要什麼資料？而通常這個問題的答案來自於研究問題本身。以本專案為例，希望找出用電量與人口特性之間的關聯，與用電量可能有關的包含：教育程度、經濟、人口結構等。接著，在針對這些人口特性去請教Google大神資料來源！若問題的定義不明確，很容易不清楚需要什麼資料、資料能夠回答什麼問題、甚至是用錯誤的資料來回答問題。

> **資料清理：**

資料清理上對於我來說不算太大的障礙。碩士班的研究使用的資料是全民健保資料庫，其特色除了又大又髒外、還是髒！兩年下來除了獲得碩士學位外，考到資料黑手的證照都不是問題了哈哈！回來正題，資料清理與整併大概僅花了我們40%的時間，簡單分享一個踩過地雷給大家：若以村里名稱作為合併的Key，需要特別小心中文字！(如：台北市萬華區的糖部里)，其餘的都只是很Tricky的清理方式了！

> **資料分析：分群方法的限制**

在使用統計方法前，EDA是非常重要的一個前置作業，EDA能使我們更加瞭解資料的輪廓。K-Means是分群方法中較簡單又容易理解，但是天下沒有白吃的午餐，K命斯也有致命傷。如：K-Means是以平方和計算距離，因此對於資料中的Outlier非常敏感，為了解決這個問題，我們嘗試使用Density-based Spatial Clustering，但此方法應用至此資料的分群結果並不理想(群與群之間的資料筆數差異過大)。最後解決的方法是，對每個變數做EDA，觀察分布情形，在針對右偏的變數取Log，降低Outlier的影響。

> **資料視覺化**：

找到適合的圖表、呈現方式，表達資訊給讀者也是一門學位。如果想要呈現的是空間上的分佈，如：各村里用電量，可以利用Cartodb來繪製。如果想要表達分群後在各個面向上的輪廓差異，可以使用以雷達圖的方式呈現，但維度不能過高(建議不要超過六個)，否則會造成資訊過於雜亂的狀況。如果想要呈現兩個維度之間的關聯性，散佈圖加上線性迴歸線是一個不錯的選擇，若要在加上第三個維度，可以選擇用顏色進行表示，但也要小心資訊太雜亂的問題！


最後非常感謝我的好夥伴們，這份分析最大的功臣就是你們，GU、Alger辛苦的清理資料以外，還研究非常好用的Highcharter套件，很開心我們又再次合體了，除了一起被指導教授追殺論文外，還一起被Johnson與CK哥追殺Q_Q。

### Alger心得碎碎念


大家好，我是楊崇甫，非常感謝你們耐心的閱讀這份台電專案分析，老大要求我們寫一篇心得文，於是我來說說這幾個月來的專案歷程。分析過程及步驟在Dashboard寫得很清楚，我就不多闡述了，在看完隊友寫的心得後，我想我應該也不用再多寫一些專業的東西，所以我就來分享一些在處理專案時的心得與歷程。

這個專案是在四月的時候開始的，每個禮拜固定會與我的偶像強森大大meeting，我們meeting時間是禮拜三的下午，我總是在禮拜二時瘋狂寫code或是執行任務(逃跑~)，那個時候同時是研討會論文發表的前期，所以真的是特別地轟炸，但是其實內心感到很愉悅，畢竟能同時面對那麼多重要的事情，而且從扛住到解決真的是一件很有成就感的事，也讓我成長許多。

在這個專案中，我們偶爾會私下開小組會議討論各種問題，例如：

- 統計方法的抉擇(分群方法到底要用k-means好還是......，要不要先做PCA啊？！)
- 資料清理的問題(奇怪我併完檔怎麼資料筆數暴增啊，我code是不是寫錯？！編碼有問題！！！Ｑ～Ｑ)
- 分析結果的解釋(ㄜ...這篇報導寫說哪個里最有錢欸，真的是這樣嗎？...好像跟我分析結果不太一樣...問題在哪...)
- Dashboard的建立(我覺得這張圖顏色配得不好看，文章跟圖最好能對應同時切換...不然看的人會暈死過去...)等等......。



當然，還有面對大大們的追殺時要如何defense(哈哈哈哈，但是其實CK大一直很和善，我覺得真是一個好的前輩，而且每次看到能說出很多故事就覺得很佩服！)，強森大也是不斷端出很多新招，每次看到我就眼睛發亮，技術與分析上，他們給了我們很大的援助與方向。
最後，說一下我隊友，感謝我的隊友在各種時候carry包括技術、domain與defense，我個人負責的部分主要是整理資料與文章撰寫為主。其實在寫故事的過程中，有很多專欄與文章寫著不同卻又類似的主題，過濾這些文章並選擇可信及可參考的文獻又是另一層的訓練。我常常看到很多文章寫著我想參考的內容，但如何根據我的分析寫出合理的解釋，同時又不能有過多的猜測與推論是極為困難的，這個時候多多討論時唯一選擇吧。總之，謝謝DSP給我這個機會去參與這個專案，也感謝隊友們跟大大們的包容，用資料做公益這件事真的是非常的帥！

### GU心得碎碎念

大家好，我是DSP Data Lab的昱霈，終於也將這份專案完成到一個段落，相信若有看到心得篇的您們，勢必已經完整瀏覽過我們的台電分析專案了，很開心出生在這個越來越重視open data的國家，第一次完整地利用台灣土生土長的open data分析，還可以與碩班兩年來最重要的戰友兼摯友們一起完美合作，也算是替我們的碩士生涯劃上一筆完美的句點。


首先，要非常萬分感謝DSP智庫驅動的Johnson大大與CK大大，若不是兩位大大願意給我們三個小朋友們這樣的機會，我們的作品或許不會這麼幸運的讓大家所看見，感謝大大們的信任，幾乎是完全放手的讓我們去玩，能認識這樣不吝於提攜後輩的前輩們，此生已無憾。每週一次的固定meeting，有Johnson大在統計domain上給我們的意見，還有CK大給我們許多creative thinking的想法，還有傳授我們說故事的能力，雖然在論文、ATCC以及其他各式各樣瑣事的多方夾擊下，通宵到天亮已經是家常便飯，感謝我們總是互相照應，以及無限默契。


不免俗來分享一下整個分析下來的心路歷程吧！我們在做資料分析時，大致的流程為資料蒐集、資料清理、探索性資料分析、統計分析、資料視覺化等，順序可能會穿插不定。我們這次在整個分析的流程中，每個階段都有或小或大的卡關；在資料蒐集時，因為是open data，尤其又台灣近幾年才慢慢開始重視並且累積我們在各領域的開放資料，第一個問題就會碰到「時間對不上」的狀況，簡言之，A資料可能包含了2007-2012年所有資料，但是B資料可能只有2010年的資料，抑或更慘的狀況還有C資料只有2014年的資料，相信不管是前輩大大們或是未來即將與我們一起徜徉資料科學領域的您們，都一定會碰到這個關卡，就是所謂的資料限制。我們的處理方式為：用合理的方式推估未知的年份資料，並且在做合併資料之前一定要將各個資料篩選自統一的年份才能進行整併，至於推估的方式不見得一定要用什麼很艱深的理論推估，其實只要合理並且說明清楚就好了。


資料清理在我們這次的分析流程中沒有碰到太大的難關，可能因為資料的複雜度沒有像實價登錄資料那般的複雜，在合併年度以及推估的過程中有特別討論一下，以及在整理電力資料的時候，發現了電力資料的記錄雖然為月資料，但是卻有許多里在某些月份沒有任何的用電量，就常理而言是不可能的，於是我們探究了台灣在電費繳交的狀況，電費為雙月為單位繳交，若把用電量依照這樣的邏輯雙月進行加總，這個問題就迎刃而解了，這讓我們也意識到在做分析的時候，domain knowlege真的非常重要，倘若沒有去研究該領域的背景知識，只是單純的data-driven，一定會在最後結果解釋上出現非常大的問題，內行人看門道，一看你就倒；這裡還要特別分享一下中文字讓人又愛又恨的地方，我很喜歡中文字相較於英文字母，因為中文字很美，但是每每在分析的時候，常常壓垮駱駝的最後一根稻草都是中文字這個大魔王，例如：群與羣，相信大家看到我舉這個例子一定可以馬上理解我們的無奈，在統一台北市各里的里名稱花了一點點時間，好險台北市里名稱難字不算太多。


再來就進入到資料分析的部分了，要運用什麼樣的統計方法也是讓我們困擾一陣子，每個方法都有每個方法使用的限制與條件，以及可能會因為什麼狀況導致分析結果會不太優美，所以建議大家在使用統計方法時，一定記得先了解該方法的使用限制跟條件。最後是資料視覺化的部分，我們有資料視覺化的大師們，所以在這塊沒有碰到太多的關卡，這裡就不得不強力推薦R這個很強大的軟體，視覺化功力真的很強大，如果大家有興趣可以好好鑽研幾個常用的畫圖packages。


最後要再次感謝所以提攜過我們的大大們，Wush大、Johnson大、Rafe大、CK大、懷中大，還有DSP的婉如姐跟資科助教，希望用更多人可以加入一起用資料做公益！

Sidebar {.sidebar}
=======


(建議使用Chrome瀏覽器)
Hi All : 

我們是一群熱愛資料分析與統計方法的團隊。投入資料科學領域，參與社會公益是我們的願景，
希望台灣會有更好的未來。

若對此分析有任何建議，期望各界高手能夠提供寶貴的意見或是相關的資料給我們，一起創造資料價值。

「台北市電力使用分析」是我們參加 [DSP智庫驅動](https://dsp.im) Data Labs所執行的資料分析專案。若有任何問題歡迎聯繫我們！

__共同作者簡介:__

1. [楊崇甫 ( Alger ) - 
政大統計碩二](https://tw.linkedin.com/in/崇甫-楊-291242124)
2. [陳昱霈 ( GU ) - 
政大統計碩二](https://tw.linkedin.com/in/yu-pei-chen-b852ba110)
3. [林敬昇 ( Lin ) - 
政大統計碩二](https://tw.linkedin.com/in/lincingsheng)

4. [DSP Data Labs*](https://dsp.im/)