- 劉濱;
<正>數據,泛在于自然、社會和人文空間,在記錄歷史軌跡的同時,也蘊藏著推動發展的力量。隨著信息、通訊、網絡等技術的演進,互聯網、移動網、廣電網、物聯網、社交網等現代網絡及衍生業務迅速生長,數據體量、增速、復雜性等都達到了前所未有的高度。分析數據的特征和規律,計算出信息和知識,已經成為多學科理論交叉融合、共同面對的任務,更是一個協同創新的命題,需要計算機、數學、管理、信息、心理等多專業人才協作研究、解析問題、建立模型、設計算法、實施方案和評價結果。
2014年01期 v.35;No.116 79頁 [查看摘要][在線閱讀][下載 224409] [下載次數:14 ] |[網刊下載次數:245 ] |[引用頻次:1 ] |[閱讀次數:264 ] - 劉濱;
隨著網絡技術、通信技術等的不斷突破,互聯網、移動網、廣電網等多種類現代網絡及其衍生業務迅速擴張,形成泛在于網絡空間的分布式計算環境。為了最大化這些數據的價值,需要利用數據挖掘技術發現其中隱藏的模式或規則,用以指導和輔助生產或運營中的管理決策行為,以提高決策水平及決策收益。然而,受到普遍存在的異構性、私有性和平臺兼容性等限制,兼因行業競爭和法律約束等因素(如個人或企業的數據隱私保護問題等),互聯于網絡的數據源難于進行集中式挖掘,分布式數據挖掘(DDM)技術應運而生。介紹了DDM的定義與框架、適用場景和研究挑戰。根據文中給出的DDM高層架構,最終結果的質量與局部數據源的類型、可用性、局部結果的質量及整合方法等密切相關。DDM的實施未必都以站點間純粹獨立挖掘的方式進行,此外,對于數據集中,系統分布式站點多的情況,也可采用DDM。當前,DDM研究領域的挑戰主要有:異構與同構挖掘、動態環境下的數據多變性、通信開銷、知識整合和語義異構等。當前的DDM系統被分為4類:1)基于Multi-Agent的系統,利用Agent的自治性實現局部挖掘以保護數據私有性;利用Agent的主動性減少用戶參與以提高挖掘自動化水平;利用Agent的協作性實現多算法協同挖掘等;2)基于網格的系統,利用網格在資源共享、開放服務和協同工作等方面的優勢,提高挖掘的可靠性和協同性;3)基于元學習的系統,通過元學習優化挖掘算法的選擇與組合,并對已獲知識進行多次學習以提高結果質量;4)基于CDM(collective data mining)框架的系統,將待學習的函數表示為一組基函數的分布式存在,允許各數據源選擇不同的學習算法,并以全局結果正確為前提減少網絡通信量。進而,對當前DDM研究存在的共性問題進行了歸納:1)結果質量問題,不考慮各個站點數據源間的內在語義聯系,各站點獨立挖掘本地數據,與其他站點間無語義層面的數據交互或融合,形成純粹的"分割式"挖掘,最終導致全局結果質量受損;2)挖掘效率問題,如何調度資源以平衡挖掘負載、減少協作挖掘中的通信開銷問題。針對結果質量問題,探討本體與數據挖掘的結合。作為語義網的基礎,本體能為對象語義距離度量提供有效支持。當前,在利用本體描述挖掘任務的領域背景方面,利用本體描述DM過程本身方面,都已經有研究人員進行了探索性工作:針對關聯規則挖掘中需要從海量規則中遴選有效規則的問題,提出了交互式的、用于刪減冗余規則的挖掘后處理方法;針對在給定知識發現過程的輸入和輸出類型前提下,知識發現工作流的自動構造問題,提出了解決方法。通過闡述可知,為了提升分布式挖掘過程中局部結果和最終結果的質量,策略之一就是將DDM理論和本體理論作融合,以數據源間語義距離的度量為突破口,建立語義距離度量的復合量化體系,通過構建和求解新型DDM模型來實現目標。
2014年01期 v.35;No.116 80-90頁 [查看摘要][在線閱讀][下載 2447291] [下載次數:1486 ] |[網刊下載次數:279 ] |[引用頻次:49 ] |[閱讀次數:322 ] - 楊彥波;劉濱;祁明月;
信息可視化是可視化技術在非空間數據領域的應用,可以增強數據呈現效果,讓用戶以直觀交互的方式實現對數據的觀察和瀏覽,從而發現數據中隱藏的特征、關系和模式??梢暬瘧梅浅V泛,主要涉及領域:數據挖掘可視化、網絡數據可視化、社交可視化、交通可視化、文本可視化、生物醫藥可視化等等。根據CARD可視化模型可以將信息可視化的過程分為以下幾個階段:數據預處理;繪制;顯示和交互。根據SHNEIDERMAN的分類,信息可視化的數據分為以下幾類:一維數據、二維數據、三維數據、多維數據、時態數據、層次數據和網絡數據。其中針對后4種數據的可視化是當前研究的熱點。多維數據可視化方法主要包括基于幾何的方法、圖標方法和動畫方法等?;趲缀蔚目梢暬绞街凶罱浀涞木褪?quot;平行坐標系"方法。平行坐標系(parallel coordinates)使用平行的豎直軸線來代表維度,通過在軸上刻劃多維數據的數值并用折線相連某一數據項在所有軸上的坐標點展示多維數據。平行坐標系方法能夠簡潔、快速地展示多維數據,發展出很多改進技術。但是當數據集的規模變得非常大時,密集的折線會引起"視覺混淆"(visual clutter),處理方法包括維度重排、交互方法、聚類、過濾、動畫等。其他基于幾何的方法包括Radviz方法使用圓形坐標系展示可視化結果;散點圖矩陣(scatter plot matrix)將多維數據中的各個維度兩兩組合繪制成一系列的按規律排列的散點圖?;趫D標的可視化方法用具備可視特征的幾何形狀如大小、長度、形狀、顏色等刻劃數據,代表性的方法包括星繪法和Chernoff面法等。動畫方法用于可視化中可被用來提高交互性和理解程度,其缺點包括可能分散注意力、引起用戶的誤解、產生"圖表垃圾"等。時間序列數據是指具有時間屬性的數據集,針對時間序列數據的可視化方法如下:線形圖、堆積圖、動畫、地平線圖、時間線。層次數據具有等級或層級關系。層次數據的可視化方法主要包括節點鏈接圖和樹圖2種方式。其中樹圖(treemap)由一系列的嵌套環、塊來展示層次數據。為了能展示更多的節點內容,一些基于"焦點+上下文"技術的交互方法被開發出來。包括"魚眼"技術、幾何變形、語義縮放、遠離焦點的節點聚類技術等。網絡數據具有網狀結構。自動布局算法是網絡數據可視化的核心,目前主要有以下3類:一是力導向布局(force-directed layout);二是分層布局(hierarchical layout);三是網格布局(grid layout)。當數據節點的連接很多時,容易產生邊交叉現象,導致視覺混淆。解決邊交叉現象的集束邊(edge bundle)技術可以分為以下幾類:力導向的集束邊技術、層次集束邊技術、基于幾何的邊聚類技術、多層凝聚集束邊技術和基于網格的方法等。其他研究熱點包括圖形的視覺因素研究、自適應可視化研究、可視化效果的評估等。視覺因素對于可視化效果的影響,如位置、長度、面積、形狀、色彩等影響已經引起很多研究者的注意。色彩是視覺因素的重要組成部分,研究主要集中在顏色選擇的原則和交互系統中。這些原則基于數據類型、類的數量、認知約束等。自適應可視化可以提高信息可視化的適應性。研究成果分為以下幾類:自適應可視化展示、自適應資源模型、自適應用戶模型。自適應可視化展示是指根據用戶的特征自動為用戶提供多種展示類型,自動選擇可視化內容及布局的形式,自動調整可視化的元素等。自適應資源模型反映了對硬件和軟件的利用以提高可視化性能。自適應用戶模型通過顯示用戶模型的內容并讓用戶能夠編輯,從而讓用戶能夠控制模型的內容。當前關于信息可視化評價的研究較少,少量研究也沒有提出直接和通用的可視化的評估方式,需要對信息可視化評價的理論基礎、方法和應用做深入的研究??梢暬夹g與應用還應該繼續向以下4個方面努力:直觀化、關聯化、藝術化、交互化。信息可視化技術的發展方向是協同(collaboration)、分析過程(analytics)、計算(computational)和意會(sense-making)。未來研究方向可以包括以下幾個內容。信息可視化和數據挖掘的緊密結合。為提高處理海量數據時的速度和效率和解決視覺混淆現象;必須運用數據挖掘的公式和算法,對數據分析的過程及結果進行可視化展現。協同可視化。協同可視化領域的研究方向可以包括可視化接口設計、基于Web的可視化協同平臺開發、協同可視化工作的視圖設計、協同可視化中的工作流管理及協同可視化技術的應用等。更多領域的應用技術開發。包括統計可視化:需要研究使用幾何、動畫、圖像等工具對數據統計的過程和結果進行加工和處理的技術;新聞可視化:對新聞內容進行抓取、清洗和提取和可視化展示;社交網絡可視化:可視化方式顯示社交網絡的數據,對社交網絡中節點、關系及時空數據的集成展示。搜索日志可視化:針對在使用搜索引擎時產生的海量搜索日志,可視化的展現用戶的搜索行為、關系和模式等。
2014年01期 v.35;No.116 91-102頁 [查看摘要][在線閱讀][下載 2227865] [下載次數:10376 ] |[網刊下載次數:440 ] |[引用頻次:279 ] |[閱讀次數:781 ] - 許云峰;趙寧;郝雪君;李兵;劉慧娟;
隨著網絡的發展和人們溝通方式的擴展,社交網絡影響了人們的生活,改變了人們傳播與分享消息的方式,吸引了越來越多的人關注和研究社交網絡。社交網絡即社交網絡服務,源自英文SNS(social network service)的翻譯,社交網絡有多種表現平臺,比如QQ、微博、Facebook和微信。本文主要研究微博這一新興的社交平臺,研究微博的主要目的是搞清用戶之間的種種關系。當代人一般認為,微博中存在5種關系即關注關系、提及關系、轉發關系、評論關系以及好友關系。由于社交網絡中人數眾多,關系錯綜復雜,因而產生的社交數據和傳統的數據相比具有數據量大、結構復雜、語義豐富等特點,針對這種情況,依據用戶之間的關系,提出了一種基于三元閉包的社區劃分算法。該算法首先設初始社區為空,在所有的頂點中,選擇度最大的頂點作為初始頂點;然后求初始頂點與其鄰接頂點的三元閉包數和頂點屬于該社區的概率PS,取它們最大的鄰接頂點加入初始頂點所在社區,形成新的社區,繼續迭代,當剩余的頂點很少時,可以使用會員閉包和三元閉包這種歸集算法把剩余的頂點劃分到不同的社區,直到把整個社區劃分完畢;最后以圖形這種直觀、形象的方式把每一個社區表示出來。在該算法中,三元閉包數、頂點屬于某社區的概率、擴張度的差是評估復雜網絡中頂點劃分的關鍵。該方法綜合了頂點全局重要性的特點,即在復雜網絡中,三元閉包數越大,它們處在一個社區的可能性就越大;頂點的會員閉包越大,該頂點就會越優先被劃分;擴張度的差是確定第i個社區是否被劃分完畢的關鍵。社交網絡的研究不僅可以幫助人們了解網絡結構、分析網絡結構特性、探測分析網絡的社團結構,而且還可以把虛擬世界中這種關系鏈接到現實世界中,即把虛擬關系轉化成利潤,為企業提供有價值的關系網絡,從而挖掘出潛藏在社交網絡背后的巨大的經濟價值,具體體現在:1)幫助企業找到潛在的商機,比如分析某個用戶的評論和發表內容,可知他的消費能力、喜好和最近的購買習慣,從而知道他購買自己產品的概率;2)危機預警,根據用戶的消息內容可以知道他對自己產品的滿意度;3)帶動了消息的傳播速度和廣度。企業可以利用這一點,為自己的產品更好地做宣傳。通過與寬吻海豚網和Zachary空手道俱樂部的社區網絡作比較,證明了該算法的有效性和可行性。
2014年01期 v.35;No.116 103-108頁 [查看摘要][在線閱讀][下載 988514] [下載次數:281 ] |[網刊下載次數:431 ] |[引用頻次:7 ] |[閱讀次數:286 ]