成人免费看黄网站无遮挡,caowo999,se94se欧美综合色,a级精品九九九大片免费看,欧美首页,波多野结衣一二三级,日韩亚洲欧美综合

數據挖掘論文論文

時(shí)間:2023-02-27 13:48:31 論文 我要投稿
  • 相關(guān)推薦

數據挖掘論文精選5篇論文

  數據挖掘論文一:

數據挖掘論文精選5篇論文

  題目:數據挖掘技術(shù)在神經(jīng)根型頸椎病方劑研究中的優(yōu)勢及應用進(jìn)展

  關(guān)鍵詞:數據挖掘技術(shù); 神經(jīng)根型頸椎病; 方劑; 綜述;

  1 數據挖掘技術(shù)簡(jiǎn)介

  數據挖掘技術(shù)[1] (Knowledge Discovery in Datebase, KKD) , 是一種新興的信息處理技術(shù), 它融匯了人工智能、模式別、模糊數學(xué)、數據庫、數理統計等多種技術(shù)方法, 專(zhuān)門(mén)用于海量數據的處理, 從大量的、不完全的、有噪聲的、模糊的、隨機的數據集中, 提取隱含在其中的、人們事先不知道的、但又是潛在的有用的信息和知識, 其目的是發(fā)現規律而不是驗證假設。數據挖掘技術(shù)主要適用于龐大的數據庫的研究, 其特點(diǎn)在于:基于數據分析方法角度的分類(lèi), 其本質(zhì)屬于觀(guān)察性研究, 數據來(lái)源于日常診療工作資料, 應用的技術(shù)較傳統研究更先進(jìn), 分析工具、理論模型與傳統研究區別較大。其操作步驟包括[2]:選擇數據, 數據處理, 挖掘分析, 結果解釋, 其中結果解釋是數據挖掘技術(shù)研究的關(guān)鍵。其方法包括分類(lèi)、聚類(lèi)、關(guān)聯(lián)、序列、決策樹(shù)、貝斯網(wǎng)絡(luò )、因子、辨別等分析[3], 其結果通常表示為概念、規則、規律、模式、約束、可視化等形式圖[4]。當今數據挖掘技術(shù)的方向主要在于:特定數據挖掘, 高效挖掘算法, 提高結果的有效性、確定性和表達性, 結果的可視化, 多抽象層上的交互式數據挖掘, 多元數據挖掘及數據的安全性和保密性。因其優(yōu)勢和獨特性被運用于多個(gè)領(lǐng)域中, 且結果運用后取得顯著(zhù)成效, 因此越來(lái)越多的中醫方劑研究者將其運用于方劑中藥物的研究。

  2 數據挖掘術(shù)在神經(jīng)根型頸椎病治方研究中的優(yōu)勢

  中醫對于神經(jīng)根型頸椎病的治療準則為辨證論治, 從古至今神經(jīng)根型頸椎病的中醫證型有很多, 其治方是集中醫之理、法、方、藥為一體的數據集合, 具有以“方-藥-證”為核心的多維結構。方劑配伍本質(zhì)上表現為方與方、方與藥、藥與藥、藥與劑量, 以及方藥與證、病、癥交叉錯綜的關(guān)聯(lián)與對應[5], 而中醫方劑講究君臣佐使的配伍, 藥物有升降沉浮, 四氣五味及歸經(jīng)之別, 對于神經(jīng)根型頸椎病的治療, 治方中藥物的種類(lèi)、炮制方法、用量、用法等都是千變萬(wàn)化的, 而這些海量、模糊、看似隨機的藥物背后隱藏著(zhù)對臨床有用的信息和規律, 但這些大數據是無(wú)法在可承受的時(shí)間范圍內可用常規軟件工具進(jìn)行捕捉、管理和處理的, 是需要一個(gè)新處理模式才能具有更強的決策力、洞察力和流程優(yōu)化能力, 而數據挖掘技術(shù)有可能從這些海量的的數據中發(fā)現新知識, 揭示背后隱藏的關(guān)系和規則, 并且對未知的情況進(jìn)行預測[6]。再者, 中醫辨治充滿(mǎn)非線(xiàn)性思維, “方-藥-證”間的多層關(guān)聯(lián)、序列組合、集群對應, 形成了整體論的思維方式和原則, 而數據挖掘技術(shù)數據挖掘在技術(shù)線(xiàn)路上與傳統數據處理方法不同在于其能對數據庫內的數據以線(xiàn)性和非線(xiàn)性方式解析, 尤善處理模糊的、非量化的數據。例如趙睿曦等[7]在研究張氏骨傷治療腰椎間盤(pán)突出癥的用藥規律時(shí), 選取了100張治方, 因該病病因病機復雜, 證候不一, 骨傷名師張玉柱先生對該病的治則治法、藥物使用是不同的。因此他們利用Excel建立方證數據庫, 采用SPPS Clementine12.0軟件對這些數據的用藥頻次、藥物關(guān)聯(lián)規則及藥物聚類(lèi)進(jìn)行分析, 最后總結出張氏骨傷治療腰椎間盤(pán)突出癥遵循病從肝治、病從血治、標本兼治的原則, 也歸納出治療三種不同證型的腰突癥的三類(lèi)自擬方。由此看出數據挖掘技術(shù)在方劑研究中的應用對數據背后信息、規律等的挖掘及名家經(jīng)驗的推廣具有重大意義, 因此數據挖掘技術(shù)在神經(jīng)根型頸椎病的治方研究中也同樣發(fā)揮著(zhù)巨大的作用。

  3 數據挖掘技術(shù)在神經(jīng)根型頸椎治方中的應用進(jìn)展

  神經(jīng)根型頸椎病在所有頸椎病中最常見(jiàn), 約占50%~60%[8], 醫家對其治方的研究也是不計其數。近年來(lái)數據挖掘技術(shù)也被運用于其治方研究中, 筆者通過(guò)萬(wàn)方、中國知網(wǎng)等總共檢索出以下幾篇文獻, 雖數量不多但其優(yōu)勢明顯。劉向前等[9]在挖掘古方治療神經(jīng)根型頸椎病的用藥規律時(shí), 通過(guò)檢索《中華醫典》并從中篩選以治療頸項肩臂痛為主的古方219首并建立數據庫, 對不同證治古方的用藥類(lèi)別、總味數、單味藥使用頻數及藥對 (組) 出現頻數進(jìn)行統計, 總結出風(fēng)寒濕痹證、痰濕阻痹證、寒濕阻滯證、正虛不足證的用藥特點(diǎn), 得出解表藥、祛風(fēng)濕藥、活血化瘀藥、補虛藥是治療頸項肩臂痛古方組成的主要藥物。古為今用, 該研究對于現代醫家在治療該病中有很好的借鑒和參考意義。齊兵獻等[10]檢索CNKI (1980-2009年) 相關(guān)文獻中治療神經(jīng)根型頸椎病的方劑建立數據庫, 采用SPSS11.5統計軟件這些治方常用藥物使用頻次頻率、性味頻率、歸經(jīng)頻率分析比較, 治療神經(jīng)根型頸椎病的中藥共計99味, 使用頻次479味次;所用藥物種類(lèi)依次以補益藥、活血化瘀藥、祛風(fēng)濕藥運用最多, 其中藥味以辛、苦為主, 藥性以溫、寒為主, 歸經(jīng)以肝、脾、心為主, 而本病以肝腎虧虛, 氣血瘀滯為主, 臨床以補益藥、活血化瘀藥、祛風(fēng)濕藥等中藥運用最多。這對于醫家治療該病選用藥物的性味、歸經(jīng)等具有指導意義。陳元川等[11]檢索2004年1月至2013年3月發(fā)表的以單純口服中藥治療神經(jīng)根型頸椎病的有關(guān)文獻, 對其中的方劑和藥物進(jìn)行統計、歸類(lèi)、分析, 最終納入32首方劑, 涉及111味中藥, 補氣藥、發(fā)散風(fēng)寒藥、活血止痛藥、補血藥等使用頻次較高;葛根、白芍、黃芪、當歸、桂枝等藥物使用頻次較高, 證實(shí)與古方桂枝加葛根湯主藥相同, 且該方扶陽(yáng)解表的治法與該研究得出的扶正祛邪的結果相吻合, 同時(shí)也證實(shí)石氏傷科強調治傷科病當“以氣為主, 以血為先”等正確性。所以大數據背后的規律和關(guān)系在很多方面古今是一致的, 同時(shí)數據依據的支持也為現代神經(jīng)根型頸椎病治療提供有力的保障。謝輝等[12]收集2009至2014年10月3日的166張治療神經(jīng)根型頸椎病的治方建立數據庫, 采用關(guān)聯(lián)規則算法、復雜系統熵聚類(lèi)等無(wú)監督數據挖掘方法, 利用中醫傳承輔助平臺 (TCMISS) 軟件分析處方中各種藥物的使用頻次、藥物之間的關(guān)聯(lián)規則、核心藥物組合和新處方, 從中挖掘出治療該病中醫中的常用藥物、藥對, 闡明了治療該病以解肌散寒藥、補氣活血藥、祛風(fēng)勝濕藥和溫經(jīng)通絡(luò )藥為主, 治法主要包括解肌舒筋、益氣活血和補益肝腎, 這一方面很清晰明了地展示了藥物使用頻率、藥物之間的聯(lián)系, 證實(shí)其與很多古代經(jīng)典中治療神經(jīng)根型頸椎病的治則、治法及用藥規律是吻合的, 是臨床用藥的積累和升華, 可有效地指導臨床并提高療效;另一方面也為中藥新藥的創(chuàng )制提供處方來(lái)源, 指導新藥研發(fā)[13]。

  4 小結

  數據挖掘技術(shù)作為一種新型的研究技術(shù), 在神經(jīng)根型頸椎病的治方研究中的運用相對于其他領(lǐng)域是偏少的, 并且基本上是研究文獻資料上出現的治方, 在對名老中醫個(gè)人治療經(jīng)驗及用藥規律的總結是缺乏的, 因此研究范圍廣而缺乏針對性, 同時(shí)使用該技術(shù)的相關(guān)軟件種類(lèi)往往是單一的,F在研究者在研究中醫方劑時(shí)往往采用傳統的研究方法, 這就導致在大數據的研究中耗時(shí)、耗力甚則無(wú)能為力, 同樣也難以精準地提取大數據背后的隱藏的潛在關(guān)系和規則及缺乏對未知情況的預測。產(chǎn)生這樣的現狀, 一方面是很多研究者尚未清楚該技術(shù)在方劑研究中的優(yōu)勢所在, 思維模式尚未更新;另一方面是很多研究者尚未清楚該技術(shù)的操作技能及軟件種類(lèi)及其應用范圍。故以后應向更多研究者普及該技術(shù)的軟件種類(lèi)、其中的優(yōu)勢及操作技能, 讓該技術(shù)在臨床中使用更廣, 產(chǎn)生更大的效益。

  參考文獻

  [1]舒正渝.淺談數據挖掘技術(shù)及應用[J].中國西部科技, 2010, 9 (5) :38-39.

  [2]曹毅, 季聰華.臨床科研設計與分析[M].杭州:浙江科學(xué)技術(shù)出版社, 2015:189.

  [3]王靜, 崔蒙.數據挖掘技術(shù)在中醫方劑學(xué)研究中的應用[J].中國中醫藥信息雜志, 2008, 15 (3) :103-104.

  [4]陳丈偉.數據倉庫與數據挖掘[M].北京:清華大學(xué)出版社, 2006:5.

  [5]楊玉珠.數據挖掘技術(shù)綜述與應用[J].河南科技, 2014, 10 (19) :21.

  [6]余侃侃.數據挖掘技術(shù)在方劑配伍中的研究現狀及研究方法[J].中國醫藥指南, 2008, 6 (24) :310-312.

  [7]趙睿曦.方證數據挖掘分析張氏骨傷對腰椎間盤(pán)突出癥的辨證用藥規律[J].陜西中醫藥大學(xué)學(xué)報, 2016, 39 (6) :44-46.

  [8]李曙明, 尹戰海, 王瑩.神經(jīng)根型頸椎病的影像學(xué)特點(diǎn)和分型[J].中國矯形外科雜志, 2013, 21 (1) :7-11.

  [9]劉向前, 陳民, 黃廣平等.頸項肩臂痛內治古方常用藥物的統計分析[J].中華中醫藥學(xué)刊, 2012, 30 (9) :42-44.

  [10]齊兵獻, 樊成虎, 李兆和.神經(jīng)根型頸椎病中醫用藥規律的文獻研究[J].河南中醫, 2012, 32 (4) :518-519.

  [11]陳元川, 王翔, 龐堅, 等.單純口服中藥治療神經(jīng)根型頸椎病用藥分析[J].上海中醫藥雜志, 2014, 48 (6) :78-80.

  [12]謝輝, 劉軍, 潘建科, 等.基于數據挖掘方法的神經(jīng)根型頸椎病用藥規律研究[J].世界中西醫結合雜志, 2015, 10 (6) :849-852.

  [13]唐仕歡, 楊洪軍.中醫組方用藥規律研究進(jìn)展述評[J].中國實(shí)驗方劑學(xué)雜志, 2013 (5) :359-363.

  數據挖掘論文二:

  題目:大數據挖掘在智游應用中的探究

  摘要:大數據和智游都是當下的熱點(diǎn), 沒(méi)有大數據的智游無(wú)從談“智慧”, 數據挖掘是大數據應用于智游的核心, 文章探究了在智游應用中, 目前大數據挖掘存在的幾個(gè)問(wèn)題。

  關(guān)鍵詞:大數據; 智游; 數據挖掘;

  1引言

  隨著(zhù)人民生活水平的進(jìn)一步提高, 旅游消費的需求進(jìn)一步上升, 在云計算、互聯(lián)網(wǎng)、物聯(lián)網(wǎng)以及移動(dòng)智能終端等信息通訊技術(shù)的飛速發(fā)展下, 智游應運而生。大數據作為當下的熱點(diǎn)已經(jīng)成了智游發(fā)展的有力支撐, 沒(méi)有大數據提供的有利信息, 智游無(wú)法變得“智慧”。

  2大數據與智游

  旅游業(yè)是信息密、綜合性強、信息依存度高的產(chǎn)業(yè)[1], 這讓其與大數據自然產(chǎn)生了交匯。2010年, 江蘇省鎮江市首先提出“智游”的概念, 雖然至今國內外對于智游還沒(méi)有一個(gè)統一的學(xué)術(shù)定義, 但在與大數據相關(guān)的描述中, 有學(xué)者從大數據挖掘在智游中的作用出發(fā), 把智游描述為:通過(guò)充分收集和管理所有類(lèi)型和來(lái)源的旅游數據, 并深入挖掘這些數據的潛在重要價(jià)值信息, 然后利用這些信息為相關(guān)部門(mén)或對象提供服務(wù)[2]。這一定義充分肯定了在發(fā)展智游中, 大數據挖掘所起的至關(guān)重要的作用, 指出了在智游的過(guò)程中, 數據的收集、儲存、管理都是為數據挖掘服務(wù), 智游最終所需要的是利用挖掘所得的有用信息。

  3大數據挖掘在智游中存在的問(wèn)題

  2011年, 我國提出用十年時(shí)間基本實(shí)現智游的目標[3], 過(guò)去幾年, 國家旅游局的相關(guān)動(dòng)作均為了實(shí)現這一目標。但是, 在借助大數據推動(dòng)智游的可持續性發(fā)展中, 大數據所產(chǎn)生的價(jià)值卻亟待提高, 原因之一就是在收集、儲存了大量數據后, 對它們深入挖掘不夠, 沒(méi)有發(fā)掘出數據更多的價(jià)值。

  3.1 信息化建設

  智游的發(fā)展離不開(kāi)移動(dòng)網(wǎng)絡(luò )、物聯(lián)網(wǎng)、云平臺。隨著(zhù)大數據的不斷發(fā)展, 國內許多景區已經(jīng)實(shí)現Wi-Fi覆蓋, 部分景區也已實(shí)現人與人、人與物、人與景點(diǎn)之間的實(shí)時(shí)互動(dòng), 多省市已建有旅游產(chǎn)業(yè)監測平臺或旅游大數據中心以及數據可視化平臺, 從中進(jìn)行數據統計、行為分析、監控預警、服務(wù)質(zhì)量監督等。通過(guò)這些平臺, 已基本能掌握跟游客和景點(diǎn)相關(guān)的數據, 可以實(shí)現更好旅游監控、產(chǎn)業(yè)宏觀(guān)監控, 對該地的旅游管理和推廣都能發(fā)揮重要作用。

  但從智慧化的發(fā)展來(lái)看, 我國的信息化建設還需加強。雖然通訊網(wǎng)絡(luò )已基本能保證, 但是大部分景區還無(wú)法實(shí)現對景區全面、透徹、及時(shí)的感知, 更為困難的是對平臺的建設。在數據共享平臺的建設上, 除了必備的硬件設施, 大數據實(shí)驗平臺還涉及大量部門(mén), 如政府管理部門(mén)、氣象部門(mén)、交通、電子商務(wù)、旅行社、旅游網(wǎng)站等。如此多的部門(mén)相關(guān)聯(lián), 要想建立一個(gè)完整全面的大數據實(shí)驗平臺, 難度可想而知。

  3.2 大數據挖掘方法

  大數據時(shí)代缺的不是數據, 而是方法。大數據在旅游行業(yè)的應用前景非常廣闊, 但是面對大量的數據, 不懂如何收集有用的數據、不懂如何對數據進(jìn)行挖掘和利用, 那么“大數據”猶如礦山之中的廢石。旅游行業(yè)所涉及的結構化與非結構化數據, 通過(guò)云計算技術(shù), 對數據的收集、存儲都較為容易, 但對數據的挖掘分析則還在不斷探索中。大數據的挖掘常用的方法有關(guān)聯(lián)分析, 相似度分析, 距離分析, 聚類(lèi)分析等等, 這些方法從不同的角度對數據進(jìn)行挖掘。其中, 相關(guān)性分析方法通過(guò)關(guān)聯(lián)多個(gè)數據來(lái)源, 挖掘數據價(jià)值。但針對旅游數據, 采用這些方法挖掘數據的價(jià)值信息, 難度也很大, 因為旅游數據中冗余數據很多, 數據存在形式很復雜。在旅游非結構化數據中, 一張圖片、一個(gè)天氣變化、一次輿情評價(jià)等都將會(huì )對游客的旅行計劃帶來(lái)影響。對這些數據完全挖掘分析, 對游客“行前、行中、行后”大數據的實(shí)時(shí)性挖掘都是很大的挑戰。

  3.3 數據安全

  2017年, 數據安全事件屢見(jiàn)不鮮, 伴著(zhù)大數據而來(lái)的數據安全問(wèn)題日益凸顯出來(lái)。在大數據時(shí)代, 無(wú)處不在的數據收集技術(shù)使我們的個(gè)人信息在所關(guān)聯(lián)的數據中心留下痕跡, 如何保證這些信息被合法合理使用, 讓數據“可用不可見(jiàn)”[4], 這是亟待解決的問(wèn)題。同時(shí), 在大數據資源的開(kāi)放性和共享性下, 個(gè)人隱私和公民權益受到嚴重威脅。這一矛盾的存在使數據共享程度與數據挖掘程度成反比。此外, 經(jīng)過(guò)大數據技術(shù)的分析、挖掘, 個(gè)人隱私更易被發(fā)現和暴露, 從而可能引發(fā)一系列社會(huì )問(wèn)題。

  大數據背景下的旅游數據當然也避免不了數據的安全問(wèn)題。如果游客“吃、住、行、游、娛、購”的數據被放入數據庫, 被完全共享、挖掘、分析, 那游客的人身財產(chǎn)安全將會(huì )受到嚴重影響, 最終降低旅游體驗。所以, 數據的安全管理是進(jìn)行大數據挖掘的前提。

  3.4 大數據人才

  大數據背景下的智游離不開(kāi)人才的創(chuàng )新活動(dòng)及技術(shù)支持, 然而與專(zhuān)業(yè)相銜接的大數據人才培養未能及時(shí)跟上行業(yè)需求, 加之創(chuàng )新型人才的外流, 以及數據統計未來(lái)3~5年大數據行業(yè)將面臨全球性的人才荒, 國內智游的構建還缺乏大量人才。

  4解決思路

  在信息化建設上, 加大政府投入, 加強基礎設施建設, 整合結構化數據, 抓取非結構化數據, 打通各數據壁壘, 建設旅游大數據實(shí)驗平臺;在挖掘方法上, 對旅游大數據實(shí)時(shí)性數據的挖掘應該被放在重要位置;在數據安全上, 從加強大數據安全立法、監管執法及強化技術(shù)手段建設等幾個(gè)方面著(zhù)手, 提升大數據環(huán)境下數據安全保護水平。加強人才的培養與引進(jìn), 加強產(chǎn)學(xué)研合作, 培養智游大數據人才。

  參考文獻

  [1]翁凱.大數據在智游中的應用研究[J].信息技術(shù), 2015, 24:86-87.

  [2]梁昌勇, 馬銀超, 路彩虹.大數據挖掘, 智游的核心[J].開(kāi)發(fā)研究, 2015, 5 (180) :134-139.

  [3]張建濤, 王洋, 劉力剛.大數據背景下智游應用模型體系構建[J].企業(yè)經(jīng)濟, 2017, 5 (441) :116-123.

  [4]王竹欣, 陳湉.保障大數據, 從哪里入手?[N].人民郵電究, 2017-11-30.

  數據挖掘論文三:

  題目:檔案信息管理系統中的計算機數據挖掘技術(shù)探討

  摘要:伴隨著(zhù)計算機技術(shù)的不斷進(jìn)步和發(fā)展, 數據挖掘技術(shù)成為數據處理工作中的重點(diǎn)技術(shù), 能借助相關(guān)算法搜索相關(guān)信息, 在節省人力資本的同時(shí), 提高數據檢索的實(shí)際效率, 基于此, 被廣泛應用在數據密集型行業(yè)中。筆者簡(jiǎn)要分析了計算機數據挖掘技術(shù), 并集中闡釋了檔案信息管理系統計算機數據倉庫的建立和技術(shù)實(shí)現過(guò)程, 以供參考。

  關(guān)鍵詞:檔案信息管理系統; 計算機; 數據挖掘技術(shù); 1 數據挖掘技術(shù)概述

  數據挖掘技術(shù)就是指在大量隨機數據中提取隱含信息, 并且將其整合后應用在知識處理體系的技術(shù)過(guò)程。若是從技術(shù)層面判定數據挖掘技術(shù), 則需要將其劃分在商業(yè)數據處理技術(shù)中, 整合商業(yè)數據提取和轉化機制, 并且建構更加系統化的分析模型和處理機制, 從根本上優(yōu)化商業(yè)決策。借助數據挖掘技術(shù)能建構完整的數據倉庫, 滿(mǎn)足集成性、時(shí)變性以及非易失性等需求, 整和數據處理和冗余參數, 確保技術(shù)框架結構的完整性。

  目前, 數據挖掘技術(shù)常用的工具, 如SAS企業(yè)的Enterprise Miner、IBM企業(yè)的Intellient Miner以及SPSS企業(yè)的Clementine等應用都十分廣泛。企業(yè)在實(shí)際工作過(guò)程中, 往往會(huì )利用數據源和數據預處理工具進(jìn)行數據定型和更新管理, 并且應用聚類(lèi)分析模塊、決策樹(shù)分析模塊以及關(guān)聯(lián)分析算法等, 借助數據挖掘技術(shù)對相關(guān)數據進(jìn)行處理。

  2 檔案信息管理系統計算機數據倉庫的建立

  2.1 客戶(hù)需求單元

  為了充分發(fā)揮檔案信息管理系統的優(yōu)勢, 要結合客戶(hù)的實(shí)際需求建立完整的處理框架體系。在數據庫體系建立中, 要適應迭代式處理特征, 并且從用戶(hù)需求出發(fā)整合數據模型, 保證其建立過(guò)程能按照整體規劃有序進(jìn)行, 且能按照目標和分析框架參數完成操作。首先, 要確立基礎性的數據倉庫對象, 由于是檔案信息管理, 因此, 要集中劃分檔案數據分析的主題, 并且有效錄入檔案信息, 確保滿(mǎn)足檔案的數據分析需求。其次, 要對日常工作中的用戶(hù)數據進(jìn)行集中的挖掘處理, 從根本上提高數據倉庫分析的完整性。

  (1) 確定數據倉庫的基礎性用戶(hù), 其中, 主要包括檔案工作人員和使用人員, 結合不同人員的工作需求建立相應的數據倉庫。

  (2) 檔案工作要利用數據分析和檔案用戶(hù)特征分析進(jìn)行分類(lèi)描述。

  (3) 確定檔案的基礎性分類(lèi)主題, 一般而言, 要將文書(shū)檔案歸檔情況、卷數等基礎性信息作為分類(lèi)依據。

  2.2 數據庫設計單元

  在設計過(guò)程中, 要針對不同維度建立相應的參數體系和組成結構, 并且有效整合組成事實(shí)表的主鍵項目, 建立框架結構。

  第一, 建立事實(shí)表。事實(shí)表是數據模型的核心單元, 主要是記錄相關(guān)業(yè)務(wù)和統計數據的表, 能整合數據倉庫中的信息單元, 并且提升多維空間處理效果, 確保數據儲存過(guò)程切實(shí)有效。 (1) 檔案管理中文書(shū)檔案目錄卷數事實(shí)表:事實(shí)表主鍵, 字段類(lèi)型Int, 字段為Id;文書(shū)歸檔年份, 字段類(lèi)型Int, 字段為Gdyear_key;文書(shū)歸檔類(lèi)型, 字段類(lèi)型Int, 字段為Ajtm_key;文書(shū)歸檔單位, 字段類(lèi)型Int, 字段為Gddw_key;文書(shū)檔案生成年份, 字段類(lèi)型Int, 字段為Ajscsj_key, 以及文書(shū)檔案包括的文件數目。 (2) 檔案管理中文書(shū)檔案卷數事實(shí)表:事實(shí)表主鍵, 字段類(lèi)型Int, 字段為Id;文書(shū)歸檔利用日期, 字段類(lèi)型Int, 字段為Date_key;文書(shū)歸檔利用單位, 字段類(lèi)型Int, 字段為Dw_key;文書(shū)歸檔利用類(lèi)別, 字段類(lèi)型Int, 字段為Dalb_key;文書(shū)歸檔利用年份, 字段類(lèi)型Int, 字段為Dayear_key等[1]。

  第二, 建立維度表, 在實(shí)際數據倉庫建立和運維工作中, 提高數據管理效果和水平, 確保建立循環(huán)和反饋的系統框架體系, 并且處理增長(cháng)過(guò)程和完善過(guò)程, 有效實(shí)現數據庫模型設計以及相關(guān)維護操作。首先, 要對模式的基礎性維度進(jìn)行分析并且制作相應的表, 主要包括檔案年度維表、利用方式維表等。其次, 要建構數據庫星型模型體系。最后, 要集中判定數據庫工具, 保證數據庫平臺在客戶(hù)管理工作方面具備一定的優(yōu)勢, 集中制訂商務(wù)智能解決方案, 保證集成環(huán)境的穩定性和數據倉庫建模的效果, 真正提高數據抽取以及轉換工作的實(shí)際水平。需要注意的是, 在全面整合和分析處理數據的過(guò)程中, 要分離文書(shū)檔案中的數據, 相關(guān)操作如下:

  from dag gd temp//刪除臨時(shí)表中的數據

  Ch count=dag 1.importfile (dbo.u wswj) //將文書(shū)目錄中數據導出到數據窗口

  Dag 1.() //將數據窗口中的數據保存到臨時(shí)表

  相關(guān)技術(shù)人員要對數據進(jìn)行有效處理, 以保證相關(guān)數據合并操作、連接操作以及條件性拆分操作等都能按照數據預處理管理要求合理化進(jìn)行, 從根本上維護數據處理效果。

  2.3 多維數據模型建立單元

  在檔案多維數據模型建立的過(guò)程中, 相關(guān)技術(shù)人員要判定聯(lián)機分析處理項目和數據挖掘方案, 整合信息系統中的數據源、數據視圖、維度參數以及屬性參數等, 保證具體單元能發(fā)揮其實(shí)際作用, 并且真正發(fā)揮檔案維表的穩定性、安全性?xún)?yōu)勢。

  第一, 檔案事實(shí)表中的數據穩定, 事實(shí)表是加載和處理檔案數據的基本模塊, 按照檔案目錄數據表和檔案利用情況表分析和判定其類(lèi)別和歸檔時(shí)間, 從而提高數據獨立分析水平。一方面, 能追加有效的數據, 保證數據倉庫信息的基本質(zhì)量, 也能追加時(shí)間判定標準, 能在實(shí)際操作中減少掃描整個(gè)表浪費的時(shí)間, 從根本上提高實(shí)際效率。另一方面, 能刪除數據, 實(shí)現數據更新, 檢索相關(guān)關(guān)鍵詞即可。并且也能同時(shí)修改數據, 維護檔案撤出和檔案追加的動(dòng)態(tài)化處理效果。

  第二, 檔案維表的安全性。在維表管理工作中, 檔案參數和數據的安全穩定性十分關(guān)鍵, 由于其不會(huì )隨著(zhù)時(shí)間的推移出現變化, 因此, 要對其進(jìn)行合理的處理和協(xié)調。維表本身的存儲空間較小, 盡管結構發(fā)生變化的概率不大, 但仍會(huì )對代表的對象產(chǎn)生影響, 這就會(huì )使得數據出現動(dòng)態(tài)的變化。對于這種改變, 需要借助新維生成的方式進(jìn)行處理, 從而保證不同維表能有效連接, 整合正確數據的同時(shí), 也能對事實(shí)表外鍵進(jìn)行分析[2]。

  3 檔案信息管理系統計算機數據倉庫的實(shí)現

  3.1 描述需求

  隨著(zhù)互聯(lián)網(wǎng)技術(shù)和數據庫技術(shù)不斷進(jìn)步, 要提高檔案數字化水平以及完善信息化整合機制, 加快數據庫管控體系的更新, 確保設備存儲以及網(wǎng)絡(luò )環(huán)境一體化水平能滿(mǎn)足需求, 尤其是在檔案資源重組和預測項目中, 只有從根本上落實(shí)數據挖掘體系, 才能為后續信息檔案管理項目升級奠定堅實(shí)基礎。另外, 在數據表和文書(shū)等基礎性數據結構模型建立的基礎上, 要按照規律制定具有個(gè)性化的主動(dòng)性服務(wù)機制。

  3.2 關(guān)聯(lián)計算

  在實(shí)際檔案分析工作開(kāi)展過(guò)程中, 關(guān)聯(lián)算法描述十分關(guān)鍵, 能對某些行為特征進(jìn)行統籌整合, 從而制定分析決策。在進(jìn)行關(guān)聯(lián)規則強度分析時(shí), 要結合支持度和置信度等系統化數據進(jìn)行綜合衡量。例如, 檔案數據庫中有A和B兩個(gè)基礎項集合, 支持度為P (A∪B) , 則直接表述了A和B在同一時(shí)間出現的基礎性概率。若是兩者出現的概率并不大, 則證明兩者之間的關(guān)聯(lián)度較低。若是兩者出現的概率較大, 則說(shuō)明兩者的關(guān)聯(lián)度較高。另外, 在分析置信度時(shí), 利用Confidence (A→B) = (A|B) , 也能有效判定兩者之間的關(guān)系。在出現置信度A的情況下, B的出現概率則是整體參數關(guān)系的關(guān)鍵, 若是置信度的數值達到100%, 則直接證明A和B能同一時(shí)間出現。

  3.3 神經(jīng)網(wǎng)絡(luò )算法

  除了要對檔案的實(shí)際內容進(jìn)行數據分析和數據庫建構, 也要對其利用情況進(jìn)行判定, 目前較為常見(jiàn)的利用率分析算法就是神經(jīng)網(wǎng)絡(luò )算法, 其借助數據分類(lèi)系統判定和分析數據對象。值得注意的是, 在分類(lèi)技術(shù)結構中, 要結合訓練數據集判定分類(lèi)模型數據挖掘結構。神經(jīng)網(wǎng)絡(luò )算法類(lèi)似于人腦系統的運行結構, 能建立完整的信息處理單元, 并且能夠整合非線(xiàn)性交換結構, 確保能憑借歷史數據對計算模型和分類(lèi)體系展開(kāi)深度分析[3]。

  3.4 實(shí)現多元化應用

  在檔案管理工作中應用計算機數據挖掘技術(shù), 能對檔案分類(lèi)管理予以分析, 保證信息需求分類(lèi)總結工作的完整程度。尤其是檔案使用者在對檔案具體特征進(jìn)行差異化分析的過(guò)程中, 能結合不同的元素對具體問(wèn)題展開(kāi)深度調研。一方面, 計算機數據挖掘技術(shù)借助決策樹(shù)算法處理規則化的檔案分析機制。在差異化訓練體系中, 要對數據集合中的數據進(jìn)行系統化分析以及處理, 確保構建要求能適應數據挖掘的基本結構[4]。例如, 檔案管理人員借助數據挖掘技術(shù)能整合檔案使用人員長(cháng)期瀏覽與關(guān)注的信息, 并且能集中收集和匯總間隔時(shí)間、信息查詢(xún)停留時(shí)間等, 從而建構完整的數據分析機制, 有效向其推送或者是提供便捷化查詢(xún)服務(wù), 保證檔案管理數字化水平的提高。另一方面, 在檔案收集管理工作中應用數據挖掘技術(shù), 主要是對數據信息進(jìn)行分析, 結合基本結果建立概念模型, 保證模型以及測試樣本之間的比較參數符合標準, 從而真正建立更加系統化的分類(lèi)框架體系。

  4 結語(yǔ)

  總而言之, 在檔案管理工作中應用數據挖掘技術(shù), 能在準確判定用戶(hù)需求的同時(shí), 維護數據處理效果, 并且減少檔案數字化的成本, 為后續工作的進(jìn)一步優(yōu)化奠定堅實(shí)基礎。并且, 數據庫的建立, 也能節省經(jīng)費和設備維護成本, 真正實(shí)現數字化全面發(fā)展的目標, 促進(jìn)檔案信息管理工作的長(cháng)效進(jìn)步。

  參考文獻

  [1]曾雪峰.計算機數據挖掘技術(shù)開(kāi)發(fā)及其在檔案信息管理中的運用研究[J].科技創(chuàng )新與應用, 2016 (9) :285.

  [2]王曉燕.數據挖掘技術(shù)在檔案信息管理中的應用[J].蘭臺世界, 2014 (23) :25-26.

  [3]韓吉義.基于數據挖掘技術(shù)的高校圖書(shū)館檔案信息管理平臺的構筑[J].山西檔案, 2015 (6) :61-63.

  [4]哈立原.基于數據挖掘技術(shù)的高校圖書(shū)館檔案信息管理平臺構建[J].山西檔案, 2016 (5) :105-107.

  數據挖掘論文四: 題目:機器學(xué)習算法在數據挖掘中的應用

  摘要:隨著(zhù)科學(xué)技術(shù)的快速發(fā)展, 各種新鮮的事物和理念得到了廣泛的應用。其中機器學(xué)習算法就是一則典型案例——作為一種新型的算法, 其廣泛應用于各行各業(yè)之中。本篇論文旨在探討機器學(xué)習算法在數據挖掘中的具體應用, 我們利用龐大的移動(dòng)終端數據網(wǎng)絡(luò ), 加強了基于GSM網(wǎng)絡(luò )的戶(hù)外終端定位, 從而提出了3個(gè)階段的定位算法, 有效提高了定位的精準度和速度。

  關(guān)鍵詞:學(xué)習算法; GSM網(wǎng)絡(luò ); 定位; 數據;

  移動(dòng)終端定位技術(shù)由來(lái)已久, 其主要是利用各種科學(xué)技術(shù)手段定位移動(dòng)物體的精準位置以及高度。目前, 移動(dòng)終端定位技術(shù)主要應用于軍事定位、緊急救援、網(wǎng)絡(luò )優(yōu)化、地圖導航等多個(gè)現代化的領(lǐng)域, 由于移動(dòng)終端定位技術(shù)可以提供精準的位置服務(wù)信息, 所以其在市場(chǎng)上還是有較大的需求的, 這也為移動(dòng)終端定位技術(shù)的優(yōu)化和發(fā)展, 提供了推動(dòng)力。隨著(zhù)通信網(wǎng)絡(luò )普及, 移動(dòng)終端定位技術(shù)的發(fā)展也得到了一些幫助, 使得其定位的精準度和速度都得到了全面的優(yōu)化和提升。同時(shí), 傳統的定位方法結合先進(jìn)的算法來(lái)進(jìn)行精準定位, 目前依舊還是有較大的進(jìn)步空間。在工作中我選取機器學(xué)習算法結合數據挖掘技術(shù)對傳統定位技術(shù)加以改進(jìn), 取得了不錯的效果, 但也遇到了許多問(wèn)題, 例如:使用機器學(xué)習算法來(lái)進(jìn)行精準定位暫時(shí)無(wú)法滿(mǎn)足更大的區域要求, 還有想要利用較低的設備成本, 實(shí)現得到更多的精準定位的要求比較困難。所以本文對機器學(xué)習算法進(jìn)行了深入的研究, 希望能夠幫助其更快速的定位、更精準的定位, 滿(mǎn)足市場(chǎng)的需要。

  1 數據挖掘概述

  數據挖掘又名數據探勘、信息挖掘。它是數據庫知識篩選中非常重要的一步。數據挖掘其實(shí)指的就是在大量的數據中通過(guò)算法找到有用信息的行為。一般情況下, 數據挖掘都會(huì )和計算機科學(xué)緊密聯(lián)系在一起, 通過(guò)統計集合、在線(xiàn)剖析、檢索篩選、機器學(xué)習、參數識別等多種方法來(lái)實(shí)現最初的目標。統計算法和機器學(xué)習算法是數據挖掘算法里面應用得比較廣泛的兩類(lèi)。統計算法依賴(lài)于概率分析, 然后進(jìn)行相關(guān)性判斷, 由此來(lái)執行運算。

  而機器學(xué)習算法主要依靠人工智能科技, 通過(guò)大量的樣本收集、學(xué)習和訓練, 可以自動(dòng)匹配運算所需的相關(guān)參數及模式。它綜合了數學(xué)、物理學(xué)、自動(dòng)化和計算機科學(xué)等多種學(xué)習理論, 雖然能夠應用的領(lǐng)域和目標各不相同, 但是這些算法都可以被獨立使用運算, 當然也可以相互幫助, 綜合應用, 可以說(shuō)是一種可以“因時(shí)而變”、“因事而變”的算法。在機器學(xué)習算法的領(lǐng)域, 人工神經(jīng)網(wǎng)絡(luò )是比較重要和常見(jiàn)的一種。因為它的優(yōu)秀的數據處理和演練、學(xué)習的能力較強。

  而且對于問(wèn)題數據還可以進(jìn)行精準的識別與處理分析, 所以應用的頻次更多。人工神經(jīng)網(wǎng)絡(luò )依賴(lài)于多種多樣的建模模型來(lái)進(jìn)行工作, 由此來(lái)滿(mǎn)足不同的數據需求。綜合來(lái)看, 人工神經(jīng)網(wǎng)絡(luò )的建模, 它的精準度比較高, 綜合表述能力優(yōu)秀, 而且在應用的過(guò)程中, 不需要依賴(lài)專(zhuān)家的輔助力量, 雖然仍有缺陷, 比如在訓練數據的時(shí)候耗時(shí)較多, 知識的理解能力還沒(méi)有達到智能化的標準, 但是, 相對于其他方式而言, 人工神經(jīng)網(wǎng)絡(luò )的優(yōu)勢依舊是比較突出的。

  2 以機器學(xué)習算法為基礎的GSM網(wǎng)絡(luò )定位

  2.1 定位問(wèn)題的建模

  建模的過(guò)程主要是以支持向量機定位方式作為基礎, 把定位的位置柵格化, 面積較小的柵格位置就是獨立的一種類(lèi)別, 在定位的位置內, 我們收集數目龐大的終端測量數據, 然后利用計算機對測量報告進(jìn)行分析處理, 測量柵格的距離度量和精準度, 然后對移動(dòng)終端柵格進(jìn)行預估判斷, 最終利用機器學(xué)習進(jìn)行分析求解。

  2.2 采集數據和預處理

  本次研究, 我們采用的模型對象是我國某一個(gè)周邊長(cháng)達10千米的二線(xiàn)城市。在該城市區域內, 我們測量了四個(gè)不同時(shí)間段內的數據, 為了保證機器學(xué)習算法定位的精準性和有效性, 我們把其中的三批數據作為訓練數據, 最后一組數據作為定位數據, 然后把定位數據周邊十米內的前三組訓練數據的相關(guān)信息進(jìn)行清除。一旦確定某一待定位數據, 就要在不同的時(shí)間內進(jìn)行測量, 按照測量出的數據信息的經(jīng)緯度和平均值, 再進(jìn)行換算, 最終, 得到真實(shí)的數據量, 提升定位的速度以及有效程度。

  2.3 以基站的經(jīng)緯度為基礎的初步定位

  用機器學(xué)習算法來(lái)進(jìn)行移動(dòng)終端定位, 其復雜性也是比較大的, 一旦區域面積增加, 那么模型和分類(lèi)也相應增加, 而且更加復雜, 所以, 利用機器學(xué)習算法來(lái)進(jìn)行移動(dòng)終端定位的過(guò)程, 會(huì )隨著(zhù)定位區域面積的增大, 而耗費更多的時(shí)間。利用基站的經(jīng)緯度作為基礎來(lái)進(jìn)行早期的定位, 則需要以下幾個(gè)步驟:要將邊長(cháng)為十千米的正方形分割成一千米的小柵格, 如果想要定位數據集內的相關(guān)信息, 就要選擇對邊長(cháng)是一千米的小柵格進(jìn)行計算, 而如果是想要獲得邊長(cháng)一千米的大柵格, 就要對邊長(cháng)是一千米的柵格精心計算。

  2.4 以向量機為基礎的二次定位

  在完成初步定位工作后, 要確定一個(gè)邊長(cháng)為兩千米的正方形, 由于第一級支持向量機定位的區域是四百米, 定位輸出的是以一百米柵格作為中心點(diǎn)的經(jīng)緯度數據信息, 相對于一級向量機的定位而言, 二級向量機在定位計算的時(shí)候難度是較低的, 更加簡(jiǎn)便。后期的預算主要依賴(lài)決策函數計算和樣本向量機計算。隨著(zhù)柵格的變小, 定位的精準度將越來(lái)越高, 而由于增加分類(lèi)的問(wèn)題數量是上升的, 所以, 定位的復雜度也是相對增加的。

  2.5 以K-近鄰法為基礎的三次定位

  第一步要做的就是選定需要定位的區域面積, 在二次輸出之后, 確定其經(jīng)緯度, 然后依賴(lài)經(jīng)緯度來(lái)確定邊長(cháng)面積, 這些都是進(jìn)行區域定位的基礎性工作, 緊接著(zhù)就是定位模型的訓練。以K-近鄰法為基礎的三次定位需要的是綜合訓練信息數據, 對于這些信息數據, 要以大小為選擇依據進(jìn)行篩選和合并, 這樣就能夠減少計算的重復性。當然了, 選擇的區域面積越大, 其定位的速度和精準性也就越低。

  3 結語(yǔ)

  近年來(lái), 隨著(zhù)我國科學(xué)技術(shù)的不斷發(fā)展和進(jìn)步, 數據挖掘技術(shù)愈加重要。根據上面的研究, 我們證明了, 在數據挖掘的過(guò)程中, 應用機器學(xué)習算法具有舉足輕重的作用。作為一門(mén)多領(lǐng)域互相交叉的知識學(xué)科, 它能夠幫助我們提升定位的精準度以及定位速度, 可以被廣泛的應用于各行各業(yè)。所以, 對于機器學(xué)習算法, 相關(guān)人員要加以重視, 不斷的進(jìn)行改良以及改善, 切實(shí)的發(fā)揮其有利的方面, 將其廣泛應用于智能定位的各個(gè)領(lǐng)域, 幫助我們解決關(guān)于戶(hù)外移動(dòng)終端的定位的問(wèn)題。

  參考文獻

  [1]陳小燕, CHENXiaoyan.機器學(xué)習算法在數據挖掘中的應用[J].現代電子技術(shù), 2015, v.38;No.451 (20) :11-14.

  [2]李運.機器學(xué)習算法在數據挖掘中的應用[D].北京郵電大學(xué), 2014.

  [3]莫雪峰.機器學(xué)習算法在數據挖掘中的應用[J].科教文匯, 2016 (07) :175-178.

  數據挖掘論文五: 題目:軟件工程數據挖掘研究進(jìn)展

  摘要:數據挖掘是指在大數據中開(kāi)發(fā)出有價(jià)值信息數據的過(guò)程。計算機技術(shù)的不斷進(jìn)步, 通過(guò)人工的方式進(jìn)行軟件的開(kāi)發(fā)與維護難度較大。而數據挖掘能夠有效的提升軟件開(kāi)發(fā)的效率, 并能夠在大量的數據中獲得有效的數據。文章主要探究軟件工程中數據挖掘技術(shù)的任務(wù)和存在的問(wèn)題, 并重點(diǎn)論述軟件開(kāi)發(fā)過(guò)程中出現的問(wèn)題和相關(guān)的解決措施。

  關(guān)鍵詞:軟件工程; 數據挖掘; 解決措施;

  在軟件開(kāi)發(fā)過(guò)程中, 為了能夠獲得更加準確的數據資源, 軟件的研發(fā)人員就需要搜集和整理數據。但是在大數據時(shí)代, 人工獲取數據信息的難度極大。當前, 軟件工程中運用最多的就是數據挖掘技術(shù)。軟件挖掘技術(shù)是傳統數據挖掘技術(shù)在軟件工程方向的其中一部分。但是它具有自身的特征, 體現在以下三個(gè)方面:

  (1) 在軟件工程中, 對有效數據的挖掘和處理;

  (2) 挖掘數據算法的選擇問(wèn)題;

  (3) 軟件的開(kāi)發(fā)者該如何選擇數據。

  1 在軟件工程中數據挖掘的主要任務(wù)

  在數據挖掘技術(shù)中, 軟件工程數據挖掘是其中之一, 其挖掘的過(guò)程與傳統數據的挖掘無(wú)異。通常包括三個(gè)階段:第一階段, 數據的預處理;第二階段, 數據的挖掘;第三階段, 對結果的評估。第一階段的主要任務(wù)有對數據的分類(lèi)、對異常數據的檢測以及整理和提取復雜信息等。雖然軟件工程的數據挖掘和傳統的數據挖掘存在相似性, 但是也存在一定的差異, 其主要體現在以下三個(gè)方面:

  1.1 軟件工程的數據更加復雜

  軟件工程數據主要包括兩種, 一種是軟件報告, 另外一種是軟件的版本信息。當然還包括一些軟件代碼和注釋在內的非結構化數據信息。這兩種軟件工程數據的算法是不同的, 但是兩者之間又有一定的聯(lián)系, 這也是軟件工程數據挖掘復雜性的重要原因。

  1.2 數據分析結果的表現更加特殊

  傳統的數據挖掘結果可以通過(guò)很多種結果展示出來(lái), 最常見(jiàn)的有報表和文字的方式。但是對于軟件工程的數據挖掘來(lái)講, 它最主要的職能是給軟件的研發(fā)人員提供更加精準的案例, 軟件漏洞的實(shí)際定位以及設計構造方面的信息, 同時(shí)也包括數據挖掘的統計結果。所以這就要求軟件工程的數據挖掘需要更加先進(jìn)的結果提交方式和途徑。

  1.3 對數據挖掘結果難以達成一致的評價(jià)

  我國傳統的數據挖掘已經(jīng)初步形成統一的評價(jià)標準, 而且評價(jià)體系相對成熟。但是軟件工程的數據挖掘過(guò)程中, 研發(fā)人員需要更多復雜而又具體的數據信息, 所以數據的表示方法也相對多樣化, 數據之間難以進(jìn)行對比, 所以也就難以達成一致的評價(jià)標準和結果。不難看出, 軟件工程數據挖掘的關(guān)鍵在于對挖掘數據的預處理和對數據結果的表示方法。

  2 軟件工程研發(fā)階段出現的問(wèn)題和解決措施

  軟件在研發(fā)階段主要的任務(wù)是對軟件運行程序的編寫(xiě)。以下是軟件在編碼和結果的提交過(guò)程中出現的問(wèn)題和相應的解決措施。

  2.1 對軟件代碼的編寫(xiě)過(guò)程

  該過(guò)程需要軟件的研發(fā)人員能夠對自己需要編寫(xiě)的代碼結構與功能有充分的了解和認識。并能夠依據自身掌握的信息, 在數據庫中搜集到可以使用的數據信息。通常情況下, 編程需要的數據信息可以分為三個(gè)方面:

  (1) 軟件的研發(fā)人員能夠在已經(jīng)存在的代碼中搜集可以重新使用的代碼;

  (2) 軟件的研發(fā)人員可以搜尋可以重用的靜態(tài)規則, 比如繼承關(guān)系等。

  (3) 軟件的開(kāi)發(fā)人員搜尋可以重用的動(dòng)態(tài)規則。

  包括軟件的接口調用順序等。在尋找以上信息的過(guò)程中, 通常是利用軟件的幫助文檔、尋求外界幫助和搜集代碼的方式實(shí)現, 但是以上方式在搜集信息過(guò)程中往往會(huì )遇到較多的問(wèn)題, 比如:幫助文檔的準確性較低, 同時(shí)不夠完整, 可利用的重用信息不多等。

  2.2 對軟件代碼的重用

  在對軟件代碼重用過(guò)程中, 最關(guān)鍵的問(wèn)題是軟件的研發(fā)人員必須掌握需要的類(lèi)或方法, 并能夠通過(guò)與之有聯(lián)系的代碼實(shí)現代碼的重用。但是這種方式哦足跡信息將會(huì )耗費工作人員大量的精力。而通過(guò)關(guān)鍵詞在代碼庫中搜集可重用的軟件代碼, 同時(shí)按照代碼的相關(guān)度對搜集到的代碼進(jìn)行排序, 該過(guò)程使用的原理就是可重用的代碼必然模式基本類(lèi)似, 最終所展現出來(lái)的搜索結果是以上下文結構的方式展現的。比如:類(lèi)與類(lèi)之間的聯(lián)系。其實(shí)現的具體流程如下:

  (1) 軟件的開(kāi)發(fā)人員創(chuàng )建同時(shí)具備例程和上下文架構的代碼庫;

  (2) 軟件的研發(fā)人員能夠向代碼庫提供類(lèi)的相關(guān)信息, 然后對反饋的結果進(jìn)行評估, 創(chuàng )建新型的代碼庫。

  (3) 未來(lái)的研發(fā)人員在搜集過(guò)程中能夠按照評估結果的高低排序, 便于查詢(xún), 極大地縮減工作人員的任務(wù)量, 提升其工作效率。

  2.3 對動(dòng)態(tài)規則的重用

  軟件工程領(lǐng)域內對動(dòng)態(tài)規則重用的研究已經(jīng)相對成熟, 通過(guò)在編譯器內安裝特定插件的方式檢驗代碼是否為動(dòng)態(tài)規則最適用的, 并能夠將不適合的規則反饋給軟件的研發(fā)人員。其操作流程為:

  (1) 軟件的研發(fā)人員能夠規定動(dòng)態(tài)規則的順序, 主要表現在:使用某一函數是不能夠調用其他的函數。

  (2) 實(shí)現對相關(guān)數據的保存, 可以通過(guò)隊列等簡(jiǎn)單的數據結構完成。在利用編譯拓展中檢測其中的順序。

  (3) 能夠將錯誤的信息反饋給軟件的研發(fā)人員。

  3 結束語(yǔ)

  在軟件工程的數據挖掘過(guò)程中, 數據挖掘的概念才逐步被定義, 但是所需要挖掘的數據是已經(jīng)存在的。數據挖掘技術(shù)在軟件工程中的運用能夠降低研發(fā)人員的工作量, 同時(shí)軟件工程與數據挖掘的結合是計算機技術(shù)必然的發(fā)展方向。從數據挖掘的過(guò)程來(lái)講, 在其整個(gè)實(shí)施過(guò)程和周期中都包括軟件工程。而對數據挖掘的技術(shù)手段來(lái)講, 它在軟件工程中的運用更加普遍。在對數據挖掘技術(shù)的研究過(guò)程中可以發(fā)現, 該技術(shù)雖然已經(jīng)獲得一定的效果, 但是還有更多未被挖掘的空間, 還需要進(jìn)一步的研究和發(fā)現。

  參考文獻

  [1]王藝蓉.試析面向軟件工程數據挖掘的開(kāi)發(fā)測試技術(shù)[J].電子技術(shù)與軟件工程, 2017 (18) :64.

  [2]吳彥博.軟件工程中數據挖掘技術(shù)的運用探索[J].數字通信世界, 2017 (09) :187.

  [3]周雨辰.數據挖掘技術(shù)在軟件工程中的應用研究[J].電腦迷, 2017 (08) :27-28.

  [4]劉桂林.分析軟件工程中數據挖掘技術(shù)的應用方式[J].中國新通信, 2017, 19 (13) :119.

【數據挖掘論文論文】相關(guān)文章:

數據挖掘論文07-16

數據挖掘論文精品[15篇]07-29

[實(shí)用]數據挖掘論文15篇07-29

旅游管理下數據挖掘運用論文11-18

數據挖掘論文錦集15篇07-29

基于數據挖掘的高校教務(wù)系統設計論文09-02

旅游管理下數據挖掘運用論文6篇11-18

大數據挖掘在智游應用中的探究論文01-13

旅游管理下數據挖掘運用論文(6篇)11-18

電力營(yíng)銷(xiāo)系統中數據挖掘技術(shù)優(yōu)秀論文09-24