總結(jié)及下一階段工作計劃



《總結(jié)及下一階段工作計劃》由會員分享,可在線閱讀,更多相關(guān)《總結(jié)及下一階段工作計劃(41頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、總結(jié)及下一階段工作計劃劉學錚03.09.03大綱v信息網(wǎng)格研究綜述v階段論文和科研成果v基于屬性的搜索引擎v信息網(wǎng)格設(shè)計數(shù)據(jù)網(wǎng)格、信息網(wǎng)格和知識網(wǎng)格1,3數(shù)據(jù)網(wǎng)格與信息網(wǎng)格v數(shù)據(jù)網(wǎng)格數(shù)據(jù)網(wǎng)格解決的問題:v解決海量數(shù)據(jù)的存儲和共享問題v主要為計算任務以及計算網(wǎng)格服務,是一種底層的海量數(shù)據(jù)倉儲體系數(shù)據(jù)網(wǎng)格不去解決的問題:v多類的和復雜的信息格式v信息表示和元數(shù)據(jù)v智能化信息獲?。↖nformation retrieval)v信息網(wǎng)格信息網(wǎng)格解決的問題v信息的智能化獲取v信息檢索v信息的表示v多類的元數(shù)據(jù)和結(jié)構(gòu)化v給用戶和應用程序提供特定內(nèi)容的信息服務信息網(wǎng)格不去解決的問題v海量數(shù)據(jù)存儲,數(shù)據(jù)管理v
2、計算問題及強數(shù)據(jù)量(data-density)的計算和數(shù)據(jù)訪問方式信息網(wǎng)格和知識網(wǎng)格v信息網(wǎng)格信息網(wǎng)格解決的問題v信息的智能化獲取v信息檢索v信息的表示v多類的元數(shù)據(jù)和結(jié)構(gòu)化信息網(wǎng)格不去解決的問題v數(shù)據(jù)挖掘v問題求解v知識網(wǎng)格知識網(wǎng)格解決的問題v數(shù)據(jù)挖掘、知識挖掘v規(guī)則的發(fā)現(xiàn)v數(shù)據(jù)、信息的可視化vOntology 轉(zhuǎn)換知識網(wǎng)格不去解決的問題v無結(jié)構(gòu)信息的半結(jié)構(gòu)化v元數(shù)據(jù)格式的匹配和轉(zhuǎn)換v信息智能化檢索資源網(wǎng)格、信息網(wǎng)格與服務網(wǎng)格2信息網(wǎng)格的其他討論v信息網(wǎng)格作為計算網(wǎng)格和知識網(wǎng)格的中間層次,允許對于異構(gòu)信息的統(tǒng)一訪問,提供分布式資源上的公用信息服務。統(tǒng)一訪問依賴于metadata對于信息的描述
3、(并集成異構(gòu)資源)4,5vThe computation/data grid has supercomputers,large servers,massive data storage facilities and specialised devices and facilities(e.g.for VR(Virtual Reality).The main functions include compute load sharing/algorithm partitioning,resolution of data source addresses,security,replication a
4、nd message rerouting.The information grid resolves homogeneous access to heterogeneous information sources.The knowledge grid utilises knowledge discovery in database technology(especially data mining)to generate knowledge(from information and data in the lower 2 layers of the GRIDs).6信息網(wǎng)格的其他討論vIPG(
5、information power grid),NASA.:針對與對異構(gòu)分布式信息資源的無縫訪問7vGIG(global information grid),USA Defance.強調(diào)以網(wǎng)絡(luò)為中心的通信,信息廣播和作戰(zhàn)系統(tǒng)(net-centric information environment)vInfoGrid8:一個實現(xiàn)信息訪問應用的框架,其上提供用戶界面及交互模型。它集中于獲取應用程序?qū)ο?,以其對于信息,?shù)據(jù)和服務的統(tǒng)一訪問(retrieval-centered interaction model for information access applications)大綱v信息網(wǎng)格研
6、究綜述v階段論文和科研成果v基于屬性的搜索引擎v信息網(wǎng)格設(shè)計階段論文和科研成果v對等網(wǎng)絡(luò)及信息網(wǎng)格的基礎(chǔ)設(shè)施(infrastructure)研究結(jié)構(gòu)化對等網(wǎng)絡(luò)上靜態(tài)和自適應的數(shù)據(jù)備份策略基于節(jié)點異構(gòu)信息的路由及負載平衡算法v信息搜索和基于語義的信息表示研究應用于大規(guī)模分布系統(tǒng)的潛在語義分析和信息索引策略查找環(huán)(Lookup-Rings):動態(tài)網(wǎng)絡(luò)環(huán)境上的高效信息檢索基于元數(shù)據(jù)表示的信息網(wǎng)格階段論文和科研成果v大規(guī)模分布系統(tǒng)上消息傳遞及同步機制O(1)復雜度對等網(wǎng)絡(luò)路由算法高可靠的大規(guī)模分布系統(tǒng)廣播機制結(jié)構(gòu)化對等網(wǎng)絡(luò)上靜態(tài)和自適應的數(shù)據(jù)備份策略v針對傳統(tǒng)的“連續(xù)k-近鄰”數(shù)據(jù)冗余備份算法之不足,
7、提出改進的“分區(qū)近鄰”備份算法,適應高度動態(tài)環(huán)境下的數(shù)據(jù)備份要求,很大程度上避免了無用的數(shù)據(jù)遷移,節(jié)省了系統(tǒng)維護開銷v提出一個系統(tǒng)維護開銷模型,并給出基于模型的優(yōu)化策略v提出variation-tolerant recovery和adaptive probing相結(jié)合的系統(tǒng)維護策略,實現(xiàn)了靜態(tài)的和自適應的數(shù)據(jù)冗余備份基于節(jié)點異構(gòu)信息的路由及負載平衡算法v傳統(tǒng)對等網(wǎng)絡(luò)采用哈希算法實現(xiàn)總體上的負載平衡。這種簡單處理方式?jīng)]有能有效的利用節(jié)點能力(強節(jié)點),并且仍然有一定程度上的負載不均衡v本算法利用節(jié)點容量表儲存當前節(jié)點能力和使用狀況,并基于此進行負載分配,實現(xiàn)了實施的細粒度平衡,并有效的利用了節(jié)點
8、能力v算法使用一個輕度的消息擴散策略保證了容量表的實施更新應用于大規(guī)模分布系統(tǒng)的潛在語義分析和信息索引策略v將傳統(tǒng)信息獲取領(lǐng)域(IR)中的潛在語義分析方法(Latent Semantic Analysis)應用于大規(guī)模分布式對等網(wǎng)絡(luò)上,實現(xiàn)對于信息源之間潛在語義關(guān)聯(lián)的提取和利用。通過將信息和用戶使用特性映射到降維歐式空間中的點來實現(xiàn)對于語義相關(guān)性的表示v建立了對于潛在語義和用戶使用特性的后驗概率模型,使用MAP(maximizing a posteriori)進行優(yōu)化求解。采用基于E-M優(yōu)化的迭代算法實現(xiàn)了對于潛在語義表示空間的降維和求解,避免了分布式環(huán)境下SVD分解的復雜計算量v通過提取的潛
9、在語義表示來定義信息索引并指導分布式搜索,極大的提高了信息搜索效率(提高了23個數(shù)量級)查找環(huán)(Lookup-Rings):動態(tài)網(wǎng)絡(luò)環(huán)境上的高效信息檢索v解決動態(tài)網(wǎng)絡(luò)環(huán)境下無中心大規(guī)模分布式系統(tǒng)的高效信息檢索問題。v建立了信息查找表(索引)的優(yōu)化性能和網(wǎng)絡(luò)動態(tài)變化造成信息查找表維護開銷之間的平衡(trade-off)模型,求解出最優(yōu)的信息查找表尺度v基于最有查找表尺度建立高效的信息檢索和維護算法,證明并實現(xiàn)了無偏檢索(unbiased searching)算法中的最優(yōu)效率?;谠獢?shù)據(jù)表示的信息網(wǎng)格v使用元數(shù)據(jù)表示(metadata)實現(xiàn)信息網(wǎng)格底層架構(gòu)v通過元數(shù)據(jù)的等價轉(zhuǎn)換完成分布信息檢索和信
10、息集成v利用用戶反饋數(shù)據(jù)實現(xiàn)信息檢索優(yōu)化O(1)復雜度對等網(wǎng)絡(luò)路由算法v改善了傳統(tǒng)結(jié)構(gòu)化對等網(wǎng)絡(luò)設(shè)計的節(jié)點鏈路關(guān)系,很大程度上降低了節(jié)點的聯(lián)接數(shù)v設(shè)計了O(1)復雜度的路由算法。對照HotOS IX中關(guān)于O(1)復雜度討論的先驅(qū)性論文,本設(shè)計避免了超級節(jié)點(supernode),實現(xiàn)了完全對等的拓撲結(jié)構(gòu)。這樣同時解決了前文中超級節(jié)點帶寬開銷過大的問題高可靠的大規(guī)模分布系統(tǒng)廣播機制v實現(xiàn)了應用層(application level)的廣播機制,建立了一個高可靠的分布式消息通知和廣播機制v對比gossip算法,減少了消息冗余,提高了算法效率,其算法效率接近最優(yōu)生成樹的樹型廣播v對比樹型廣播,本算法
11、保證了很高的可靠性以及負載均衡,其可靠性接近gossip算法大綱v信息網(wǎng)格研究綜述v階段論文和科研成果v基于屬性的搜索引擎設(shè)計v信息網(wǎng)格設(shè)計基于屬性的搜索引擎設(shè)計v概述及與傳統(tǒng)文本搜索引擎的對比v基于屬性的搜索引擎設(shè)計v信息網(wǎng)格設(shè)計概述及與傳統(tǒng)文本搜索引擎的對比v應用背景:互聯(lián)網(wǎng)上巨大信息的獲取和檢索v傳統(tǒng)文本搜索引擎的實現(xiàn)方法Html頁面文本的獲取(Crawling)頁面解析和倒排索引建立(Inverted Indexing)頁面聯(lián)接關(guān)系分析和評定(Page Ranking)基于倒排索引的聯(lián)合查詢(Searching and merging)傳統(tǒng)文本搜索引擎的優(yōu)勢和不足v優(yōu)勢使用簡便,面向最
12、終用戶只關(guān)心文本,具有通用性。同時鑒于目前IR技術(shù)水平尚待發(fā)展,純文本搜索不啻為最直接的搜索引擎策略v不足完全不考慮文本結(jié)構(gòu)信息,限制了高級使用其通用性也是不足之處,無法對于專業(yè)應用提供有針對性的服務,不能實現(xiàn)在語義上的定域查詢,查詢精度差不包含屬性信息,不符合信息網(wǎng)格的需求,無法對應用程序?qū)崿F(xiàn)必需的支持基于屬性的半結(jié)構(gòu)化信息搜索引擎v設(shè)計思想將信息(html頁面,ftp文件,pdf文件)看作是屬性的集合,而非傳統(tǒng)平面純文本的集合,亦即:Item=i,i=1,n查詢請求可以詳細指定所查信息的屬性,提供key或者與key相對應的屬性值,縮小查尋范圍,提高查詢精度屬性之間實現(xiàn)等效轉(zhuǎn)換這本質(zhì)上是利用
13、(文本中)結(jié)構(gòu)信息和語義信息概要設(shè)計v系統(tǒng)組成部分信息資源獲取(Crawling)vCrawler and Crawler Scheduler半結(jié)構(gòu)化和倒排索引建立vTemplate-based Analyzer and Inverted-index Builder語義相關(guān)分析及屬性表評定vSVD and Ranker基于屬性的查詢vProperty-based Query Engine與傳統(tǒng)純文本搜索引擎之比較網(wǎng)頁Crawler頁面解析器文本索引應答引擎純文本Page Rank網(wǎng)頁Crawler半結(jié)構(gòu)化器屬性索引應答引擎語義Rank及擴展查詢屬性查詢純文本搜索引擎基于屬性的搜索引擎模版庫In
14、ternet獲取獲取分析分析索引索引查詢查詢關(guān)鍵技術(shù)v半結(jié)構(gòu)化通用半結(jié)構(gòu)化器v提取html的表格信息,形成屬性表v提取已知格式的文檔信息,譬如DOC,PDF等基于模版的專用半結(jié)構(gòu)化器v對于特定頁面定制特定的模版,使用XML規(guī)則知道解析v對于特定服務定制特定的模版及特定協(xié)議(ftp等)v通過半結(jié)構(gòu)化器,將頁面轉(zhuǎn)換成為屬性表,縮小查尋范圍,提高查詢精度和效率關(guān)鍵技術(shù)v屬性索引針對轉(zhuǎn)換的屬性表,建立屬性倒排對于二維表格的處理其他頁面內(nèi)容的索引,與文本搜索引擎的處理相同關(guān)鍵技術(shù)v基于屬性表和語義的Rank和擴展查詢屬性表特定的Rank基于SVD潛在語義分析的頁面Rank技術(shù)擴展查詢技術(shù)v基于屬性詞相關(guān)
15、的擴展查詢v基于同義詞字典的擴展查詢v基于頁面潛在相關(guān)的擴展查詢關(guān)鍵技術(shù)v基于屬性查詢的應答引擎對于設(shè)定屬性值(值域)的查詢優(yōu)化大綱v信息網(wǎng)格研究綜述v階段論文和科研成果v基于屬性的搜索引擎v信息網(wǎng)格設(shè)計信息網(wǎng)格設(shè)計v基于屬性的搜索引擎可以看作信息網(wǎng)格架構(gòu)上面的一個應用信息網(wǎng)格系統(tǒng)具備了對于信息的統(tǒng)一描述(基于屬性標的元數(shù)據(jù))可以提供用戶查詢的反饋具備管理和看守一定范圍的Internet上信息資源的能力v信息網(wǎng)格底層架構(gòu)應該給多個這樣的應用提供基礎(chǔ)設(shè)施(infrastructure)級的支持信息網(wǎng)格圖示InternetInformation Grid Infrastructure信息資源信息網(wǎng)
16、格Knowledge Grid應用程序終端用戶上層用戶從基于屬性的搜索引擎到信息網(wǎng)格:典型信息網(wǎng)格的結(jié)構(gòu)設(shè)計資源獲取器應答引擎RankInternet資源獲取資源獲取資源庫定域Scheduler半結(jié)構(gòu)化器屬性索引半結(jié)構(gòu)化規(guī)則分析獲取分析獲取查詢查詢輔助模塊基于元數(shù)據(jù)的請求返回結(jié)果翻譯模塊翻譯模塊格式轉(zhuǎn)換應用程序終端用戶其他網(wǎng)格信息網(wǎng)格基礎(chǔ)架構(gòu)v多個信息網(wǎng)格之間交互數(shù)據(jù)的統(tǒng)一接口v用戶查詢分派v針對特定用戶的信息集成信息網(wǎng)格基礎(chǔ)架構(gòu)v多個信息網(wǎng)格之間交互數(shù)據(jù)的統(tǒng)一接口抽象信息網(wǎng)格服務v輸入基于元數(shù)據(jù)表示的查詢請求v輸出特定格式的查詢結(jié)果采用基于XML統(tǒng)一表示的數(shù)據(jù)格式可外掛的翻譯模塊信息網(wǎng)格基礎(chǔ)
17、架構(gòu)v用戶查詢派發(fā)用戶提交查詢:v特定元數(shù)據(jù)結(jié)構(gòu)v特定信息網(wǎng)格定域v特定服務描述檢索可以服務的信息網(wǎng)格:基于用戶元數(shù)據(jù)模式v采用無中心對等網(wǎng)絡(luò)中的檢索技術(shù)v采用用戶配置文件v采用信息網(wǎng)格特定的注冊檢索服務器來完成這些特定服務企也可以看作一定意義上的“信息網(wǎng)格”信息網(wǎng)格基礎(chǔ)構(gòu)架v針對特定用戶的信息集成最終的信息集成應該是應用程序或者用戶端來完成的,因此集成有理由采用無偏向性的簡單結(jié)果融合優(yōu)化的信息集成技術(shù)是“元搜索”領(lǐng)域中的基本課題,有一些成型的結(jié)果通過用戶反饋(relevance feedback)積累知識,實現(xiàn)長程的信息集成優(yōu)化v這一部分主要是特定信息網(wǎng)格應用的范疇前述研究結(jié)果和信息網(wǎng)格的結(jié)
18、合v針對大規(guī)模分布系統(tǒng)的搜索技術(shù)v針對高度動態(tài)系統(tǒng)的高可用技術(shù)v針對潛在語義信息分析的技術(shù)v統(tǒng)一的信息表示參考文獻1 Nigel Baker et al.Querying Large Physics Data Sets Over an Information Grid.In Chep 012 Alexander Reinefeld et al.Concepts and Technologies for a Worldwide Grid Infrastructure.In Euro-Par 20023 F.P.Terpstra,et al.Information discovery and co
19、mbination from divergent data sources for Travel Information Systems.In 7th European Conference on Principles and Practice of Knowledge Discovery in Databases(ECML/PKKD-2003)4 Omer F.Rana et al.Issues in Building Agent-Based Computational Grids.Third Workshop of the UK Special Interest Group on Mult
20、i-Agent Systems(UKMAS2000)Oxford,UK.12 2000 參考文獻v5 Keith.G.et al.Knowledge,information and Data.A briefing to the Office of Science and Technology,UK,2000v6 Keith.G.et al.CRIS,Grey Literature and the Knowledge SocietyIn CRIS2000v7 David.D et al.XDB-IPG:An Extensible Database Architecture for an Info
21、rmation Grid of Heterogeneous and Distributed Information Resourcesv8 R.Rao et al.The Information Grid:A Framework for Information Retrieval and Retrieval-Centered Applications.In Proceedings of the fifth annual ACM symposium on User interface software and technology(UIST 92),pages 23-32,Monterey,CA,1992.謝謝大家!并請指正!
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 踏春尋趣 樂享時光——春季旅游踏春出游活動
- 清明假期至安全不缺席風起正清明安全需守護
- 全國黨員教育培訓工作規(guī)劃
- XX中小學公共衛(wèi)生培訓樹立文明衛(wèi)生意識養(yǎng)成良好衛(wèi)生習慣
- 小學生常見傳染病預防知識培訓傳染病的預防措施
- 3月18日全國愛肝日中西醫(yī)結(jié)合逆轉(zhuǎn)肝硬化
- 肝病健康宣教守護您的肝臟健康如何預防肝炎
- 垃圾分類小課堂教育綠色小衛(wèi)士分類大行動
- 中小學班主任經(jīng)驗交流從勝任到優(yōu)秀身為世范為人師表 立責于心履責于行
- 教師數(shù)字化轉(zhuǎn)型理解與感悟教師數(shù)字化轉(zhuǎn)型的策略與建議
- 團建小游戲團建破冰小游戲團隊協(xié)作破冰游戲多人互動
- 教師使用deepseek使用攻略讓備課效能提升
- 辦公室會議紀要培訓會議內(nèi)容會議整理公文攥寫
- 黨員要注重培塑忠誠奮斗奉獻的人格力量
- 橙色卡通風兒童春季趣味運動會