日本精品久久-日本精品二区-日本精品二区-日本极品少妇-成人欧美一区二区三区黑人免费-成人欧美一区二区三区黑人免费

麻省理工神科技:大數(shù)據(jù)分析自動化

來源:網(wǎng)絡(luò)大數(shù)據(jù)

點擊:807

A+ A-

所屬頻道:新聞中心

關(guān)鍵詞:云計算,大數(shù)據(jù),大數(shù)據(jù)分析

    大數(shù)據(jù)分析包括尋找有某種預(yù)測能力的埋藏模式。但是,選擇哪些數(shù)據(jù)的“特征”來進(jìn)行分析通常需要靠人類的直覺。

     

     

      在一個包含數(shù)據(jù)庫中,舉個例子,各種促銷和每周的利潤的開始和結(jié)束日期,其關(guān)鍵數(shù)據(jù)可能不是日期本身而是它們之間的跨度,或著不是總利潤,但平均跨越這些跨度。

      這套取代人的直覺與算法的系統(tǒng),優(yōu)于906個人類團(tuán)隊中的615個團(tuán)隊。

      大數(shù)據(jù)分析包括尋找有某種預(yù)測能力的埋藏模式。但是,選擇哪些數(shù)據(jù)的“特征”來進(jìn)行分析通常需要靠人類的直覺。在一個包含數(shù)據(jù)庫中,舉個例子,各種促銷和每周的利潤的開始和結(jié)束日期,其關(guān)鍵數(shù)據(jù)可能不是日期本身而是它們之間的跨度,或著不是總利潤,但平均跨越這些跨度。

      麻省理工學(xué)院的研究人員的目標(biāo)是,用一個不僅能搜索模式也能設(shè)計特征的新系統(tǒng)把人類元素從大數(shù)據(jù)分析中剝離出來。為了測試他們系統(tǒng)的第一個原型,他們參加了三個數(shù)據(jù)科學(xué)競賽,它與人類團(tuán)隊比賽,在不熟悉的數(shù)據(jù)集中找到預(yù)測模式。906個團(tuán)隊參與了三項比賽,研究人員的“數(shù)據(jù)科學(xué)機器”先于615個團(tuán)隊完成。

      在三項比賽中,數(shù)據(jù)科學(xué)機器的預(yù)測的準(zhǔn)確率是94%96%。第三個數(shù)字則是一個更為溫和的數(shù)字87%。人類的團(tuán)隊通常需要進(jìn)行好幾個月的預(yù)測算法,而數(shù)據(jù)科學(xué)機器產(chǎn)生它的每一個條目只花了2-12小時。

      “我們把數(shù)據(jù)科學(xué)機器視為人類智能的自然補充,”Kanter說,他在麻省理工的碩士論文是《數(shù)據(jù)科學(xué)機器的基礎(chǔ)》。“有這么多的數(shù)據(jù)需要進(jìn)行分析?,F(xiàn)在它(機器)只是待在那里沒有做任何事。因此,也許我們可以拿出一個至少讓我們能夠開始著手、讓我們前進(jìn)的解決方案。”

      項目之間

      Kanter和他的導(dǎo)師KalyanVeeramachaneni,麻省理工學(xué)院計算機科學(xué)和人工智能實驗室的研究科學(xué)家(CSAIL),在他們的論文中描述了數(shù)據(jù)科學(xué)機器,Kanter將在下周的IEEE國際科學(xué)數(shù)據(jù)和先進(jìn)分析會議上發(fā)表。

      Veeramachaneni統(tǒng)一領(lǐng)導(dǎo)計算機科學(xué)與人工智能實驗室的所有成員組,在大數(shù)據(jù)分析的實際問題中采用機器學(xué)習(xí)技術(shù),如依據(jù)風(fēng)電場場址確定其發(fā)電能力或預(yù)測學(xué)生從在線課程中輟學(xué)的風(fēng)險。

      “我們從解決一些工業(yè)數(shù)據(jù)科學(xué)問題的經(jīng)驗中觀察到的是一個非常關(guān)鍵的步驟,稱為特征工程,”Veeramachaneni說?!澳阋龅牡谝患戮褪前涯愕臄?shù)據(jù)從數(shù)據(jù)庫或結(jié)構(gòu)中提取出來,為了做這個,你必須得有很多想法。”

      例如,2個關(guān)鍵指標(biāo)被用在預(yù)測輟學(xué)上:一個學(xué)生花多少時間解決一個問題集和一個學(xué)生相比他或她的同學(xué)花了多少時間在課程網(wǎng)站上。麻省理工學(xué)院的在線學(xué)習(xí)平臺MITx不記錄那些統(tǒng)計數(shù)字,但它可以從推斷中收集數(shù)據(jù)。

      
    特色組成

      KanterVeeramachaneni使用了一些技巧來制定數(shù)據(jù)分析候選特征。一種是利用數(shù)據(jù)庫設(shè)計中固有的結(jié)構(gòu)關(guān)系。數(shù)據(jù)庫通常在不同的表中存儲不同類型的數(shù)據(jù),使用數(shù)字標(biāo)識表示它們之間的相關(guān)性。數(shù)據(jù)科學(xué)機器跟蹤這些相關(guān)性,將它們作為一個線索進(jìn)行功能建設(shè)。

      例如,一個表可以列出零售項目和它們的成本;另一個表可能包括在個別客戶購買的項目中列出的項目。數(shù)據(jù)科學(xué)機器將從第一個表中的第一個表輸入到第二個。然后,從第二表的關(guān)聯(lián)的幾個不同的項目中選擇相同的購買數(shù)量,它將執(zhí)行一套操作,以產(chǎn)生候選功能:總成本,每個訂單,每個訂單的平均成本,最低成本,每個訂單,等等。作為跨表格的數(shù)字標(biāo)識,數(shù)據(jù)科學(xué)機器會在各自層的頂端進(jìn)行相互操作,找到最小的平均值、平均數(shù)、和等。

      它也尋找所謂的分類數(shù)據(jù),這似乎是限制在一個有限的范圍內(nèi)的值,如一周的天數(shù)或品牌名稱。然后,它會依據(jù)劃分現(xiàn)有的跨類別的功能產(chǎn)生新的功能。

      一旦它生成了一系列的備選項,它會減少它們的數(shù)量以確定這些值具有相關(guān)性。然后開始測試其樣本數(shù)據(jù)的簡化特征,使它們以不同的方式來優(yōu)化它們預(yù)測收益率的準(zhǔn)確性。

      “數(shù)據(jù)科學(xué)機器是一個令人驚奇的、最前沿的研究解決實際問題的項目,是一種看問題的全新的方式?!?span style="font-size: 16px">MargoSeltzer說到,他是一個沒有參與這項工作的哈佛大學(xué)計算機科學(xué)教授?!拔蚁胨麄兯龅膶⒀杆俪蔀橐环N標(biāo)準(zhǔn)——很快就會?!?/span>

    (審核編輯: 智慧羽毛)

    聲明:除特別說明之外,新聞內(nèi)容及圖片均來自網(wǎng)絡(luò)及各大主流媒體。版權(quán)歸原作者所有。如認(rèn)為內(nèi)容侵權(quán),請聯(lián)系我們刪除。

    主站蜘蛛池模板: 都市频道节目表今天| 斧头(俄罗斯电影) 战争片| 伊人综合| 孤岛飞鹰演员表| 打手板心视频80下| 《致青春》电影| 寡妇高潮一级毛片情欲小说| 又大又肥又圆的白屁股| 日韩欧美动作影片| 浙江卫视回放观看入口| 河西走廊纪录片观后感| 心奇爆龙战车5之机甲战陀 2021| 火辣监狱电影在线观看| 家庭伦理视频| 内蒙古电视台| 消防知识问答100题| 松果儿| 龟兔赛跑的故事视频| 章莹| 91天堂素人97年清纯嫩模| 年会不能停豆瓣评分| 舞蹈压腿疼哭训练视频| 我,喜欢你演员表介绍| 新疆地图旅游图| 马子俊| 打开双腿扒开打屁股羞辱惩罚视频 | 我这一辈子电影| 天地姻缘七仙女演员表| 尹雪喜演的全部电影| 柚子猫卡夫卡的心理暗示在线观看 | 格伦鲍威尔| 秀人网官网| 吸痰护理ppt课件| 周秀娜全部三级视频| 同志电影副歌1080p| 风月电视剧免费观看剧情| 祖卡尔| 进宝| 河东狮吼 电影| 美女不穿衣| 陈冠希的艳照门|