国产一级一区二区_segui88久久综合9999_97久久夜色精品国产_欧美色网一区二区

掃一掃
關(guān)注微信公眾號

在堅實的基礎(chǔ)上建立模型和分析 > Image by XKCD 垃圾進(jìn)垃圾出。 誕生于計算機(jī)科學(xué)早期的熟悉的短語也是如此,它強(qiáng)調(diào)了
2020-07-22   今日頭條

  在堅實的基礎(chǔ)上建立模型和分析
 
 
  垃圾進(jìn)垃圾出。誕生于計算機(jī)科學(xué)早期的熟悉的短語也是如此,它強(qiáng)調(diào)了驗證輸入的重要性。
 
  您可以擁有最巧妙,最優(yōu)雅,經(jīng)過充分測試的功能,模型或應(yīng)用程序-但是結(jié)果僅與輸入的結(jié)果一樣好。
 
  每當(dāng)我們開發(fā)代碼時,我們都會提前對其將處理的數(shù)據(jù)的性質(zhì)進(jìn)行假設(shè)。一個簡單的算術(shù)函數(shù)可能期望單個浮點數(shù)。小吃攤亭的需求預(yù)測模型可以以特定表格形式預(yù)期最近五年的銷售數(shù)字。無人駕駛汽車控制器將從車輛周圍的許多傳感器接收不同的數(shù)據(jù)流。
 
  如果違反了這些假設(shè),那么可能會發(fā)生三件事之一。
 
  該代碼對照預(yù)期檢查輸入并啟動計劃B。這可能是為了警告用戶數(shù)據(jù)問題并正常停止。
 
  代碼遇到運(yùn)行時錯誤,導(dǎo)致程序崩潰。
 
  該代碼繼續(xù)進(jìn)行,忽略了錯誤的輸入,并產(chǎn)生了可能合理的但不正確的輸出。
 
  第一種情況為您提供降落傘,第二種情況為您帶來頭痛,第三種情況為您在融化的Cornetto水坑中提供多輛汽車堆積。
 
  錯誤的數(shù)據(jù)=>錯誤的決定
 
  隨著組織變得更加成熟的數(shù)據(jù),重要的業(yè)務(wù)決策越來越頻繁地依賴于數(shù)據(jù)分析和建模。如果做出這些決定的數(shù)據(jù)不完整,那么基于該數(shù)據(jù)的推理將是有缺陷的,可能會帶來非常昂貴的后果。
 
  這就是為什么了解數(shù)據(jù)質(zhì)量并了解正在使用的數(shù)據(jù)可能無法滿足您的需求如此重要的原因。
 
  準(zhǔn)確性
 
  曾經(jīng)創(chuàng)建的每條數(shù)據(jù),都起源于現(xiàn)實世界中的事件或度量。這可能是溫度傳感器的輸出,金融交易的記錄或有人在網(wǎng)絡(luò)表單中鍵入其姓名。準(zhǔn)確性描述了"數(shù)據(jù)正確描述所描述的"現(xiàn)實世界"對象的程度。"
 
  為了實現(xiàn)這一點,從真實世界到數(shù)據(jù)集的每個步驟都必須正確保留原始內(nèi)容的本質(zhì)。
 
  在事件/對象的測量或記錄過程中,可能就在開始時就可能發(fā)生錯誤。2020年5月,由于填寫錯誤的申請表時出錯,澳大利亞政府高估了COVID19工資補(bǔ)貼計劃的支出承諾600億澳元(合390億美元)。要求雇主說明他們加入該計劃的雇員人數(shù)。但是,在0.1%的情況下,他們提交了所需補(bǔ)貼的美元價值—正確金額的1,500倍。這些錯誤被遺漏了,它們的總價值流入了議會通過的法案中。幾周后,政府宣布了自己的錯誤,面紅了,但對于在沙發(fā)后方找到600億美元的想法,可能并不太不滿意。
 
  在上面的示例中,僅列出前100名左右的索賠人可能會闡明該問題。您可能希望找到大型的快餐和零售品牌,連鎖酒店等,但是當(dāng)您遇到一家當(dāng)?shù)夭宛^或一家小型旅游公司,聲稱擁有數(shù)千名員工時,您就會知道這是一個問題。
 
  這突出了基本分析和概要分析對理解數(shù)據(jù)集的重要性。在進(jìn)行任何報告或建模之前,您需要仔細(xì)查看每個字段以查看其值是否有意義,并且不要感到奇怪。
 
  精度與表親有密切關(guān)系:精度。環(huán)法自行車賽的賽段時間以小時和秒為單位進(jìn)行記錄,但這在奧運(yùn)會的100m決賽中無效。在數(shù)據(jù)類型轉(zhuǎn)換期間,或者由于用于進(jìn)行初始測量的儀器的靈敏度,精度可能會丟失,并且可能導(dǎo)致模型可用的方差較低。
 
  完整性
 
  數(shù)據(jù)完整性表示"數(shù)據(jù)集中所需數(shù)據(jù)的程度"。任何數(shù)據(jù)集都可能有缺口和數(shù)據(jù)缺失,但是缺失的數(shù)據(jù)是否會影響您回答問題的能力。要了解的關(guān)鍵是是否引入了會影響您結(jié)果的偏見。
 
  1936年,《文學(xué)文摘》(LiteraryDigest)進(jìn)行了一項民意調(diào)查,詢問受訪者是否會投票支持共和黨人阿爾弗雷德·蘭登(AlfredLandon),還是現(xiàn)任民主黨人富蘭克林·羅斯福(FranklinD.Roosevelt)。但是,郵件列表主要是從電話目錄中選擇的。現(xiàn)在,在1936年,電話遠(yuǎn)非普及,被認(rèn)為是奢侈品。因此,由于遺漏了那些無法負(fù)擔(dān)電話的人,郵寄名單最終偏向于中上層選民。一旦做出回應(yīng),《文學(xué)文摘》就正確地預(yù)測出了滑坡。然而,不幸的是,蘭登而不是羅斯福發(fā)生了滑坡,羅斯福最終在美國歷史上最單方面的選舉中贏得了48個州中的46個。通過使用更完整的數(shù)據(jù)集(例如選舉名冊),或者至少通過理解和調(diào)整其缺失數(shù)據(jù)所造成的偏差,投票數(shù)字可能已經(jīng)接近目標(biāo)。
 
  完整性問題可能會在記錄級別發(fā)生,就像上面那樣,您會丟失全部行,但也可能會在列級別發(fā)生,即,字段在80%的時間內(nèi)可能為空白。如果缺失值不是均勻分布的,這可能會跳出許多機(jī)器學(xué)習(xí)方法,并且可能再次引入偏差。為了緩解此問題,有兩種方法:
 
  丟棄不完整的列
 
  丟棄包含缺失數(shù)據(jù)的行
 
  插補(bǔ)丟失的數(shù)據(jù)(也稱為空白)
 
  YoghitaKinha的精彩文章"如何處理數(shù)據(jù)集中的缺失值"中包含對上述方法的全面介紹。
 
  盡管實際響應(yīng)率要低得多,但默認(rèn)值給人一個完整字段的錯覺,這是一個更加棘手和更隱蔽的完整性問題。當(dāng)我為零售時尚品牌建立客戶終身價值模型時,這曾經(jīng)發(fā)生在我身上。每個客戶檔案上都有一個"性別"標(biāo)志-M代表男性,F(xiàn)代表女性。該字段在數(shù)據(jù)集中具有很高的完整性,但是當(dāng)一些基本分析顯示大約6個月前向女性客戶急劇轉(zhuǎn)變時,人們就產(chǎn)生了懷疑。事實證明,在最近重新設(shè)計的注冊表單中,性別字段已從沒有默認(rèn)值的必需下拉框更改為默認(rèn)="女性"的下拉列表。這種微小的變化意味著忽略該字段的客戶現(xiàn)在被記錄為女性,而不是被發(fā)送回表格中填寫。
 
  一致性
 
  如果在多個位置復(fù)制數(shù)據(jù),則所有實例之間的數(shù)據(jù)必須保持一致。對于百貨商店,您可以通過會員計劃,郵件列表,在線帳戶支付系統(tǒng)和訂單履行系統(tǒng)來保存特定客戶的數(shù)據(jù)。在混亂的系統(tǒng)中,可能會有拼寫錯誤的名稱,舊地址和沖突的狀態(tài)標(biāo)志。這可能會導(dǎo)致僅從數(shù)據(jù)點的一個實例讀取數(shù)據(jù)的過程出現(xiàn)問題,例如,如果某個客戶退訂了營銷電子郵件,但是這并未反映該客戶的所有代表,他們可能會繼續(xù)接收通信,他們感到非常沮喪。不一致的聯(lián)系信息還可能導(dǎo)致在打電話或向深淵發(fā)送信件時浪費金錢。
 
  在上面的示例中,擁有一個高度集成的客戶數(shù)據(jù)平臺(例如Segment或Omneo)可以幫助匯總客戶的單個視圖,并確保解決一致性方面的問題。
 
  及時性
 
  您的數(shù)據(jù)集是否足夠最新?事件發(fā)生與它出現(xiàn)在您的數(shù)據(jù)之間有什么滯后。很多數(shù)據(jù)分析和建模都將基于歷史快照,因此直到今天為止都不需要運(yùn)行它們。但是,實時決策需要實時數(shù)據(jù)。如果每天只能一次分批下載來自雷達(dá)系統(tǒng)的數(shù)據(jù),那么這對空中交通管制員不會有太大幫助。如果某些商店由于連接問題而推遲了周日的銷售數(shù)據(jù),那么您周一的管理會議數(shù)字將不正確。
 
  您的數(shù)據(jù)集的及時性可能取決于導(dǎo)致其創(chuàng)建的數(shù)據(jù)集成管道。這可以是實時的,可以在事件描述后立即提供數(shù)據(jù),也可以批量處理,這意味著數(shù)據(jù)將"凍結(jié)"直到下一次刷新。對該管道的更改可能使您可以訪問更多最新數(shù)據(jù),并對新事件做出更快的響應(yīng)。
 
  獨特性
 
  每個真實世界的對象或事件僅應(yīng)在特定的數(shù)據(jù)集中表示一次。即是否有JohnDoe和JohnnyDoe的客戶記錄,盡管他們實際上是同一個人。
 
  因此,任何涉及客戶的指標(biāo)(客戶數(shù)量,每位客戶的支出,購買頻率)都將由于包含一個人的重復(fù)表示而被剔除。
 
  發(fā)現(xiàn)此問題意味著確定適當(dāng)?shù)闹麈I。在JohnDoe和JohnnyDoe的示例中,他們可以具有不同的名稱和客戶ID,但是可以匹配電子郵件地址,這有力地暗示了他們是同一個人。這意味著在進(jìn)行任何分析或建模之前,需要進(jìn)行數(shù)據(jù)整理以合并這些客戶記錄的附加步驟。
 
  有效期
 
  數(shù)據(jù)集中的字段可能具有其必須滿足的條件才能被視為有效。電子郵件地址必須帶有"@"符號,電話號碼必須是數(shù)字序列,并且會員級別字段可能需要為"Gold","Silver"或"Bronze"。
 
  在許多情況下,a使用正則表達(dá)式可以輕松實現(xiàn)有效性檢查。有在線數(shù)據(jù)庫,例如regexlib.com,其中包含數(shù)千種常見數(shù)據(jù)類型的正則表達(dá)式。對于離散數(shù)據(jù)類型,例如上面的成員資格級別示例,簡單的頻率統(tǒng)計信息可以告訴您是否存在有效性問題。如果除了"Gold","Silver"或"Bronze"以外,還有大量其他值,則說明出現(xiàn)了問題。
 
  一旦識別出無效數(shù)據(jù),它將有效地成為完整性問題,可以使用前面介紹的方法來解決。
 
  綜上所述
 
  在任何數(shù)據(jù)科學(xué)項目的開始階段,重要的是要清楚地了解您的數(shù)據(jù)及其從源到數(shù)據(jù)集的路徑。盡管可能會急于實施您項目中更性感,更復(fù)雜的部分,但如果它建立在不穩(wěn)定的基礎(chǔ)上,那將是浪費時間。只有認(rèn)真地進(jìn)行提問,測試假設(shè),分析和理解數(shù)據(jù)的工作,您才能真正對分析的質(zhì)量充滿信心。

熱詞搜索:

上一篇:大數(shù)據(jù)網(wǎng)管運(yùn)營數(shù)據(jù)存儲模式研究
下一篇:終于有人把AI、BI、大數(shù)據(jù)、數(shù)據(jù)科學(xué)講明白了

分享到: 收藏
国产一级一区二区_segui88久久综合9999_97久久夜色精品国产_欧美色网一区二区
青青草国产精品亚洲专区无| 国产精品丝袜一区| 91啪亚洲精品| 制服.丝袜.亚洲.另类.中文| 亚洲欧美区自拍先锋| 丁香婷婷综合激情五月色| 欧美成人精品福利| 黄网站免费久久| 精品美女在线播放| 久久久亚洲国产美女国产盗摄| 欧美一卡2卡3卡4卡| 国产精品自拍毛片| 中文字幕在线免费不卡| 亚洲h在线观看| 精彩视频一区二区| 91精品国产一区二区三区| 亚洲综合自拍偷拍| 99久久久国产精品免费蜜臀| 日本一区二区三级电影在线观看| 国产白丝网站精品污在线入口| 欧美一区二区三区成人| 日本视频一区二区| 欧美日产国产精品| 日本亚洲免费观看| 欧美女孩性生活视频| 午夜精品成人在线| 欧美一区二区三区性视频| 久久超碰97人人做人人爱| 欧美精品一区男女天堂| 成人午夜大片免费观看| 自拍偷在线精品自拍偷无码专区 | 99re66热这里只有精品3直播| 国产精品久久久久久久第一福利| 99精品一区二区三区| 亚洲人成网站在线| 欧美日韩国产一二三| 青青草国产成人99久久| 精品国产乱码久久久久久老虎| 国产盗摄女厕一区二区三区| 日韩久久一区二区| 制服视频三区第一页精品| 精品亚洲成a人在线观看| 国产午夜精品一区二区三区四区| 成人av午夜电影| 一区二区三区不卡视频| 日韩你懂的在线播放| 成年人国产精品| 午夜亚洲福利老司机| 国产欧美精品一区二区三区四区| 色婷婷亚洲综合| 久草中文综合在线| 欧美国产1区2区| 欧美日韩精品一区二区天天拍小说| 麻豆freexxxx性91精品| 一区二区三区色| 久久久精品国产99久久精品芒果| 在线免费观看视频一区| 国产一区二区三区在线观看免费视频 | 欧美日韩二区三区| 成人午夜电影小说| 免费在线观看一区二区三区| 亚洲欧美日韩中文字幕一区二区三区 | 日韩欧美在线123| 欧洲色大大久久| 成人网在线免费视频| 日韩和欧美一区二区三区| 综合久久给合久久狠狠狠97色| 日韩美女在线视频| 538prom精品视频线放| 色婷婷综合久久久中文一区二区| 国产精品资源在线看| 精品亚洲成av人在线观看| 亚洲第一成人在线| 一区二区三区在线观看国产| 中文字幕av一区二区三区高| 精品国内二区三区| 精品国产1区二区| 欧美日本在线观看| 欧美性大战久久久久久久蜜臀| 成人激情图片网| 成人精品小蝌蚪| 成人晚上爱看视频| 国产99久久久国产精品免费看| 久草精品在线观看| 久久国产尿小便嘘嘘| 日韩av一二三| 美女性感视频久久| 久久精品国产99久久6| 奇米一区二区三区av| 视频一区二区国产| 免费欧美日韩国产三级电影| 亚洲va在线va天堂| 性欧美大战久久久久久久久| 亚洲成av人片在线观看| 亚洲va欧美va人人爽午夜| 性做久久久久久久免费看| 日韩精品午夜视频| 男女男精品视频网| 天天免费综合色| 亚洲成人午夜电影| 青青草精品视频| 精品一区二区三区在线播放视频| 国内精品国产三级国产a久久| 韩国一区二区在线观看| 国产风韵犹存在线视精品| 不卡欧美aaaaa| 欧美片网站yy| 欧美大黄免费观看| 国产精品二区一区二区aⅴ污介绍| 中文字幕一区av| 亚洲综合丁香婷婷六月香| 亚洲成人一二三| 麻豆一区二区99久久久久| 国产精品一区在线观看你懂的| 成人动漫在线一区| 欧美综合天天夜夜久久| 精品免费99久久| 亚洲欧美经典视频| 三级成人在线视频| 粉嫩一区二区三区在线看| 一本色道久久综合精品竹菊| 欧美日本免费一区二区三区| 久久综合丝袜日本网| 综合久久国产九一剧情麻豆| 同产精品九九九| 成人亚洲一区二区一| 欧美日韩激情一区二区三区| 日韩精品中午字幕| 亚洲精品乱码久久久久久| 久久精品国产成人一区二区三区| bt欧美亚洲午夜电影天堂| 91精品国产一区二区人妖| 亚洲欧洲在线观看av| 日本欧美韩国一区三区| caoporm超碰国产精品| 国产成人午夜精品5599| 亚洲尤物在线视频观看| 一区二区三区蜜桃| 热久久免费视频| 成人动漫中文字幕| 欧美不卡在线视频| 亚洲成人手机在线| 成人av电影在线观看| 久久夜色精品国产欧美乱极品| 亚洲综合久久av| 91日韩一区二区三区| 久久这里都是精品| 日韩成人av影视| 欧美日韩色综合| 亚洲图片你懂的| 白白色 亚洲乱淫| 精品国产乱码久久久久久免费| 亚洲成av人在线观看| 99久久综合99久久综合网站| 欧美哺乳videos| 日本欧美一区二区三区乱码| 在线免费一区三区| 亚洲欧美视频在线观看视频| 欧美性极品少妇| 国产清纯美女被跳蛋高潮一区二区久久w | 亚洲自拍偷拍综合| 91浏览器入口在线观看| 国产精品久久久久久久久久久免费看 | 国产69精品久久久久毛片| 精品剧情在线观看| 麻豆免费看一区二区三区| 91精品久久久久久久久99蜜臂 | 毛片基地黄久久久久久天堂| 91精品国模一区二区三区| 日韩中文字幕亚洲一区二区va在线 | 91在线高清观看| 亚洲激情欧美激情| 在线免费观看成人短视频| 一区二区激情小说| 欧美一区二区三区在线看| 久久 天天综合| 国产女人aaa级久久久级| 粉嫩av一区二区三区粉嫩| 国产精品毛片高清在线完整版| 91小视频在线免费看| 亚洲一区二区在线免费观看视频| 欧美三级电影在线看| 激情小说欧美图片| 国产精品网站在线播放| 91香蕉视频在线| 日本vs亚洲vs韩国一区三区二区| 在线免费观看日本欧美| 青青草国产精品97视觉盛宴| 欧美国产成人在线| 91蝌蚪porny| 蜜臀av一区二区在线观看 | 国产一区999| 亚洲免费视频成人| 欧美精品国产精品| 国产99久久久国产精品潘金| 亚洲精品va在线观看| 久久综合九色综合97婷婷| 91精彩视频在线观看| 激情综合色丁香一区二区| 国产精品灌醉下药二区|