摘要: 數據是機器學習研究的命門。訪問真正的大規模數據集,是一項傳統上由機器學習研究者和大公司的數據科學家所保有的特權,然而大多數學術研究人員缺無法觸及。 2016年1月14日,雅虎實驗室對外發布了發布史上最大機器學 ......
▲(來源:鍊數成金)
數據是機器學習研究的命門。訪問真正的大規模數據集,是一項傳統上由機器學習研究者和大公司的數據科學家所保有的特權,然而大多數學術研究人員缺無法觸及。 2016年1月14日,雅虎實驗室對外發布了發布史上最大機器學習數據集,達 13.5 TB。
數據集主頁:http://webscope.sandbox.yahoo.com/catalog.php?datatype=r&did=75 。下面是對雅虎實驗室官博文章的翻譯。
數據是機器學習研究的命門。訪問真正的大規模數據集,是一項傳統上由機器學習研究者和大公司的數據科學家所保有的特權,然而大多數學術研究人員缺無法觸及。
雅虎實驗室的科學家們長期浸淫於面向顧客產品的大規模機器學習問題研究。這使得我們在諸如搜索排名、計算廣告、信息檢索以及核機器學習等領域進行深入思考。對外部研究團體來說,外部研究團體的興趣一個關鍵方面是新算法和方法的應用,對產品買賣和從真實產品收集的大規模數據集。
今天,我們驕傲地宣布向研究團體公開發布史上最大機器學習數據集。該數據集存有海量信息,記錄了2015年2月至5月間2千萬用戶約1100 億個事件(13.5TB 未壓縮)的新聞項目交互數據
「雅虎新聞種子數據集」是一個基於若干雅虎產品匿名用戶交互新聞種子樣本,包括雅虎主頁、雅虎新聞、雅虎體育、雅虎財經、雅虎電影和雅虎房產。......
轉貼自: 鍊數成金
留下你的回應
以訪客張貼回應