開發數據管理軟件以彌合數據庫與數據科學之間的鴻溝_北京軟件開發公司
發表日期:2020-07-15 18:21:23 ?? 文章編輯:宜天信達 ?? 瀏覽次數:
軟件開發公司在項目開發實施中關系數據庫用于保存信息或數據,從而保留數據之間的關系。此屬性使其成為數據科學家的有用工具。但是,關系數據庫研究社區與數據科學家之間存在差距。這導致數據科學中數據庫的低效使用。北京軟件公司試圖彌合關系數據庫與數據科學之間的鴻溝。
大多數數據科學家使用諸如R,Python和C / C ++之類的分析工具進行研究。這些工具很難與當前的數據庫系統集成,從而導致數據分析緩慢而麻煩。北京軟件開發公司:“數據科學家選擇通過開發??一系列數據管理替代方案來重塑數據庫系統,這些替代方案可以執行與傳統數據庫管理系統相似的任務,但是存在許多數十年前在數據庫領域解決的問題。”
“數據庫研究界在開發功能強大的數據庫引擎方面取得了長足的進步,該引擎可進行有效的分析查詢處理。” 軟件開發公司嘗試將數據庫科學中的這些創新與數據科學家最常使用的分析工具相結合。北京軟件外包公司:“我們研究了如何促進分析工具與關系數據庫管理系統的高效,輕松集成。”
大型數據集
在計算機科學中使用標準數據庫系統的另一個問題是處理的數據大小。大多數數據庫系統并未針對使用遠程服務器的大型數據集和大規模數據分析進行優化。要優化數據庫系統,可以考慮三種方法。
軟件公司:“我們將研究重點放在數據庫-客戶端集成的三種主要方法上:客戶端-服務器連接,數據庫內處理以及將數據庫嵌入客戶端應用程序中。” 對于每種方法,他研究了現有數據庫系統中的實現,并評估了它們對于數據科學中常見的大型數據集和工作負載的效率。
鴨數據庫
最終結果是一個名為DuckDB的新數據管理系統,該系統專用于與R和Python(及其他分析工具)進行高效且輕松的集成。該管理系統旨在用作成熟的數據庫系統,不僅用于研究目的。“在DuckDB中,我們將從研究數據庫-客戶端集成的所有課程中吸取教訓,并創建一個易于使用且高效的嵌入式數據庫。” 北京軟件外包公司將繼續擔任CWI的博士后,在那里他將繼續開發DuckDB。