作為一門學科,數據挖掘對于世人來說在很大程度上是透明的。我們在大多數時間都從未注意到它的發生。但每當我們辦理商店購物卡、使用信用卡購物或在網上沖浪時,都在創建數據。這些數據以大數據集形式存儲在我們每天與之打交道的公司所擁有的功能強大的計算機上。 存在于這些數據集之內的便是模式 - 表明我們的興趣、習慣和行為。數據挖掘可讓人們找到并解讀這些模式,從而幫助人們做出更明智的決策,并更好地為客戶服務。
本培訓旨在向您介紹數據挖掘方面的常見概念和做法。 主要目標讀者除了大學生之外,還有希望通過挖掘數據,使用信息系統和技術解決業務問題,但在計算機科學方面沒有正式相關背景或教育經歷的業務專家。 盡管數據挖掘融合了應用統計、邏輯、人工智能、機器學習和數據管理系統,但您不需要在這些領域具有很強的背景即可參加本次培訓,來學會使用RapidMiner。 雖然學過統計學和數據庫方面的初級大學課程將會有所幫助,但本培訓中對成功學習如何挖掘數據需要了解的概念和技術進行了解釋。
本培訓中的每一課都將介紹一到兩種數據挖掘概念或技術。本培訓介紹了如何使用RapidMiner軟件工具進行某些類型的數據挖掘。 此外,本培訓并非面面俱到,雖然其中包含了眾多常見的數據挖掘技術,但通過利用RapidMiner還能夠執行許多本培訓中未涵蓋的數據挖掘工作。
在講述數據挖掘算法的每一課都將遵循相同的格式。 首先,各課都將提供一個稱為背景和概要說明的情景。 這一部分將幫助您了解數據挖掘可以幫助解決的某些類型的問題。 其目的是幫助您思考針對您可能面臨的組織問題,應用給定課時中介紹的數據挖掘技術的方式。 在背景和概要說明之后,將列出一組學習目標。 這一部分是為了說明每課時都旨在教給您一些有關數據挖掘的全新知識。 通過在每課時開始列出學習目標,您將能夠更好地了解可以從中學到的內容。 接下來是介紹每課時主題內容的多個部分。 在這些部分中,常常會給出一些逐步操作示例,您可以跟隨這些示例進行實際的數據挖掘工作。 在介紹完主要概念后,每課時的最后還將包含章節匯總、幫助您鞏固章節的要點。
RapidMiner原名Yale,它是用于數據挖掘、機器學習、商業預測分析的開源計算環境。根據KDnuggets在2013年的一次投票顯示,從使用率來看該軟件比之R語言還要略勝一籌。因為其具備GUI特性,所以很適合于數據挖掘的初學者入門。