Random forest là gì
Trong bài viết trước mình đã chia sẻ về Decision Tree — một cây đưa ra quyết định. Sự mở ra của thuật tân oán này là nền móng hết sức đặc biệt quan trọng cho việc Thành lập và hoạt động của đa số thuật toán thù Machine Learning đang rất được sử dụng hiện thời chọn cái tên là Tree-based method như: Random Forest, Gradient Boosting, XGBoost (một thuật tân oán new được thành lập và hoạt động và được mang lại là một cách làm nhằm dành riêng thắng lợi trong số cuộc thi đoán trước hiện tại nay).
Bạn đang xem: Random forest là gì
Nhỏng tên gọi của nó Random Forest — rừng ngẫu nhiên: đây là cách thức desgin một tập thích hợp không ít cây đưa ra quyết định cùng sử dụng cách thức voting để mang ra ra quyết định về biến hóa target cần phải đoán trước. Một ví dụ về Random Forest nhỏng sau: trả sử bạn muốn đi tham quan du lịch phượt Anh với có sự suy xét mang lại bài toán thăm quan tỉnh thành như thế nào như: Manchester, Liverpool tuyệt Birmingmê mệt. Để vấn đáp câu hỏi này bạn sẽ đề nghị xem thêm không hề ít ý kiến tự bằng hữu, blog du ngoạn, tour lữ hành … Mỗi một chủ ý tương ứng với 1 Decision Tree trả lời những câu hỏi như: thị trấn này đẹp ko, giành được thăm quan các sảnh di chuyển khi tới thăm ko, số tiền bỏ ra là từng nào, thời hạn để tham quan đô thị là bao lâu… Sau đó các bạn sẽ có một rừng những câu trả lời nhằm đưa ra quyết định xem bản thân vẫn đi tham quan thị thành làm sao. Random Forest vận động bằng phương pháp review những Decision Tree sử dụng phương pháp voting để đưa ra kết quả ở đầu cuối.
Về khía cạnh tân oán học tập thuật toán có thể được phân tích và lý giải như sau: Random Forest là một tập đúng theo của hàng nghìn Decision Tree, trong số ấy mỗi Decision Tree được khiến cho bỗng dưng từ các việc tái lựa chọn chủng loại (chọn random một phần của data để xây dựng) với random các biến đổi trường đoản cú toàn cục các biến chuyển vào vào data. Với một hình thức như thế, Random Forest đến ta một công dụng đúng mực không nhỏ dẫu vậy tấn công đổi bởi câu hỏi ta quan yếu đọc phương pháp hoạt động của thuật toán này vày cấu trúc vượt phức tạp của quy mô này — do thế thuật toán thù này là một trong số những cách tiến hành Blaông xã Box — tức ta đang bỏ tay vào bên trong cùng rút ra được tác dụng chứ đọng quan yếu phân tích và lý giải được bề ngoài hoạt động vui chơi của quy mô. Đó là sự việc tiến công thay đổi thân kỹ năng phân tích và lý giải cùng kỹ năng dự báo nhỏng tôi đã nêu ngơi nghỉ bài xích đầu tiên.
Xem thêm: Dương Khắc Linh Và Trang Pháp
Random Forest là 1 phương thức Supervised Learning vì vậy hoàn toàn có thể xử trí được các bài toán về Classification (phân loại) cùng Regression (dự đoán về các giá trị)
II. Ứng dụng thực tế
Bài toán thù mà bản thân đã dùng để làm thực hành vận dụng của thuật toán sẽ là Kaggle xe đạp sharing dem& — là 1 trong những trong số những cuộc thi của Kaggle mang đến giới Data Scientist được ra mắt vào năm năm ngoái cùng với thắc mắc được đề ra là: Dựa vào data của một hãng hỗ trợ dịch vụ cho thuê xe đạp điện nghỉ ngơi Washington D.C, người tmê say gia cần phải đoán trước được số lượng xe đạp điện sẽ được mướn. Dataphối có thể tải về theo đường dẫn sau: https://www.kaggle.com/marklvl/bike-sharing-dataset
Phân tích tò mò dữ liệu:Trước Lúc lấn sân vào các phương thức predictive modeling, họ cần được tò mò số đông công dụng bằng phương pháp so sánh khám phá dữ liệu cùng đưa ra các thắc mắc, giả tmáu kết hợp giữa sự việc sale với phân tích những thống kê.
1. Kết cấu của các biến:library(dplyr)library(ggplot2)library(ggthemes)library(rpart)library(rattle) library(rpart.plot)library(RColorBrewer)library(lubridate)library(randomForest)load(file = "./data.Rda")chạy thử train data %>% str

Data đã bao hàm 12 vươn lên là như: mùa trong những năm, có buộc phải ngày nghỉ lễ ko, khí hậu, ánh nắng mặt trời, nhiệt độ, sức gió …
1.2. Phân phối của những biến
par(mfrow=c(4,2))par(mar = rep(2, 4))hist(data$season)hist(data$weather)hist(data$humidity)hist(data$holiday)hist(data$workingday)hist(data$temp)hist(data$atemp)hist(data$windspeed)Một vài nhận xét được rút ra như sau
Biến Season đã có 4 giá trị tương xứng cùng với 4 mùaBiến weather có phân pân hận đa phần sinh sống giá trị 12 trở thành workingday với holiday không có lên tiếng gì nhằm rút raCác đổi mới humidity, atemp với windspeed có phân păn năn khá từ bỏ nhiên
2.3. Giả thuyết được đặt ra:
1.3.1. Hourly trend:
data$hour data$hour train demo 19,>train %>% ggplot(aes(x = hour, y = count)) + geom_boxplot(fill = "darkgreen") + labs(x = "Hour", y = "Count of Users") + theme_minimal()


Tương trường đoản cú chính là Daily Trkết thúc ta hoàn toàn có thể thấy là nhu yếu của việc sử dụng xe đạp điện tăng cao hơn so với quý khách hàng vãng lai vào thời gian vào buổi tối cuối tuần.
Xem thêm: Hướng Dẫn Thay Đổi Mật Khẩu Garena Bằng Email, Gmail, Khôi Phục Mật Khẩu
Từ đa số trover những điều đó ta cần phải biến hóa tài liệu làm cho mô hình hoàn toàn có thể đọc được sự biệt lập giữa những nguyên tố nguồn vào — đây chính là Feature Engineering (chế tạo ra những phát triển thành đầu vào để giúp đến mô hình chuyển động đúng chuẩn hơn).
2. Feature Engineering:
Dựa bên trên những gì ta sẽ tìm thấy ở trong phần bên trên ta rất cần phải sản xuất thêm những đổi mới mới để cải thiện tài năng đoán trước của mô hình nhỏng sau:
data data % mutate(dp_reg = case_when( hour hour >= 22 ~ 2, hour > 9 và hour hour == 8 ~ 4, hour == 9 ~ 5, hour %in% c(đôi mươi,21) ~ 6, hour %in% c(18,19) ~ 7))data$year data$year % as.factordata$month data$year_part data$year_part 3> data$year_part 6> data$year_part 9> data$year_part data$year_part 3> data$year_part 6> data$year_part 9> data$day_type data$day_type data$day_type data$day_type % as.factor()data$weekend data$weekend 3. Mô hình Random Forest:
Tiếp theo ta thực hiện quy mô Random Forest để lấy ra hiệu quả dự báo của xe đạp điện sẽ tiến hành thực hiện vào thời gian tới như sau:
train$hour % as.factor()test$hour % as.factor()set.seed(999)fit1 pred1 test$logreg vì vậy ta đang bao gồm một mô hình Machine Learning nhằm giải quyết và xử lý bài xích toán thù dự đoán con số xe đạp sẽ tiến hành sử dụng cùng với những điều kiện về thời tiết với thời hạn. Và từ bỏ công dụng này ta rất có thể áp dụng nó để thay đổi những xe đạp điện theo theo nhu cầu của chúng ta phục vụ mang đến vấn đề kinh doanh của doanh nghiệp