CENTRAL TENDENCY LÀ GÌ

     
vào Data Mining & Business Intelligence...Data Mining và Business Intelligence...(Entire Site)
tìm kiếm kiếm
giaynamdavinci.com » Data Mining và Business Intelligence » Data Mining and Business Intelligence » Một ít kiến thức Thống kê cho khai thác dữ liệu

*

*

*

gmail.com

Ta biết rằng 4 nghành nghề dịch vụ liên quan tiền của khai thác dữ liệu gồm thống kê (statistics), trang bị học (Machine Learning), Cơ sở tài liệu (Database) và biễu diễn học thức (Visualization). Trong 4 nghành này thì thống kê đóng góp vài trò rất đặc trưng trong quy trình khai phá dữ liệu nhất là trong kiểm định hiệu quả của mô hình và trong review tri thức phát hiện nay được.Bạn sẽ xem: Central tendency là gì

Bài viết này giới thiệu sơ lược về những khái niệm cơ bạn dạng của thống kê cần sử dụng trong tế bào tả tài liệu như các tham số thống kê giám sát xu hướng tập trung của tài liệu (mean, Median, mode) và đo lường sự biến đổi thiên của dữ liệu (Rang, Variance và Standard Deviation, Standard Error).

Để dễ dàng hình dung, ta bắt đầu với ví dụ đơn giản sau:

Giả sử rằng các bạn chạy 100 m vào sáu lần, những lần chạy bạn dùng đồng hồ thời trang đo lại thời hạn chạy (tính bởi giây) và tác dụng 6 lần chạy của người tiêu dùng gồm sáu quý hiếm (còn call là quan liêu sát) như sau:

x=25.1, 21.2, 17.9, 23.0, 24.6, 19.5

Dữ liệu này cho bạn biết những thông tin gì? Sau đó là một số thống kê đơn giản dễ dàng của tài liệu về thời gian chạy 100m của bạn:

- thời gian chạy vừa phải (mean) là 21.9 giây

- giá trị giữa (còn điện thoại tư vấn là trung vị - median) là 22.1 giây

- thời hạn chạy nhiều nhất (maximum) là 25.1 giây và thời gian chạy ít nhất (minimum) là 17.9giây. Nếu so sánh với kỷ lục nhân loại về 100m là 9.78 giây thì các bạn biết rằng mình chạy để bầy đàn dục mang đến khỏe chứ không hẳn là chuyển vận viên điền kinh chăm nghiệp!

- Phương không đúng (variance) là 8.2 giây bình phương cùng độ lệch chuẩn chỉnh (standard Deviation) là 2.9 giây

Đo lường số đo xu thế tập trung (Central Tendency)

Để giám sát và đo lường xu hướng tập trung của dữ liệu người ta hay được dùng 3 tham số đó là số trung bình (trung bình số học tập - Arithmetic mean giỏi average), số trung vị (median) cùng số mode.

Bạn đang xem: Central tendency là gì

Mean (số trung bình):Trung bình số học tập được tính đơn giản dễ dàng bằng tổng của toàn bộ các quý giá của tài liệu trong mẫu chia cho size mẫu.


*

Với tài liệu về chạy 100m bên trên ta có


*

Median (trung vị):

Trong triết lý xác suất với thống kê, số trung vị (Median) là quý giá giữa trong một phân bố chia phân bố thành 2 team mà trong số đó số những số trong những nhóm bởi nhau. Nói bí quyết khác, trường hợp m là trung vị của một phân bố nào kia thì một nửa cá thể trong phân bổ đó có giá trị nhỏ tuổi hơn hay bằng m và một nửa sót lại có giá bán trị bởi hoặc to hơn m.

Median được tính như sau: sắp xếp dữ liệu và lấy quý hiếm ở giữa. Nếu số cực hiếm là một vài chẳn thì median là vừa đủ của 2 cực hiếm ở giữa. Với số liệu trên ta tất cả median=22.1


Mode (Yếu vị)

Mode là số bao gồm tần suất lộ diện nhiều độc nhất trong mẫu. Ví như trong mẫu không có số nào mở ra lặp lại thì không tồn tại mode.

Với mẫu tài liệu trên thì không có mode.

So sánh thân Mean, Median và Mode

Trở lại lấy ví dụ chạy 100 m trên, trả sử sau khi chạy hết 6 lần, chúng ta chạy tiếp lần vật dụng 7. Lần này đột nhiên chân chúng ta bị đau cùng bạn đi dạo thay bởi chạy và hiệu quả thời gian của lần này là 79.9 giây. Bạn cố gắng thử thêm nữa và kết quả vẫn 79.9 giây. Bây giờ ta tất cả Sample về 8 lần chạy như sau:

x=25.1, 21.2, 17.9, 23.0, 24.6, 19.5, 79.9, 79.9

Các quý giá Mean, Median với Mode so sánh giữa 2 Sample như sau:

Central tendency

6 measurements

8 measurements

Mean

21.9 giây

36.4 giây

Median

22.1 giây

23.8 giây

Mode

Not available

79.9 giây

Nếu các bạn quan cạnh bên cẩn thận, so với 6 lần chạy trước tiên thì thời gian chính gian chạy còn 2 lần sau bao gồm sự khác hoàn toàn rất phệ so với 6 lần chạy lúc đầu (2 cực hiếm này được xem là bất thường xuyên của tài liệu – outlier) thực chất nó không phải thời hạn chạy nhưng là thời hạn đi bộ. Nếu như bạn không xẩy ra đau thì thời hạn chạy xấp xỉ quanh Median. Theo bảng trên ta thấy rằng 2 Outliers không ảnh hưởng nhiều cho Median (từ 22.1 lên 23.8) nhưng tác động rất phệ đến Mean (từ 21.9 lên 36.4) với Mode. Tuy nhiên Median có chức năng đo lường xu hướng tập trung của dữ liệu mạnh hơn Mean vì chưng Median ko bị tác động bởi những Outliers nhưng không ít người dân vẫn thích áp dụng Mean để giám sát xu hướng triệu tập của tài liệu vì dễ tính hơn không cần thiết phải sắp xếp tài liệu như Median.

Mode rất hữu ích so với dữ liệu bao gồm kiểu dữ liệu phân nhiều loại (nominal). Đối với những dữ liệu bao gồm kiểu phân loại ta ko thể dùng Mean hay Median vị nó không có chân thành và ý nghĩa gì mà buộc phải dùng Mode. Ví dụ nếu tài liệu mô tả nam nữ là nominal và một là nam, 0 là cô gái thì Mean hay Median là 0.5 không có chân thành và ý nghĩa gì. Trong những lúc đó Mode cho biết thêm tần suất nam xuất xắc nữ lộ diện nhiều nhất. Quartiles (tứ phân vị)

Tứ phân vị là đại lượng mô tả sự phân bố và sự phân tán của tập dữ liệu. Tứ phân vị có 3 giá bán trị, đó là tứ phân vị thứ nhất (Q1), sản phẩm nhì (Q2), cùng thứ bố (Q3). Bố giá trị này phân chia một tập hợp dữ liệu (đã thu xếp dữ liệu theo trơ khấc từ từ nhỏ xíu đến lớn) thành 4 phần có số lượng quan sát đông đảo nhau.

Xem thêm: 8 Lý Do Bạn Nên Ăn Hành Lá Nhiều Có Tốt Không ? 8 Lý Do Bạn Nên Ăn Hành Lá Mỗi Ngày

Tứ phân vị được khẳng định như sau:

· sắp tới xếp những số theo vật dụng tự tăng dần

· giảm dãy số thành 4 phàn bằng nhau

· Tứ phân vị là những giá trị tại vị trí cắt

Độ trải giữa(Interquartile Range - IQR)

Interquartile Range được khẳng định như sau:

Box Plot (Biểu đồ hộp)

Box Plot giúp cho bạn biểu diễn các đại lượng quan trọng đặc biệt của hàng số như min, max, Quartile, Interquartile Range một biện pháp trực quan, dễ dàng hiểu. Một Box plot bao gồm dạng như sau:

Đo lường sự biến thiên của dữ liệu (Variation of Data)

Để biết xu hướng tập trung của dữ liệu ta dùng những tham số như Mean, Median, Mode. Mặc dù nhiên, một câu hỏi quan trọng nữa buộc phải phải trả lời khi chăm chú một unique của mẫu là “làm sao giám sát sự trở thành thiên (hay sự phân tán) của dữ liệu trong mẫu?” Vì rất có thể 2 mẫu bao gồm cùng trung bình nhưng lại sự đổi thay thiên của dữ liệu là khác nhau.

Để giám sát và đo lường sự đổi thay thiên (thường so với cái giá trị trung bình) của dữ liệu người ta thường dùng các tham số Range (khoảng trở thành thiên), Interquartile Range (IQR – khoảng chừng tứ phân vị), Standard Deviation (độ lệch chuẩn), Variance (phương sai), Standard Error (sai số chuẩn)

Range (Khoảng biến hóa thiên): Được tính bằng phương pháp lấy giá chỉ trị lớn nhất – giá bán trị nhỏ nhất

Range = Max – Min

Trong sample bao gồm 6 quan giáp về thời gian chạy 100 m trong lấy ví dụ trên ta có

Range = 25.1- 17.9 = 7.2 giây

Deviation (độ lệch)

Cả 2 tham số Range và IQR không lưu ý đến giá trị trung vai trung phong (thường thực hiện giá trị trung bình). Khi muốn thống kê giám sát sự phân tán của tài liệu so với giá trị trung tâm, ta đo lường và tính toán độ lệch của từng quan cạnh bên (cá thể) so với mức giá trị trung tâm. Mang sử ta sử dụng giá trị trung bình làm giá trị trung tâm, khi ấy ta tất cả tổng độ lệch của tất cả quan sát với giá trị vừa phải là:

bởi vì tổng độ lệch này bởi 0 bắt buộc ta ko thể dùng độ lệch này để diễn đạt sự phân tán của dữ liệu.

(Đặc trưng của số trung bình toán học tập (mean) là san bởi mọi bù trừ. Do vậy khi tính tổng tất cả các độ lệch thì tác dụng luôn bằng 0)

Để tương khắc phục vụ việc này, ta có thể sử dụng tổng những giá trị tuyệt vời các độ lệch


Để nhiều loại bỏ ảnh hưởng của form size mẫu (vì mỗi mẫu có form size khác nhau) ta phân chia tổng này cho kích cỡ mẫu, ta có:


Tuy nhiên vụ việc của giá trị hoàn hảo nhất là tính không liên tục (discontinuity) tại cội tọa độ (trong trường đúng theo này là mean) vì vậy các nhà thống kê đã tìm ra công thức tốt hơn để diễn tả sự biến hóa thiên của dữ liệu đó là phương không nên (Variance) với độ lệch chuẩn (Standard Deviation).

Variance (Phương sai) cùng độ lệch chuẩn chỉnh (Standard Deviation)

Để né tổng những độ lệch bởi 0 và một số loại bỏ tác động của size mẫu fan ta tính tổng bình phương những độ lệch và phân chia cho kích cỡ mẫu trừ 1 (hiệu chỉnh). Ta có hiệu quả là “trung bình tổng bình phương những độ lệch” và điện thoại tư vấn là phương sai chủng loại (Sample Variance)


Phương không nên là tham số tốt nhất để đo lường và thống kê sự biến hóa thiên (hay phân tán) của dữ liệu trong mẫu bởi nó đã lưu ý đến độ lệch của từng quan ngay cạnh so với số trung bình, nhiều loại bỏ tác động của kích thước mẫu với là smooth Function. Mặc dù nhiên, điểm yếu của phương không đúng là ko cùng đơn vị chức năng tính cùng với Mean. Đơn vị tính của phương không đúng là bình phương của đơn vị chức năng tính của trung bình. Chẳn hạn, đơn vị tính của thời gian chạy vừa đủ là giây vào khí đó đơn vị tính của phương không đúng là giây bình phương. Để xử lý vấn đề này, tín đồ ta mang căn bậc 2 của phương sai và hiệu quả này hotline là độ lệch chuẩn (Standard Deviation)


Một vụ việc nữa cần thân yêu là mỗi lần lấy mẫu mã ta có một số vừa phải (mean) với từ kia ta tính được phương sai của mẫu. Phương sai của mẫu cho biết sự đổi thay thiên của những cá thể trong quần thể. Mang sử ta lấy chủng loại k lần, cùng ta bao gồm k số trung bình. Để diễn tả sự đổi thay thiên của những số trung bình mẫu lấy từ tổng thể và toàn diện người ta sử dụng đại lượng không nên số chuẩn (Standard Error –SE) được tính bằng cách lấy độ lệch chuẩn chỉnh chia cho căn bậc hai của kích cỡ mẫu:


Tóm lại: Độ lệch chuẩn chỉnh mô tả biến thiên của những cá thể trong quần thể còn không nên số chuẩn chỉnh mô tả sự biến chuyển thiên của các số trung bình chủng loại lấy trường đoản cú tổng thể. Một cách dễ dàng nắm bắt nếu ta lấy chủng loại k lần từ toàn diện và ta có k số trung bình mẫu mã thì độ lệch chuẩn chỉnh của k số vừa đủ mẫu hotline là không nên số chuẩn (chú ý k thường khôn cùng lớn, mặt hàng triệu giỏi hàng tỷ lần vì trong thực tiễn ta lần chần được số vừa phải của tổng thể).

Tương quan (Correlation)

Trong định hướng xác suất cùng thống kê, hệ số đối sánh tương quan (Coefficient Correlation) cho thấy thêm độ mạnh mẽ của quan hệ tuyến tính thân hai đổi mới số ngẫu nhiên. Từ đối sánh tương quan (Correlation) được thành lập từ Co- (có nghĩa "together") và Relation (quan hệ).

Xem thêm: Bột Tartar Là Gì ? Cream Of Tartar Thay Bằng Gì? Cream Of Tartar Là Gì

Độ mạnh khỏe và hướng đối sánh tương quan của 2 biến hóa được diễn tả như sau:

Hệ số tương quan rất có thể nhận quý hiếm từ -1 đến 1:

Ví dụ: Có dữ liệu (bivariate) về ánh sáng (Temperature) và lợi nhuận bán kem (Ice Cream Sales) như sau:

Đồ thị Scatter Plot của dữ liệu trên :

Từ Scatter Plot, ta hoàn toàn có thể thấy rằng nhiệt độ càng cao thì lợi nhuận bán kem càng cao. Trong dữ liệu trên, hệ số đối sánh là 0.9575(sẽ trình bày cách tính ở đoạn sau) và quan hệ giữa ánh nắng mặt trời và doanh thu bán kem là khôn xiết mạnh. Hệ số tương quan dương nói rằng ánh sáng tăng thì lợi nhuận bán kem cũng tăng.

Tương quan không tồn tại tính nhân quả (Causation).

Cách tính hệ số đối sánh tương quan (Coefficient Correlation)

Trong lấy một ví dụ trên, hệ số tương quan là 0.9575. Hiện giờ sẽ trình bày cách tính hệ số này theo cách làm Pearson (Pearson's Correlation).

Gọi x cùng y là hai thay đổi (Trong lấy ví dụ như trên thìx là Temperature với y là Ice Cream Sales)

· bước 1: Tính mức độ vừa phải của x và y

· cách 2: Tính độ lệch của mỗi quý hiếm của x với vừa phải của x (lấy các giá trị của x trừ đi vừa phải của x) và gọilà"a", làm tương tự như vậy cùng với y và call là "b"

· bước 3: Tính: a × b, a2 với b2 cho từng giá trị

· cách 4: Tính tổng a × b, tổng a2 vả tổng b2

· bước 5: phân chia tổng của a × b cho căn bậc 2 của

Công thức tầm thường để tính hệ số đối sánh tương quan giữa 2 đại lượng đột nhiên x và y là

Dưới trên đây minh họa vấn đề tính hệ số đối sánh tương quan của lấy ví dụ trên

Các tham số giám sát xu hướng tập trung và thay đổi thiên của dữ liệu có thể được tính thuận lợi bởi những hàm vào MS Excel. Sau đây giới thiệu một vài hàm liên quan và ví dụ minh họacách tính các tham số trên trong MS Excel

Đo lường xu thế trung (Central tendency)

AVERAGE: Tính vừa phải số học tập (mean)

MEDIAN: Tính trung vị

MODE: Tính số mode

Đo lường độ thay đổi thiên (Variation)

MAX – MIN : Tính Range

PERCENTILE (array, k) : tìm phân vị trang bị k của những giá trị trong một mảng dữ liệu

QUARTILE (array, 3) – QUARTILE (array, 1) : Tính Inter Quartile Range (IQR)

VAR : Tính phương không đúng của chủng loại

VARPA: Tính phương sai tổng thể (Chú ý, cách làm tính phương không nên tổng thể giống như phương sai mẫu mã nhưng thay vày chia cho n-1 như phương sai mẫu mã thì phân tách cho n. Trong số đó n là size mẫu)

STDEV : Tính độ lệch chuẩn của chủng loại

STDEVPA Tính độ lệch chuẩn của tổng thể

Một số hàm liên quan khác

SUM : Tính tổng những số

SQRT: Căn bậc hai

CEILING : Ceiling function. CEILING(k) mang lại số nguyên bé dại nhất lơn rộng k.Ví dụ : CEILING(3.5,1)=4

FLOOR : Floor function. FLOOR(k) đến số nguyên béo nhất bé dại hơn k. Ví dụ: FLOOR(3.5)=3)