个性化阅读
专注于IT技术分析

使用R进行权变分析

本文概述

权变分析是一种假设检验, 用于检查两个类别变量是否独立。简而言之, 我们问一个问题:”如果我们知道另一个变量的值, 我们可以预测一个变量的值吗?”。如果答案是肯定的, 我们可以说所考虑的变量不是独立的。如果答案是否定的, 那么我们可以说所考虑的变量是独立的。该测试利用了列联表, 其结果称为”列联分析”。这也称为”独立性卡方检验”, 因为检验统计量遵循卡方分布, 并且该检验用于检查两个类别变量是否独立。

检验的原假设是两个变量是独立的, 备选假设是两个变量不是独立的。

让我们尝试通过一个示例来理解”偶然性分析”或”卡方独立性检验”。

假设我们想知道运动的选择是否与性别无关。因此, 我们询问了一百个人和一百女性在射箭, 拳击和自行车运动中他们更喜欢参加哪种运动, 并总结了下表中列出的数据。

使用R进行权变分析1

上面的表称为观察表, 因为它包含观察到的计数。

卡方检验独立性通过将观察到的计数与预期计数进行比较而起作用。因此, 我们的下一个任务是从观察表中得出包含期望计数的期望表。如果两个分类变量是独立的, 则期望表就是我们期望的双向表。根据概率论, 我们知道如果两个事件的联合概率等于其边际概率的乘积, 则称两个事件是独立的。我们将使用此概念来计算六个单元格中每个单元格的预期计数。让我们计算第一个单元格的预期计数。首先, 我们将女性概率(100/200)与偏爱射箭的概率(45/200)相乘来计算联合概率。一旦有了联合概率(100/200 * 45/200), 如果将其乘以样本大小(200), 我们将得到第一个像元的期望计数为22.5。同样, 我们将计算剩余五个单元格的预期计数。下表是我们要查看性别和运动偏好是否独立的表。

使用R进行权变分析2

现在我们已经有了预期和观察到的计数, 接下来的任务是检查观察到的计数与预期的计数有何不同。为此, 我们必须计算一个称为卡方检验静态的检验统计量, 因为它遵循卡方分布。以下是用于计算卡方检验统计值的公式。

使用R进行权变分析3

从上面的公式中我们可以看到, 卡方检验统计量的值可以为0(当观察到的计数与预期计数之间绝对没有差异时), 但永远不能为负。这使得卡方检验独立性成为单尾检验。

使用上面的公式, 我们为示例计算卡方检验统计量的值。称为检验统计量的观察值。

使用R进行权变分析4

现在是时候决定是否拒绝原假设。我们通过将测试统计量的观察值与其临界值进行比较或通过查看p值来做出决定。如果检验统计量的观察值超过其临界值, 或者p值小于或等于显着性水平, 则我们可以拒绝原假设, 并得出结论, 两个分类变量之间存在统计学上的显着关系, 即他们不是独立的。如果我们知道显着性水平(通常为0.05)和自由度, 则可以从卡方表中获得临界值。显着性水平是拒绝真实零假设的概率。对于具有r行和c列的表, 可以通过以下公式计算自由度。

使用R进行权变分析5

因此, 对于我们的示例, 我们有2个自由度。

使用R进行权变分析6

从下表中我们可以看到, 对于显着性水平为0.05和2个自由度, 检验统计量的临界值为5.99。

由于检验统计量的观察值大于其临界值(19.798> 5.99), 因此我们可以拒绝原假设, 并得出结论, 选择运动与性别无关。

现在让我们看看如何使用R编程语言执行卡方检验独立性

使用内置函数chisq.test()非常容易执行卡方检验。

以下是观察到的表。

observed_table <- matrix(c(35, 15, 50, 10, 30, 60), nrow = 2, ncol = 3, byrow = T)
rownames(observed_table) <- c('Female', 'Male')
colnames(observed_table) <- c('Archery', 'Boxing', 'Cycling')
observed_table
##        Archery Boxing Cycling
## Female      35     15      50
## Male        10     30      60

为了执行测试, 我们需要将chisq.test()函数应用于观察表。

X <- chisq.test(observed_table)
X
##
##  Pearson's Chi-squared test
##
## data:  observed_table
## X-squared = 19.798, df = 2, p-value = 5.023e-05

从以上结果可以看出, p值小于显着性水平(0.05)。因此, 我们可以拒绝原假设, 并得出两个变量(性别和运动偏好)不是独立的结论。

如果我们想查看期望的表, 我们也可以这样做。

X$expected
##        Archery Boxing Cycling
## Female    22.5   22.5      55
## Male      22.5   22.5      55

希望你喜欢这篇文章。如果你想了解更多有关R的知识, 请参加srcmini的R中的统计建模(第1部分)课程。

赞(0)
未经允许不得转载:srcmini » 使用R进行权变分析

评论 抢沙发

评论前必须登录!