統計

1/3ページ

Rでランダムフォレスト(random forest)

  • 2016.04.19

今回は機械学習のアルゴリズムの一種「ランダムフォレスト(random forest)」について紹介したいと思います。 ランダムフォレストとは? ランダムフォレストは決定木を弱学習器とする集団学習アルゴリズムです。 細かなことは理解できる頭がないので、こちらのサイトを参照ください。 ざっくり要約してみると、学習用のデータをサンプリングして多数の決定木を作成し、作成した決定木をもとに多数決で結果を決め […]

Rで決定木

  • 2016.04.19

今回はRで行う決定木分析を紹介したいと思います。 決定木とは? 決定木とは、下図のように特定の要因で分岐する木構造のことです。この木構造のモデルを導くのが「決定木分析」です。 Rで決定木分析を行う Rで決定木分析を行うには「rpart」というパッケージを利用します。 このパッケージだけでも結果を出力することができますが、 見やすく整形するために「partykit」も利用します。 ソースは下記の通り […]

Rで一般化線形モデル

  • 2016.04.19

今回は一般化線形モデルについて書いてみようと思います。 ただ、自分には完全に理解できる頭はないので、要点だけ掻い摘んで紹介したいと思います。 (なら書かなきゃいいという考え方もありますが、自分の頭の中を整理するために書かせていただきます。) 一般化線形モデルとは? 以前紹介したことのある単回帰分析や重回帰分析は、 残差と呼ばれるデータのばらつき(実際は回帰線(予測値)と実際値の差)が正規分布である […]

RでWebアクセス解析~本サイトのアクセスについて~

  • 2016.02.14

今回は本サイトのアクセス状態をもとに、Webアクセス解析を行ってみたいと思います。 Web解析の目的 Web解析の目的は、様々なものがあると思います。 目的にあった解析をしなければなりませんが、今回は、「訪問者の属性の推定」を行ってみようと思います。 仮説 さて、分析を行う前に、仮説を立てたいと思います。 解析はあくまでもその仮説を裏付ける根拠として利用します。 このサイトはRを利用した統計解析の […]

Rで層別集計

  • 2016.02.14

今回はRで層別集計する方法をご紹介します。 層別集計とは 層別集計とは、Excelで言うSUMIF関数のように、ある項目でグループ化して集計する方法です。 イメージとしては下図のようになります。 Rで層別集計をする方法 Rで層別集計するには、「tapply(集計対象,グループ時のキー,関数)」で実行できます。 関数は用途に合わせて使い分けてください。 下記のものをよく利用すると思います。 関数名 […]

Rでクラスター分析(非階層的方法)

  • 2016.02.14

前回はクラスター分析の概要について記載しました。 前回の内容はこちらを参照ください。 今回は前回紹介した、「クラスター分析(非階層的方法)」をご紹介します。 クラスター分析(非階層的方法)とは 非階層的方法のクラスター分析(K-means法)では、 あらかじめ分析者が決めたクラスター(グループ)数になるように、サンプルを分類する方法です。 大規模データに適した方法になります。 クラスター分析(非階 […]

Rでクラスター分析(階層的方法)

  • 2016.02.13

前回はクラスター分析の概要について記載しました。 前回の内容はこちらを参照ください。 今回は前回紹介した、「クラスター分析(階層的方法)」をご紹介します。 階層的方法の種類 階層的方法は、近しいクラスターを次々に結合し、最終的に1つのクラスターにする方法です。 クラスター間の距離(類似度)を測る方法にはいろいろな種類があります。 名称 特徴 群平均法 最も代表的 すべての個体のペアについて距離を求 […]

Rでクラスター分析(概要偏)

  • 2016.02.13

今回はクラスター分析について記載します。 ただ、クラスター分析はいろいろと書きたいことあるので、全三回に分けて記載します。 今回はクラスター分析の概要について記載します。 クラスター分析とは クラスター分析とは、一言でいうと「似た者同士を集めてグループを作る」分析手法です。 上記だけ見ると簡単そうですが、グループを作るルールには様々な種類があり、分析者の判断で結果が異なる場合もあります。 ちなみに […]

Rで因子分析

  • 2014.12.28

こんばんは。namakemonoです。 本日はRで因子分析を行う方法を記載していきます。 因子分析とは? 因子分析とは、多変量データに潜む共通因子を探り出すための手法といえます。 因子分析は要約のための手法であり、因子分析を使う目的には2つのものがあるといわれています。 1. 少数の説明要因に話をまとめるため 2.(調査対象者の)回答の奥に潜む要因をまとめるため 観測データにおける変数の間の関連成 […]

Rで重回帰分析

  • 2014.12.23

こんばんは。namakemonoです。 今回は重回帰分析について記載します。 重回帰分析とは? 重回帰分析とは、説明変数が複数ある場合に行う回帰分析のことです。 分析の結果、「y=a1x1+a2x2+…+b」という回帰式が得られます。 ※説明変数が1つの場合は、「単回帰分析」と呼びます。単回帰分析については、こちらを参照ください。 Rでの重回帰分析の手順 1.データの準備 2.lm関数 […]

1 3