不正なマルチバイト文字に七転八倒した。
分散分析までなんとかかんとかできるようになったので、本格的に自分の研究のデータを分析しようと思ったのだ。
本当は時間がないのでSPSSを使おうとしたのだけど、N先生から
"逃げ場を無くせ!!"との激。
ちなみにN先生は、ヒゲ付き棒グラフを美しく仕上げるために七転八倒している。
よーーしわかったよ。やるぜ!!
ということで、データを読み込むところから始める。
データの概要は、
だいたい300人分のデータで看護師さんと准看護師さんのデータ。
前半部は、年齢、性別、勤務形態などのデモグラフィックデータで後半部は3つの質問紙の質問項目のスコア。
ファイルは、nslpnsとしてcsv方式で保存(もちろん作業ディレクトリに)
これを読み込んだら、subset関数などを使ってソートを掛けながら少しずづ分析に向けて進めていくのだ。
エクセルで変数名を分かりやすく形成して、よし読み込むのみ。
Rでやれば、あとからどんなふうにデータを形成したのかがよくわかるのだ。
まずはRstudioを開いて、file→new→Rscript でエディタを開く。
今回は、看護師と准看護師さんのデータなので、nslpnsと名前をつけとこう。
エディタの左上のフロッピーマークをクリック。
こんな感じのが出てくるのでファイル名を付けて保存。
この時にwhereの部分をRの作業ディレクトリに変えておくのを忘れちゃだめ。
フフ。コマンドをエディタにいれてみる。
データの読取はもう出来るもんね。
s<- read.csv("nslpns.csv",header=T,sep=',')
!!
なんだよ。不正なマルチバイト文字って。
この後、約3時間ほどマルチバイト文字と戦う。
txt方式で読み込もうとしたり、csvデータをいじってみたり。
よくわかんないが、マルチバイト文字という奴は文字形式の問題らしいが、元データはきっちりしてるつもりなんだけどな。。。
UTFとshift JISの問題だとかなんとかようわからんので誰か教えてください。
いろいろ四苦八苦して、新たなコードをネット上で見つける。一応これで読み込めた。
lowdate1<-file("nslpns.csv",encoding="Shift-JIS")
lowdate2<-read.csv(lowdate1,,header=T,sep=',')
よくわかってないけど、たぶん一行目はcsvを読み込むときにShiftJISで読み込んでねということみたい。
膨大な量のデータなので、どっかで間違えて邪悪な文字を使ってしまってだんだろう。
ふう。燃え尽きた。続きはまた今度にしよう。