Abstract
Excelでピボットテーブルという便利な機能があります。それを使ってデータ集計する方法を実例を使ってまとめました。ついでにPubMedのデータからExcelの区切り位置ウィザードを使って、各論文の掲載雑誌を抽出する方法も。
前回(精神科症例報告を載せる英文雑誌)、pubmedでダウンロードしたcsvファイルから、”delusional disorder”で引っかかるここ10年のCase Reportsがどの雑誌で何本出版されているかを集計しましたが、この集計はエクセルを使うとそれなりに簡単にできます。その手順を簡単にまとめ。なお、使っているのはMicrosoft(R) Excel for Mac バージョン16.16.1です、バージョンによって少しずつ各機能のボタンの場所が変わっているので、面倒ですが、基本のやり方は他のバージョンでも同じです。
エクセルの「区切り位置」ウィザードで雑誌名を抽出
まず、前回検索結果に対して”Send to”→”File”→”CSV”で作成したCSVファイルを見て見ます。最初の数行はこんな感じ。この中で雑誌名を抽出するのに向いているのが、E列の”ShortDetails”になります。この列は各論文の”掲載雑誌. 出版年”という形式のデータになっています。雑誌名を抽出するのに一番簡単な方法は、この列のデータを全て、”.”を区切り位置として分割することです。
実際に、E列のデータを空いているL列にコピペして、雑誌名だけ切り出してみます。データをコピペしたL列全体を選択し、"データ”タブ内の「区切り位置」ボタンを押し、出てきたウィザードで「区切り記号付き」を選択し、「次へ」をクリック。
次のウィザードで区切り文字の「その他」にチェックし、「.」を指定して「完了」をクリック。
すると綺麗に雑誌名のL列と出版年のM列に分割されます。
では、この雑誌名データのみとなったL列にピボットテーブル機能を使います。
エクセルの「ピボットテーブル」で集計
エクセルのピボットテーブル機能はとても簡単で優秀です。まず、雑誌名データのL列全体を選択した上で、メニューバーの”データ”から”ピボットテーブルで集計”をクリックします。
ピボットテーブルの作成ウィザードで、選択していたL列が選択されていることを確認し、"新規ワークシート”を選択し、”次へ”をクリック。
すると、自動で新しいワークシートが作成され、次のようなピボットテーブルを作成するフィールドができます。 ここで、雑誌名データ列を表している”ShortDetails”を”行”と”値”のフィールドにドラッグアンドドロップすると・・・
各雑誌での論文数の集計結果の完成です。
あとはこれを、値を降順にソートして、表のタイトル列を編集すれば、前回の表が完成します。
実はエクセルのピボットテーブル機能は余り使ったことがなかったのですが、とても便利ですね。
関連記事
精神科の症例報告を掲載する英文ジャーナル-妄想性障害の場合この記事で作成した集計結果についての記事。
PubMedを活用する
この記事でも用いた検索結果リストのCSVファイルダウンロードなど、PubMed活用での小ネタ集。
最近、抗認知症薬は効かないのか?とか、過剰に処方される抗認知症薬とか、twitterで気になった話題に影響され、臨床的なブログ投稿をいくつかしていたのですが、私がこのブログをやっている理由は崇高な目的は特になく、Excelなどの基本的な機能を知らずに面倒なだけの作業をちまちましている後輩の先生たちを見ていて、もっとこうすれば楽なのに、と思うことが多く、どう工夫したら楽かを備忘録としてまとめることだったので、久しぶりに原点回帰なブログがかけました(笑)
この記事へのコメント