無料ブログはココログ

July 05, 2017

続・テキストマイニングに興味がある人へ

前回評判がよかったので(Twitterで何人もの方にリツイートしていただきました)、第2弾を書きました。

●テキストマイニングに関する参考文献

(1)豊田裕貴/菰田 文男(2011)
『特許情報のテキストマイニング―技術経営のパラダイム転換』
https://www.amazon.co.jp/dp/4623059766/
 前回のリストに入れたかったのですが、品切れ絶版のようなので遠慮しました。ミネルヴァ書房の方には是非改訂版を検討していただきたいです。
 私がテキストマイニングという技術を知ったのは本書によるものなので、ご紹介したかったです。理論編は難しく、テキストマイニングというのは難解な技術なのではないか、と思いましたが、実践編はよく理解できます。
 ここに「Text Mining Studio」という商用ソフトの試供版を試せると書いてあるのですが、元の会社がNTT数理データシステムに吸収されてしまったので、試供版は試せません。
但し、商品説明会にいけば、インストール後1ケ月は無料で使えるサンプルCDをもらえます。テキストマイニングの説明もしてくれるので、興味がある人は行ってみるとよいでしょう。
NTT数理データシステムwebsite https://www.msi.co.jp/tmstudio/

(2)服部兼敏(2010)
『テキストマイニングで広がる看護の世界』
https://www.amazon.co.jp/dp/4779505119/
 看護や医療の世界ではテキストマイニングが流行って(?)いるようです。こういう観点でテキストマイニングについて書籍化したのはこれは初めてじゃないかな。医療や看護の仕事をしている人は読んでおくといいです。
 これにCDがついているのですが、これは(1)で説明した「Text Mining Studio」試供版が入っています。今はない試供版が使えるのでお得と言えばお得なのですが、機能や解析文字数が限定されているので、使いごごちはどうなんでしょうね。
 これもアマゾンでは高価格に表示されているので品切れ絶版なのでしょうね。大学の図書館だと貸出できる可能性が高いです。

(3)竹岡志朗/井上 祐輔/高木 修一/高柳 直弥(2016)
『イノベーションの普及過程の可視化―テキストマイニングを用いたクチコミ分析』
https://www.amazon.co.jp/dp/4817195916/
 丁度、修士研究が終わったころに発見して読みました。やはり、特許情報やブログのテキストで技術解析しようという主旨の著作でした。当然似たようなことを考えている人はいるわけで。著者の方々は、経営学部の先生でマーケティングにテキストマイニングを利用したいみたいですね。

(4)伊藤尚枝(2010)
『「甘えの心理」に迫る Rでテキストを分析』
https://www.amazon.co.jp/dp/4779302374/
 著者は文学作品から「甘え」を読み取るという研究をしていたようです。使っているツールは、石田さんのRmecabです。石田本の第2版が中級者向けになったので、これはRmecabの使い方を理解する上でのテキストにもなっています。Rの細かい使い方にも触れています。

(5)石田基広/金明哲(2012)
『コーパスとテキストマイニング』
https://www.amazon.co.jp/dp/4320110331/
 テキストマイニングの他にテキスト分析にはコーパスが重要な考え方になります。テキストマイニングの研究事例も書いてあるので、参考になります。買おうかどうしようか、最後まで迷ったのですが、図書館で借りてざっくり読んで済ませました。


●テキストマイニングの周辺技術について、機械学習、統計学

(6)秋光淳生(2016)
『データの分析と知識発見』
https://www.amazon.co.jp//dp/4595316364/
 放送大学の印刷教材です。実際に使ったのは改訂前の『データからの知識発見』(2012)なのですが。テキストマイニングがデータ解析の一種、Rという統計ソフトで解析できることを本書から知りました。研究計画書を書いている2014年に通読しました。すでに放送大学選科履修生だったので、講義をネットで見ることができました。何か難しい分野をやろうとしているのかな、と少し不安になりました。
 改訂前はテキストマイニングはさらっと書いているのですが、本書ではテキストマイニングの重要性も考えられ、丁寧に書いてあります。
 2014年時点では、テキストマイニングを勉強する人の必須文献とも言えます。これで学習しておくと機械学習の本もさくさく読めます。

(7)山本義郎/藤野友和/久保田貴文(2015)
『Rによるデータマイニング入門』
https://www.amazon.co.jp/dp/4274218171/
 Rの機能を簡潔に書いてある本はないかと漁っていたときに見つけました。データマイニングでRを使うならこれで十分じゃないかな。後ろの方にテキストマイニングのことも載っています。

(8)速水 悟(2016)
『事例+演習で学ぶ機械学習 ビジネスを支えるデータ活用のしくみ』
https://www.amazon.co.jp/dp/4627880219/
以前、ブログで紹介しました。
機械学習からテキストマイニングをうまくつないでいます。初心者でも読みとおせます。
http://page-only-one.cocolog-nifty.com/imotora7/2017/02/post-2b3c.html

(9)石川 慎一郎/前田 忠彦(2010)
『言語研究のための統計入門』
https://www.amazon.co.jp/dp/487424498X/
 まさしく計量言語学の本ですね。テキストマイニングのことも書いてあるんで欲しかったんですけど、結局、研究が終わってから読みました。統計学を使って、言語学にも是非切り込みたいです。CDで統計ソフトも入っています。

(10)金明哲(2009)
『テキストデータの統計科学入門』
https://www.amazon.co.jp/dp/4000057022/
テキストマイニングにどのような数学理論を使っているか説明する必要があったので、購入しました。類似の本は出ていないように思います。
金明哲さんはRを使ったデータ解析でいくつか本を書いている有名な方です。

こう見ていくとたくさんの参考資料によって研究を進めることができたのだと思います。
先達は偉大です。

私もいつか後輩に引用される書籍、論文を、という意気込みだけはあります。人気blogランキング・自然科学にぷちっとな。【押す】≪コメントは応接室にお願いします。≫

July 01, 2017

書談:『通勤大学 MBA 統計学』

統計学の本、4冊目です。

『通勤大学 MBA 統計学』 (通勤大学文庫)
著者:グローバルタスクフォース株式会社
Amazon

Mba_tokeigaku

【第1部】 統計学への第1歩
  第1章:統計学の概要
  第2章:分布分析の基本

【第2部】 統計学の基本知識
 第3章:データ間の関係をとらえる
  第4章:信頼性のある標本を作成する
  第5章:標本から母集団を推定する
  第6章:仮説の正しさを推定する

【第3部】 発展的内容への導入
 第7章:多次元のデータを解析する
  第8章:実践へのガイダンス

これは読んだと言っていいのかどうか。ポイントが書いてあるという点ではいいのですが、統計学の本を一冊読んでいないとわからないでしょうね。

でも高校数学の知識しかない人が読んでこれはわかるのかな。
私はある程度勉強したので、すごくよくまとまっているように思えるのですが。

まあ、私にとっては知識の確認ができてよかったです。
多変量解析のことも少し書いてあったし。

このMBAシリーズは他のも読んでいて、それなりに役立ちました。

著者はちゃんといるはずなので、「グローバルタスクフォース株式会社」でくくらないでほしいな、と思います。

去年教授に「論文読める程度に統計学は勉強しておいてね」と言われて買ってそのまま放置していた本でした。人気blogランキング・自然科学にぷちっとな。【押す】≪コメントは応接室にお願いします。≫

June 27, 2017

書談:久米郁男『原因を推論する -- 政治分析方法論のすゝめ』

統計学の本、3冊目を読みました。
厳密には統計学、ではないのですが。

『原因を推論する -- 政治分析方法論のすゝめ』
 -政治分析の方法を身につける-
◆有斐閣社のリンク◆
著者:久米 郁男 (早稲田大学教授)
発行:2013年11月
出版:有斐閣
定価 1,944円(本体 1,800円)

Kumeikuo

ー目次ー
序 章 説明という試み
第1章 説明の枠組み─原因を明らかにするとはどういうことか
第2章 科学の条件としての反証可能性─「何でも説明できる」ってダメですか?
第3章 観察,説明,理論─固有名詞を捨てる意味
第4章 推論としての記述
第5章 共変関係を探る─違いを知るとはどういうことか
第6章 原因の時間的先行─因果関係の向きを問う
第7章 他の変数の統制─それは本当の原因ですか?
第8章 分析の単位,選択のバイアス,観察のユニバース
第9章 比較事例研究の可能性
第10章 単一事例研究の用い方
終 章 政治学と方法論
ちょっと長い,少し個人的な,あとがき

計量政治分析という分野を語っているのですが、社会科学一般に適用できます。
科学的説明という点では反証可能性について語っています。
社会科学でカール・ポパーの説に取り上げている類書はあまり目にしません。
(アマサイが知らないだけかもしれませんが)
事象を説明する例として、小学生なら誰でも習う朝顔の光合成の実験です。
朝顔の葉の一部にアルミホイルをまくとその部分だけ光合成をしていないのがわかる、というアレです。
事象を説明するというのは私たちは小学生のときからやっているというわけです。

しかし、世の中の事象を説明するとなるといろんな変数を解析しないといけないので、複雑になってきます。

森川友義の研究に「若者は選挙にいかないせいで4000万円も損をしている」というのがあります。投票率、社会保障、国債発行額の年度ごとの時系列データから算出しています。この結果を検証しているグループがあり、投票率と社会保障との間には必ずしも正の相関関係があるわけではない、ということを説明しています。そもそも、1票で候補者の当落が決まるわけではないので、関係性を問うこと自体検討はずれということでもあります(これは本書で久米先生が反論している)。

社会科学では、計量的に1つの説を出してもだだっと、反論する論文が出るようです。

投票率で何かの傾向が導きだせれば、政治学として結構な成果だと思いますが、統計を少しでも真面目に勉強すれば、それが簡単でないことは理解できるでしょう。

本書でも、細かい話になると「あとは統計学の専門書」を読んでいただきたいと説明を省いています。

本書は社会科学における統計学の成果事例を紹介しているので、このブログでは統計学の本ということで紹介しました。

次の研究のネタを見つけようと本書を手にとったのですが、ネタはあっても、結論まで導くのは大変そうです。

でもデータ解析をやりたいという人は絶対に目を通しておく一書だと思いました。

研究者の道は長く遠い。人気blogランキング・自然科学にぷちっとな。【押す】≪コメントは応接室にお願いします。≫

June 13, 2017

書談:豊田裕貴『現場で使える統計学』

統計学の本をもう一冊読了いたしました。
勉強中には複数の本を参照していますが、「読書」として読んだのは2冊目です。

『現場で使える統計学』
発行:2006/9/28
著者:豊田 裕貴
出版:阪急コミュニケーションズ
Amazon

71fg5ryvdll

阪急コミュニケーションズという出版社はどこかに吸収されて今はないようです。
(CCCメディアハウスというところでした)
豊田先生のお名前はテキストマイニングの本でお見かけしたので、信頼できる著者だと思いましたし、アマゾンのサイトで中を読むことができました。
これはなかなか使える本だと思いました。

第1章 統計学を使うススメ、使わないススメ
第2章 要約のために統計学を使う
第3章 基本指標を組み合わせて統計学を使う
第4章 断言できないときに統計学を使う
第5章 仮説立てに統計学を使う
第6章 仮説の検証に統計学を使う

ほとんど数式を使わず統計学を説明しています。
少しは使ってくれると、学習者にはむしろ助かるのですが。

分散と標準偏差の考え方がよくわかりました。
仮説統計に関しても丁寧に説明しています。
豊田先生の近著に『Excel分析ツール 完全詳解』と『Rによるデータ駆動マーケティング』という本がありますが、根本思想は本著に凝縮されています。
つまり、ビジネスで使う統計は本書で十分であり、それをExcelやRで計算できれば、ばっちし、ということです。

これを読了すれば、統計教科書の類もスムーズに読めるのではないかと思います。

お勧めの一書です。

大学で習う統計学は概ねわかる、という水準までもっていきたいです。人気blogランキング・自然科学にぷちっとな。【押す】≪コメントは応接室にお願いします。≫

June 07, 2017

書談:サイエンスパレット『統計学』

サイエンスパレットの一冊『統計学』を読みました。

『統計学』サイエンス・パレット SP-012
著者:David J. Hand
翻訳:上田修功     
発行元:丸善出版

Vsi_

これはオックスフォード大学出版から出している、
「A Very Short Introduction」シリーズのうちの一冊です。
このシリーズは日本でいう新書版の内容です。
なぜか、理系のものは丸善で、文系のものは岩波書店から翻訳を出しています。

英語の勉強のために原書も買いましたが、まだ読んでいません。

1 統計学に囲まれて 現代統計学/定義/嘘,大嘘,そして統計/データ/広義の統計学/いくつかの例/結論

2 統計学の基礎
はじめに/再び,データ/単純な要約統計量/平均/ばらつき/歪度/分位数

3 よいデータの収集
不完全データ/不正確なデータ/誤差伝搬/前処理/観測と実験データ/実験計画/サンプリング調査

4 確率
偶然の本質/確率とは/偶然の法則/確率変数とその分布

5 推定,推論
点推定/どの推定が最良か/区間推定/検定/決定理論/われわれは今どこ?

6 統計モデルと手法
統計モデル:これまでの議論の融合/統計手法:実用統計学/統計的図表/結論

7 統計計算
統計学はそのあり方を変える

それこそ、統計学の基礎知識を得るために読んだのですが、読後感はちょっと微妙です。
目次は通常の統計教科書と同じなのですが、1章から5章まで、「統計学って大事だよね」ということが書かれていて、6章と7章で統計手法がばばっばと羅列してある感じです。

もっと丁寧な説明が欲しかったかな。

「A Very Short Introduction」は他にも読んだのですが(翻訳でw)、ちょっとこれはこざっぱりしすぎてやしないかな。

まあ、統計英語の勉強のつもり読めばそれで役に立つかな。

まだまだ勉強せねば。

いつの日か、一流のデータサイエンティストになるのだ!人気blogランキング・自然科学にぷちっとな。【押す】≪コメントは応接室にお願いします。≫

April 26, 2017

ハロー、ファインマンさん、

@gejikeiji さんが物理系の学生は高校生から『ファインマン物理学』読んでますよね、というお話をされていました。
https://twitter.com/gejikeiji/status/856880389637517312

いや~、アマサイはそもそも高校生のときにファインマンさんを知らなかったっすね。

でも、これは読みましたよ。

『物理法則はいかにして発見されたか』 (岩波現代文庫) 2001/3/16
R.P.ファインマン(著) 江沢 洋 (翻訳)
https://www.amazon.co.jp/dp/4006000480/

アマサイが高校生のときは、単行本しかなかった気がする。
Buturigakunohousoku


「理系に進むなら読んでおきたい本」というリストに入っていました。

結構読みやすかったですけど、どのくらい理解していたのかな、高校生の私。
読みやすいのはファインマンさん流ですね。

とね日記で詳しい内容が書かれています。
とね日記 2012年03月04日
http://blog.goo.ne.jp/ktonegaw/e/ab31086d3d97f72d800893033189592d
------------------
目次
第1部:物理法則とは何か(コーネル大学における講演)
1. 重力の法則 - 物理法則の一例として
2. 数学の物理学に対する関係
3. 保存という名の大法則
4. 物理法則のもつ対称性
5. 過去と未来の区別
6. 確率と不確定性 - 量子力学的の自然観
7. 新しい法則を求めて
第2部:量子電磁力学に対する時空全局的観点の発展(ノーベル賞受賞講演)
-------------------

ノーベル物理学賞を受賞した高名な物理学者だと知ったのはずっと後のことです。

若き日の読書というのはそれでよいのだと思います。

名著に触れる、その後読み直すということができますから。

私もそろそろ物理学の学徒に戻りますか。

今は数理情報学けんきゅー者と名乗っています。//人気ブログランキングに投票してください。【押す】 ご意見ご要望は新掲示板にお書き込みください。家主が確認の上、公開いたします。

February 26, 2017

書談:小林雄一郎『Rによるやさしいテキストマイニング』

待望の小林先生の「やさテキ」購入しました。

『Rによるやさしいテキストマイニング』
著者:小林 雄一郎
発行:2017/2/17
出版:オーム社
amazon
51xslsqffl__sx350_bo1204203200_


今まで、テキストマイニングを学ぶときは、
・テキストマイニングのツールの使い方
・統計学・データマイニングの知識
を別個に学ぶ必要がありましたが、本書とパソコンがあればだれでもテキストマイニングを始められるようになっています。
-------------
はじめに

Part I 基礎編
第1章 テキストマイニング入門
1.1 テキストマイニングとは
1.2 社会で活用されるテキストマイニング
1.3 テキストマイニングの歴史

第2章 テキストマイニングの理論的枠組み
2.1 テキストデータの構築
2.2 テキストデータの分析

Part II 準備編
第3章 分析データの準備
3.1 データセットの構築
3.2 テキストファイルの作成.
3.3  CSVファイル
3.4 テキスト整形.

第4章 データ分析の基本
4.1 R のインストールと基本操作
4.2 ベクトルと行列
4.3 データの要約..
4.4 文字列処理.
4.5 ファイルの読み込み

第5章 データの視覚化
5.1 ヒストグラム
5.2 箱ひげ図
5.3 モザイクプロット
5.4 散布図

Part III 実践編
第6章 基本的なテキスト分析
6.1 形態素解析
6.2 単語の頻度分析
6.3 n-gramの頻度分析
6.4 共起語の頻度分析

第7章 発展的なテキスト分析
7.1 複数データの頻度解析.
7.2 頻度の標準化と重み付け

第8章 基本的な統計処理
8.1 検定と効果量.
8.2 相関と回帰

第9章 発展的な統計処理
9.1 テキストのグループ化
9.2 テキストの分類.

第10章 英語テキストの分析
10.1 用例検索.
10.2 単語とn-gramの頻度分析
10.3 共起語の頻度分析
10.4 語彙多様性とリーダビリティの分析
-------------
コマンドも丁寧に書いてあります。

Photo

文系の人にはちょっと辛いかもしれませんが、慣れですね。
多くの人がテキストマイニングに挑戦し、新たな知見を得られるとビッグデータ時代も楽しいですね。

みんなでテキストマイニングをしよう。//人気ブログランキングに投票してください。【押す】ご意見ご要望は新掲示板にお書き込みください。家主が確認の上、公開いたします。

February 05, 2017

機械学習のススメ

修論がらみで機械学習のライトトーキングを頼まれました。
何か書籍を買わなければ、と思ったら、先月買ったばかりの本が見つかりました。

『事例+演習で学ぶ機械学習-ビジネスを支えるデータ活用のしくみ-』
著者:速水悟
出版:森北出版
発行:2016年4月28日

第1章 ネット時代のデータ活用
第2章 データマイニングと機械学習
第3章 識別:線形識別とその発展形
第4章 予測:線形回帰とニューラルネットワーク
第5章 決定木
第6章 テキストマイニングと評判分析
第7章 推薦システム
第8章 ソーシャルネットワークの分析
第9章 検索連動広告
付録 R言語による演習

Kikaigakushu

機械学習はRとかWakeなどフリーソフトがあるので、結構簡単に試せます。
問題は何のデータを機械学習にかけるか、です。

ビジネスで何らかのデータを持っている人はそれをこのようなテキストに沿ってマイニングすればよいと思います。

特にそのようなデータを持ち合わせていない人はテキストマイニングに挑戦することをお勧めします。

ブログやTwitter、Amazonの商品評価など、フリーのテキストがたくさん落ちています。
そのテキストの傾向性などを解析することができます。

KHcorderなどフリーのテキストマイニングソフトもあります。
フリーの場合、辞書を整備する必要があります。

人工知能ブームのおかげで関連情報もたくさん出ています。

機械学習をやっていると「人工知能の研究しています」と言ってもウソではないので。
(^_^;)

みんなで機械学習やろう。//人気ブログランキングに投票してください。【押す】

September 11, 2016

映画&小説『後妻業の女』

毎日忙しいすぎてブログを書いている暇がありません。
うれしい悲鳴(^◇^)

頭を使いすぎていたので先日、映画『後妻業の女』を観に行きました。

Gosaigyo


予習として黒川博行『後妻業』は読んでいます。
黒川のおっちゃんの小説結構すきです。

「後妻業」 (文春文庫) 黒川 博行

------------------------
「武内小夜子、63歳、好きなことは読書と夜空を見上げること…わたし、尽くすタイプやと思います」結婚相談所主催のパーティで可愛らしく自己紹介する小夜子(大竹しのぶ)の魅力に男たちはイチコロである。耕造(津川雅彦)もその一人。二人は惹かれあい、結婚。幸せな夫婦生活を送っていた、はずだった―。2年後耕造は亡くなり、葬式の場で耕造の娘・朋美(尾野真千子)と尚子(長谷川京子)は、小夜子から遺言公正証書を突き付けられ、小夜子が全財産を相続する事実を言い渡される。納得の行かない朋美が調査をすると、衝撃の事実が発覚。小夜子は、後妻に入り財産を奪う“後妻業の女”だったのだ!
------------------------
原作を読みながらこれは大竹しのぶしかないだろうと思っていました。
実年齢よりも高い役なのですなあ、と思ったら、30代の場面も出てくるからですな。
映画の小夜子は原作よりもたくましいです。

実際の事件を元に原作を書いたらしいですが、それをコメディにしてしまうのは黒川マジックです(リアル関係者は憤慨してると思いますが)。それをリアリティを持って映像化できたのは、配役の力が大きいですな。

大竹しのぶ、豊川悦司、尾野真千子、長谷川京子、水川あさみ、風間俊介、余貴美子、笑福亭鶴瓶、津川雅彦、永瀬正敏

どれも一癖ある輩ばかりです。

小夜子の息子(原作では弟)の風間俊介がなかなかいけてました。
ああいう凶器じみた役もできるのですね。
風間くんにはこれからもがんばってほしいです。

いやー、アマサイも「ブライダル微祥」に登録して後妻業の修行をしてみたいですな。
冗談ですよ、冗談(^^;)

シン・ゴジラも見ないといけないですかね。//科学ブログランキングに投票してください。【押す】。ご意見ご要望は新掲示板にお書き込みください。家主が確認の上、公開いたします。

July 06, 2016

『明解量子重力理論入門 』学習会

放送大学の物理好きの仲間とこの本を学習することになりました。


Mikai


●『明解量子重力理論入門 (KS物理専門書)』
発行:2011年7月26日
著者:吉田 伸夫

----------------------
内容紹介

超ひも理論も、ループ量子重力理論も、第一歩からわかる知的興奮の書!

相対論と量子論を統一することはできるのか? 最先端理論が説く宇宙の過去と未来とは? 近年発展の著しい量子重力理論の最先端を、基礎から明解に説き明かす入門書

第1部 量子重力理論までの道程
第1章 量子論の基本原理
第2章 場の量子化とくりこみ
第3章 時空のゆがみとしての重力
第4章 重力の量子化
第2部 量子重力理論の具体例
第5章 時空構造の極限を求めて――ループ量子重力理論
第6章 素粒子論的アプローチ――超ひも理論
第7章 半古典的取り扱い――ホーキング放射
第8章 宇宙論への応用

内容(「BOOK」データベースより)

なぜ重力の量子化が困難なのか?量子重力理論は、何を解決しようとしているのか?ループ量子重力理論とは、超ひも理論とは、どのような理論なのか?学部学生程度の物理学から出発し、量子重力理論という最先端へ読者をいざなう、専門書を読む前の、はじめの一歩に最適な入門書。
-----------------------
先日は進行役の方が素晴らしかったので1章を学習し終わりました。
§1 古典物理学と最小作用の原理
§2 不確定性関係と量子論の原理
§3 経路積分の手法
§4 波動関数とシュレディンガー方程式
§5 振動するシステムのエネルギー量子
§6 特殊相対論と場のアイデア

自習では理解できないことがわかるようになり、頭がすっきりしていい感じです。

次回の勉強回を楽しみにしています。

久しぶりに物理帝国主義者としての活動でした。//人気ブログランキングに投票してください。【押す】。ご意見ご要望は新掲示板にお書き込みください。家主が確認の上、公開いたします。

より以前の記事一覧

サイト内検索
ココログ最強検索 by 暴想

更新情報

August 2017
Sun Mon Tue Wed Thu Fri Sat
    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31