無料ブログはココログ

« January 2017 | Main | April 2017 »

February 26, 2017

書談:小林雄一郎『Rによるやさしいテキストマイニング』

待望の小林先生の「やさテキ」購入しました。

『Rによるやさしいテキストマイニング』
著者:小林 雄一郎
発行:2017/2/17
出版:オーム社
amazon
51xslsqffl__sx350_bo1204203200_


今まで、テキストマイニングを学ぶときは、
・テキストマイニングのツールの使い方
・統計学・データマイニングの知識
を別個に学ぶ必要がありましたが、本書とパソコンがあればだれでもテキストマイニングを始められるようになっています。
-------------
はじめに

Part I 基礎編
第1章 テキストマイニング入門
1.1 テキストマイニングとは
1.2 社会で活用されるテキストマイニング
1.3 テキストマイニングの歴史

第2章 テキストマイニングの理論的枠組み
2.1 テキストデータの構築
2.2 テキストデータの分析

Part II 準備編
第3章 分析データの準備
3.1 データセットの構築
3.2 テキストファイルの作成.
3.3  CSVファイル
3.4 テキスト整形.

第4章 データ分析の基本
4.1 R のインストールと基本操作
4.2 ベクトルと行列
4.3 データの要約..
4.4 文字列処理.
4.5 ファイルの読み込み

第5章 データの視覚化
5.1 ヒストグラム
5.2 箱ひげ図
5.3 モザイクプロット
5.4 散布図

Part III 実践編
第6章 基本的なテキスト分析
6.1 形態素解析
6.2 単語の頻度分析
6.3 n-gramの頻度分析
6.4 共起語の頻度分析

第7章 発展的なテキスト分析
7.1 複数データの頻度解析.
7.2 頻度の標準化と重み付け

第8章 基本的な統計処理
8.1 検定と効果量.
8.2 相関と回帰

第9章 発展的な統計処理
9.1 テキストのグループ化
9.2 テキストの分類.

第10章 英語テキストの分析
10.1 用例検索.
10.2 単語とn-gramの頻度分析
10.3 共起語の頻度分析
10.4 語彙多様性とリーダビリティの分析
-------------
コマンドも丁寧に書いてあります。

Photo

文系の人にはちょっと辛いかもしれませんが、慣れですね。
多くの人がテキストマイニングに挑戦し、新たな知見を得られるとビッグデータ時代も楽しいですね。

みんなでテキストマイニングをしよう。//人気ブログランキングに投票してください。【押す】ご意見ご要望は新掲示板にお書き込みください。家主が確認の上、公開いたします。

February 24, 2017

科学と市民(Twitter短文連投)

久しぶりにTwitterで連投した。こういうときTwitterは便利だ。
https://twitter.com/ama_sci

科学と市民(1)
日本人は昔から自然科学への関心が強いと言われている。科学と言っても幅が広い。日常的に植物を育てるのも科学への関心と言えるし、岩石の調査や収集もそれと言える。科学雑誌の売り上げだけでどうこう言えるものではない。

科学と市民(2)
小中学校で言えば、理科実験が好きと答える生徒は多い。化学式とか数理的法則が多く出てくると理科を嫌う生徒が増えてしまう。

科学と市民(3)
科学教育をしっかりやればニセ科学を信じる人は減ると言う人がいるのはそれはあまり相関性がない。科学者でさえオカルト的なもの信じるのだから理性や知識の問題ではないのだ。

科学と市民(4)
数学や理科が好きだと理学部や工学部に進学しそうなものだが、必ずしもそうではない。世の中の動向や大学の難易度によって進学先を決定する。ワカモノはクールなのである。

科学と市民(5)
昔の高校は生物、化学、物理、地学を全て網羅して教えていたと50代以上の人は言うのだが、それはごく一部、理科は最低限しか教えられていない。今の指導要領をしらないので現行はどうなっているか私も知らない。

科学と市民(6)
戦後70年を経て科学で括られる知識は指数倍で増えている。市民が全部網羅するのは不可能である。「科学嫌いが日本を滅ぼす」といかいう奇天烈な言説を唱える老人は早く死んでしまえばいいのだ。

今のところ反応はないw。人気blogランキング・自然科学にぷちっとな【押す】。ご意見ご要望は新掲示板にお書き込みください。家主が確認の上、公開いたします。

February 22, 2017

掲示板

新掲示板と名乗りましたが、いつの頃からか通知メールが着かず、放置してましたが、書き込みはあったようですね。

確か初めのうちは、通知があったのですが。

ふーむ。なぞである。

毎日管理画面を見に行くことにしましたので、今は書き込みしてくださいってもわかります。

しかし、どんどんサービスを削除していくニフティ。
ココログもいつまで続くのやら。

February 12, 2017

第10回テキストマイニングシンポジウム

第10回テキストマイニングシンポジウムの2日目に行ってきました。
初大阪上陸です。

2日目:2月10日(金)

◆09:00~10:30 文書の品質と可読性  [座長: 小早川 健(NICT)]

(13)[IFAT] 09:00 - 09:25 確率的言語モデルに基づく効率的閲読のモデル化
二階堂 学(東京工業大学)・藤井 敦(東京工業大学)

(14)[NLC] 09:25 - 09:50 業績推定とのマルチタスク学習による決算短信からの重要文抽出
磯沼 大・○藤野 暢・浮田純平・村上 遥・浅谷公威・森 純一郎・坂田 一郎(東大)

(15)[IFAT] 09:50 - 10:15 Plagiarism Detection Based on Citation Contexts
Soleman Sidik (Tokyo Institute of Technology)・Fujii Atsushi (Tokyo Institute of Technology)

(16) 10:15 - 10:30ディスカッションタイム

◆10:40~11:40 招待講演(2)  [司会: 藤井 敦(東京工業大学)]
100歳を迎えたリーダビリティー研究:その誕生から最新動向まで野本 忠司 (国文学研究資料館 准教授)

◆13:20~13:45 国際会議報告
(18)[IFAT] 13:20 - 13:45 SIGIR2016参加報告
野本 昌子(ヤフー株式会社)・マク ヒンチュン(ヤフー株式会社)

◆13:55~15:55 一般ユーザからの知識獲得  [座長: 嶋田 和孝(九工大)]

(19)[NLC] 13:55 - 14:20 震災被災者のソーシャルメディア分析を通じたメンタルケアの可能性
○青木竜哉(東工大)・那須川哲哉・吉川克正(日本IBM)・高村大也・奥村学(東工大)

(20)[NLC] 14:20 - 14:45 感情分析を用いた口コミサイトのレビュー分類システムの開発
○安藤 瞭・原 紳・渡邊信一(宇都宮大)

(21)[NLC] 14:45 - 15:10 音楽プレーヤアプリの利用者がコンテンツの再生中に投稿するツイートの調査
○安田研二・渡辺靖彦(龍谷大)

(22)[NLC] 15:10 - 15:35 Dating Serviceのデータを用いたWord2Vecによる趣味・嗜好の類似度算出
○明畠利樹・中西健太郎・岩本拓也(ミクシィ)

(23) 15:35-15:50ディスカッションタイム

このシンポは夏は東京渋谷、冬は大阪、それぞれで行われています。
夏は去年も一昨年も行ってきました。
第7回テキストマイニングシンポジウム

昨夏のは参加したもののレポートする時間が取れず、昨冬の大阪は体力的に行ける感じではなかったですね。終了後事務局に問い合わせたところ、予稿集は売り切れで紙媒体はないとのこと。これは冬も行かないと情報が入手できない、とばかりに高速バスを予約して申し込んだのでありました。

期待通りバラエティに富んだ楽しい発表会でした。
特に午後の「一般ユーザからの知識獲得」はアマサイの研究にも関係があり、興味津々でした。という割に眠気が襲い、最初の2つは夢うつつだったのですがw

(21)「音楽プレーヤアプリの利用者がコンテンツの再生中に投稿するツイートの調査」というのは、Twitterの#Nowplayingというタグを拾って、人はどういうときどういう曲を聴いているかということを機械学習して分類するというものです。この結果は業界の人が知れば、協調フィルタリングを使ってこの人はどのような音楽を聴いていてどのような曲を推薦すれば買ってくれるかという市場調査に役立つと評判がよかったです。

アマサイが興味を持ったのは、(22)「Dating Serviceのデータを用いたWord2Vecによる趣味・嗜好の類似度算出」というものです。
ネット婚活で相手を探すのはめんどくさいw、だから自分のプロフィルから適合する相手を自動的に選んでくれるシステムを構築したというものです。なんだかふざけている研究のようですが、Word2Vecを使って嗜好行列ベクトルを作り機械学習にかけるという至極真っ当なシステムでした。

この日の発表を聴いて、アマサイはどうも難しいことばかりに目が行ってしまい、テキストマイニングの可能性を狭めていると感じました。

もっと機械学習を勉強して、ツールを自由自在に使えるようになり、論文をばしばし書きたいと思います。


テキストマイニングは楽しいよ。//人気ブログランキングに投票してください。【押す】

February 05, 2017

機械学習のススメ

修論がらみで機械学習のライトトーキングを頼まれました。
何か書籍を買わなければ、と思ったら、先月買ったばかりの本が見つかりました。

『事例+演習で学ぶ機械学習-ビジネスを支えるデータ活用のしくみ-』
著者:速水悟
出版:森北出版
発行:2016年4月28日

第1章 ネット時代のデータ活用
第2章 データマイニングと機械学習
第3章 識別:線形識別とその発展形
第4章 予測:線形回帰とニューラルネットワーク
第5章 決定木
第6章 テキストマイニングと評判分析
第7章 推薦システム
第8章 ソーシャルネットワークの分析
第9章 検索連動広告
付録 R言語による演習

Kikaigakushu

機械学習はRとかWakeなどフリーソフトがあるので、結構簡単に試せます。
問題は何のデータを機械学習にかけるか、です。

ビジネスで何らかのデータを持っている人はそれをこのようなテキストに沿ってマイニングすればよいと思います。

特にそのようなデータを持ち合わせていない人はテキストマイニングに挑戦することをお勧めします。

ブログやTwitter、Amazonの商品評価など、フリーのテキストがたくさん落ちています。
そのテキストの傾向性などを解析することができます。

KHcorderなどフリーのテキストマイニングソフトもあります。
フリーの場合、辞書を整備する必要があります。

人工知能ブームのおかげで関連情報もたくさん出ています。

機械学習をやっていると「人工知能の研究しています」と言ってもウソではないので。
(^_^;)

みんなで機械学習やろう。//人気ブログランキングに投票してください。【押す】

February 02, 2017

映画『あん』

先日、BSで映画『あん』を見ました。
上映中に行きたかったのですが、忙しい時期でなかなかいけませんでした。

テレビで見られてよかったですが、やはり劇場で見たかったですね。

Eiga_an

映画「あん」で問いかけた「生きる意味」とは 原作・ドリアン助川さんに聞く

物語は、罪を犯して出所し、借金を抱えながらどら焼き店で働く千太郎(永瀬正敏)の店に、年老いた徳江(樹木希林)がアルバイトを志願することから始まる。徳江が小豆に語りかけながらゆでる餡(あん)のおいしさに、店は評判となり繁盛する。徳江はハンセン病療養所に住み、所内で菓子作りを学んでいた。しかし店主は、徳江の曲がった指を見て仙太郎に命じる。「あの人、『らい』よ。やめてもらってちょうだい」。風評が広がったのか、店への客足は遠のき始める。徳江もいつしか店を去るが、千太郎と常連客の中学生ワカナ(内田伽羅)は、ハンセン病療養所に住む徳江を訪ね、交流を深めていく。

・キャスト
徳江 - 樹木希林
千太郎 - 永瀬正敏
ワカナ - 内田伽羅
佳子 - 市原悦子
どら春のオーナー - 浅田美代子
ワカナの母 - 水野美紀
陽平 - 太賀
若人 - 兼松若人

1996年に「らい予防法」は廃止されましたが、それ以前にもらい病を扱った作品はありました。松本清張の『砂の器』は有名ですね。
2004年のTBSテレビでやったやつは、千代吉が大量殺人者という前科者という設定でした。これでは、『砂の器』を原作にした意味がありません。残念な映像化でした。

現代までらい病患者を隔離していたのは日本だけです。
たぶん、明確な差別がない(肌の色とか容姿)国だから被差別者を特定したかったのでしょうね。

前科のある千太郎とらい病患者である徳江が甘いドラ焼きで繋がれ、やがて離れ離れになってしまう。やさしくも切ない物語です。

映画全編で原作者のドリアン助川のメッセージ「誰もが意味を持ってうまれてきた」が突き付けられています。

今もらい病患者に向けられている差別を思うと胸が締め付けられるようです。

徳江が言う
「あんこみたいに甘いものにはね、塩気が少しあると甘味が強まるの。こういうお汁粉には塩昆布みたい固いものが合うわね」
という言葉は、苦難は人生の甘味を引き立てるという比喩でしょうか。

それにしても、徳江や千太郎の人生は塩気が効きすぎています。

西武線の通る桜並木は東京都東村山市だそうです。

都心から離れてはいるが、ド田舎ではない東村山は、千太郎や徳江が住むにはちょうどいい場所だったかもしれません。

日本映画は斜陽と言われていますが、毎年このような秀作が作られています。

私はバリバリハリウッドの映画ではなく、こういう人の温かみを感じる作品が好きです。

海外で評判がよかったのもうれしいですね。//人気ブログランキングに投票してください。【押す】。ご意見ご要望は新掲示板にお書き込みください。家主が確認の上、公開いたします。

« January 2017 | Main | April 2017 »

サイト内検索
ココログ最強検索 by 暴想

更新情報

May 2017
Sun Mon Tue Wed Thu Fri Sat
  1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31