無料ブログはココログ

« May 2017 | Main | July 2017 »

June 29, 2017

テキストマイニングに興味がある人へ

テキストマイニングについて聞かれることがままあるので、ここにリンク集を作っておきます。

●テキストマイニングツール

・KHcorder http://khc.sourceforge.net/
 よくできたツールです。まず、これを使って、いろいろやってみることをお勧めします。

・TTM(Tiny Text Miner) http://mtmr.jp/ttm/
 実際はRでテキストマイニングをするのですが、それを前処理するためのツールです。

・Rmecab https://sites.google.com/site/rmecab/
 以下の石田さんの著書を見ながら使うといいでしょう。

●参考文献

1)小林雄一郎(2017)
「Rによるやさしいテキストマイニング 」
https://www.amazon.co.jp/dp/4274220230/
 2017年2月に出たばかりです。これを読んでRを使うとテキストマイニングがわかると思います。

2)樋口 耕一(2014)
「社会調査のための計量テキスト分析―内容分析の継承と発展を目指して 」
https://www.amazon.co.jp/dp/4779508037/
KHcorderの作者樋口さんの著書です。KHcorderのマニュアル本としても使えます。

3)松村 真宏/三浦 麻子(2014)
「人文・社会科学のためのテキストマイニング[改訂新版]」
https://www.amazon.co.jp/dp/4414300037/
TTMの作者松村さん、三浦さんの著書です。テキストマイニング研究事例も載っています。

4)石田基広(2017)
「Rによるテキストマイニング入門 第2版」
https://www.amazon.co.jp/dp/4627848420/
 私が研究を始めた時は2008年の第1版でした。テキストマイニングとは何かを教えてもらいました。2版は最新情報も含みグレードアップしています。
※ 入門と書いてありますが2版は中級者向けになっています。ご注意を。

5)菰田文男/那須川哲哉(2014)
「ビッグデータを活かす 技術戦略としてのテキストマイニング 」
https://www.amazon.co.jp/dp/450209580X/
 この本にインスパイアされて研究を始めました。商用ソフトを使った事例ですが、テキストマイニングの考え方がわかります。

6)石田 基広/小林 雄一郎 (2012)
「Rで学ぶ日本語テキストマイニング」
https://www.amazon.co.jp/dp/489476654X/
 計量国語学の事例を扱っています。まだテキストマイニングの資料が少なかったのでいろいろ助けてもらいました。

研究計画書を書いたのが2014年、研究を始めたのが2015年、第三次人工知能ブームの波にうまくのって、情報がほどよく入ってきました。

偶然ですが、良い時期に修士研究をできたと思っています。

テキストマイニングからいろんな世界が見えてきます。人気blogランキング・自然科学にぷちっとな。【押す】≪コメントは応接室にお願いします。≫

June 27, 2017

書談:久米郁男『原因を推論する -- 政治分析方法論のすゝめ』

統計学の本、3冊目を読みました。
厳密には統計学、ではないのですが。

『原因を推論する -- 政治分析方法論のすゝめ』
 -政治分析の方法を身につける-
◆有斐閣社のリンク◆
著者:久米 郁男 (早稲田大学教授)
発行:2013年11月
出版:有斐閣
定価 1,944円(本体 1,800円)

Kumeikuo

ー目次ー
序 章 説明という試み
第1章 説明の枠組み─原因を明らかにするとはどういうことか
第2章 科学の条件としての反証可能性─「何でも説明できる」ってダメですか?
第3章 観察,説明,理論─固有名詞を捨てる意味
第4章 推論としての記述
第5章 共変関係を探る─違いを知るとはどういうことか
第6章 原因の時間的先行─因果関係の向きを問う
第7章 他の変数の統制─それは本当の原因ですか?
第8章 分析の単位,選択のバイアス,観察のユニバース
第9章 比較事例研究の可能性
第10章 単一事例研究の用い方
終 章 政治学と方法論
ちょっと長い,少し個人的な,あとがき

計量政治分析という分野を語っているのですが、社会科学一般に適用できます。
科学的説明という点では反証可能性について語っています。
社会科学でカール・ポパーの説に取り上げている類書はあまり目にしません。
(アマサイが知らないだけかもしれませんが)
事象を説明する例として、小学生なら誰でも習う朝顔の光合成の実験です。
朝顔の葉の一部にアルミホイルをまくとその部分だけ光合成をしていないのがわかる、というアレです。
事象を説明するというのは私たちは小学生のときからやっているというわけです。

しかし、世の中の事象を説明するとなるといろんな変数を解析しないといけないので、複雑になってきます。

森川友義の研究に「若者は選挙にいかないせいで4000万円も損をしている」というのがあります。投票率、社会保障、国債発行額の年度ごとの時系列データから算出しています。この結果を検証しているグループがあり、投票率と社会保障との間には必ずしも正の相関関係があるわけではない、ということを説明しています。そもそも、1票で候補者の当落が決まるわけではないので、関係性を問うこと自体検討はずれということでもあります(これは本書で久米先生が反論している)。

社会科学では、計量的に1つの説を出してもだだっと、反論する論文が出るようです。

投票率で何かの傾向が導きだせれば、政治学として結構な成果だと思いますが、統計を少しでも真面目に勉強すれば、それが簡単でないことは理解できるでしょう。

本書でも、細かい話になると「あとは統計学の専門書」を読んでいただきたいと説明を省いています。

本書は社会科学における統計学の成果事例を紹介しているので、このブログでは統計学の本ということで紹介しました。

次の研究のネタを見つけようと本書を手にとったのですが、ネタはあっても、結論まで導くのは大変そうです。

でもデータ解析をやりたいという人は絶対に目を通しておく一書だと思いました。

研究者の道は長く遠い。人気blogランキング・自然科学にぷちっとな。【押す】≪コメントは応接室にお願いします。≫

June 24, 2017

「真の量子コンピュータ」実現への道

量子コンピュータが流行っているようで、喜ばしい限りです。

「真の量子コンピュータ」実現への道--IBMの開発状況を読み解く

 この5月17日に、IBMが17量子ビットの量子コンピュータを披露した。小さな数字に聞こえるかもしれない。しかし非常に重要な一歩を人類が歩んだことを示す数字である。  われわれが利用しているコンピュータは、プログラムにより指令を送ることで所望の動作をする。いわば自由自在にお願いを聞いてくれる大規模な装置である。  そのコンピュータの動作原理は、(物理学の観点では)電気が流れるか流れないか、という2つの状態をそれぞれ異なるものとして扱う。  この2つの状態の間のスイッチングを巧みに利用して複雑な動作を実現させている。  量子コンピュータでは、「電気が流れるか流れないか」という2つの状態を分離して扱うだけではなく、足し合わせて利用し、複雑に絡み合わせて利用することもできる。そのため、われわれが想像をしている動作の範疇(はんちゅう)を大きく超える。  この新しい計算能力を利用すると、これまでのコンピュータでは非常に時間がかかってしまうような難問の一部についても比較的高速に解くことが可能になる。  既存の問題を高速に解くという素朴な期待を超えて、量子コンピュータを人類が手にした時には、人間の思考のスタイルそのものすら変革を迎えることはあまり強調されない。  ゲート方式による量子コンピュータで期待されているのが、量子シミュレーションと呼ばれる技術の開拓だ。自然法則に従う複雑な現象を細部に渡り、シミュレーションを行うのだ。

東京大学・藤井啓祐氏にインタビューしているので、信頼できそうです。

それにしても17量子ビットって半端な気がするのですが、そうではないようです。
「憶測ですが、IBMが開発した17量子ビットのコンピュータの『17』という数字が示す意味は、計算に必要な数値を入力する部分を示す『9』と量子に特有の誤りの2種類を検査するために必要な4ビットが2つで、9+4+4=17ということだと思います」

他の記事にもしきりと「誤り訂正」ができると書いてあります。

量子コンピュータがかなり進んでいるのは確かなようですね。

現在の量子情報通信の特許を調べるとまた新しい見解が出てくるかもしれません。人気blogランキング・自然科学にぷちっとな。【押す】≪コメントは応接室にお願いします。≫

June 13, 2017

書談:豊田裕貴『現場で使える統計学』

統計学の本をもう一冊読了いたしました。
勉強中には複数の本を参照していますが、「読書」として読んだのは2冊目です。

『現場で使える統計学』
発行:2006/9/28
著者:豊田 裕貴
出版:阪急コミュニケーションズ
Amazon

71fg5ryvdll

阪急コミュニケーションズという出版社はどこかに吸収されて今はないようです。
(CCCメディアハウスというところでした)
豊田先生のお名前はテキストマイニングの本でお見かけしたので、信頼できる著者だと思いましたし、アマゾンのサイトで中を読むことができました。
これはなかなか使える本だと思いました。

第1章 統計学を使うススメ、使わないススメ
第2章 要約のために統計学を使う
第3章 基本指標を組み合わせて統計学を使う
第4章 断言できないときに統計学を使う
第5章 仮説立てに統計学を使う
第6章 仮説の検証に統計学を使う

ほとんど数式を使わず統計学を説明しています。
少しは使ってくれると、学習者にはむしろ助かるのですが。

分散と標準偏差の考え方がよくわかりました。
仮説統計に関しても丁寧に説明しています。
豊田先生の近著に『Excel分析ツール 完全詳解』と『Rによるデータ駆動マーケティング』という本がありますが、根本思想は本著に凝縮されています。
つまり、ビジネスで使う統計は本書で十分であり、それをExcelやRで計算できれば、ばっちし、ということです。

これを読了すれば、統計教科書の類もスムーズに読めるのではないかと思います。

お勧めの一書です。

大学で習う統計学は概ねわかる、という水準までもっていきたいです。人気blogランキング・自然科学にぷちっとな。【押す】≪コメントは応接室にお願いします。≫

June 11, 2017

放送大学情報化社会研究会で発表してきました!

放送大学情報化社会研究会というところで、テキストマニングに関する発表を行ってきました。

放送大学神奈川学習センター

Kanagawasc01

Soukai170610

ベースは今年出した修士論文ですが、今回は文系の方も多いので、数理的な説明はせずに、背景が理解できるように構成しなおしました。

修士口頭試問や理系の人の集まりでは全く出ない質問もあり、たいへん勉強になりました。

特に会の顧問であるメディア論の大家・柏倉康夫先生には、私の研究に深い理解をいただき、「これは文学研究にも使えますね」「アマサイさんは、個別の技術に対して特化することではなく、汎用性を目指されたのですね」と正に私が研究大元としていることをご指摘くださいました。

大学院の評価としては「A」をいただきましたが、果たして、これは学術的に評価されるものなのだろうか、と心配しておりました。

しかし、多くの方から「テキストマイニングは面白い、自分も使ってみたいので、是非教えてほしい」というご意見をいただき、大きく自信を持ちました。

もうお一方、立命館大学で研究されている方の発表を拝見しました。まだ研究の途中なので、ネタバレして申し訳ないので、簡単にいいますと、パソコン等のキーボードの習得とジェンダーに纏わる社会学的な視野に基づいた研究です。

この研究からも、学術研究というのは視点が大事だなと思いました。

例えば、統計学の研究をしたいと言っても、統計学の本だけ読んでいては研究にはなかなかならず、他の分野も少し、かじってみて、統計学を当てはめる、という手法を使うと研究ネタが見つかると思います。正に今、そうやって、研究ネタを探しています。

・石田基広先生のRMecab https://sites.google.com/site/rmecab/
・樋口耕一先生のKHcoder http://khc.sourceforge.net/
の宣伝はしっかりしてきました(^_-)-☆

これからも数理情報学研究者としてがんばっていきます!

Twitterで「海外では博士を持っていないと普通研究者とは言わない」とあって少しがっかりしています。博士号も取りたいな。人気blogランキング・自然科学にぷちっとな。【押す】≪コメントは応接室にお願いします。≫

June 07, 2017

書談:サイエンスパレット『統計学』

サイエンスパレットの一冊『統計学』を読みました。

『統計学』サイエンス・パレット SP-012
著者:David J. Hand
翻訳:上田修功     
発行元:丸善出版

Vsi_

これはオックスフォード大学出版から出している、
「A Very Short Introduction」シリーズのうちの一冊です。
このシリーズは日本でいう新書版の内容です。
なぜか、理系のものは丸善で、文系のものは岩波書店から翻訳を出しています。

英語の勉強のために原書も買いましたが、まだ読んでいません。

1 統計学に囲まれて 現代統計学/定義/嘘,大嘘,そして統計/データ/広義の統計学/いくつかの例/結論

2 統計学の基礎
はじめに/再び,データ/単純な要約統計量/平均/ばらつき/歪度/分位数

3 よいデータの収集
不完全データ/不正確なデータ/誤差伝搬/前処理/観測と実験データ/実験計画/サンプリング調査

4 確率
偶然の本質/確率とは/偶然の法則/確率変数とその分布

5 推定,推論
点推定/どの推定が最良か/区間推定/検定/決定理論/われわれは今どこ?

6 統計モデルと手法
統計モデル:これまでの議論の融合/統計手法:実用統計学/統計的図表/結論

7 統計計算
統計学はそのあり方を変える

それこそ、統計学の基礎知識を得るために読んだのですが、読後感はちょっと微妙です。
目次は通常の統計教科書と同じなのですが、1章から5章まで、「統計学って大事だよね」ということが書かれていて、6章と7章で統計手法がばばっばと羅列してある感じです。

もっと丁寧な説明が欲しかったかな。

「A Very Short Introduction」は他にも読んだのですが(翻訳でw)、ちょっとこれはこざっぱりしすぎてやしないかな。

まあ、統計英語の勉強のつもり読めばそれで役に立つかな。

まだまだ勉強せねば。

いつの日か、一流のデータサイエンティストになるのだ!人気blogランキング・自然科学にぷちっとな。【押す】≪コメントは応接室にお願いします。≫

June 05, 2017

放送大学面接授業『国際統計データの性格と使い方』

放送大学で「国際統計データの性格と使い方」という授業を取りました。
放送大学では、テレビやラジオを通じた授業の他に面接授業と言って、通常の大学のように対面、講義室で講師の先生がリアルに講義を行う授業があります。

今回は2日間に渡る集中講義です。

シラバスを見ずに、学習センターにある受講生追加募集で申し込みました。
国際統計データの性格と使い方

【授業内容】
今日、各国の急激な国際化は、我国においても、社会、経済、環境の各分野の現状の正しい理解と将来に対する意思決定において、ドラスチックな思考変換を求めています。マクロ、ミクロに関わらず、有効な判断をするためには、関連事案の多面的な国際比較に基づいた客観的な、従って相対的な比較観察ー分析が不可欠です。従って、それを可能にする国際統計データの重要性が益々増してきています。本授業では既存の主要国連統計データベースの正しい使い方を応用例を示しながら、又、受講者全員との討論を交えながら、お話します。

【授業テーマ】
第1回 グローバリゼーションと現在我々が直面している諸問題
第2回 限られた資源-資本の最適配分と国際競争力: 持続可能な発展とは?
第3回 社会、経済, 及び環境関連の国連主要統計データベースの紹介(本授業では、これらのデータベースを対象とする)
第4回 それらのデータベースの情報力の限界
第5回 国際データの比較可能性と標準化の例; 主要統計指標の選定と作り方;それらの指標の計測対象と読み方
第6回 第5回の続き
第7回 持続可能な発展の観点から重要な国際統計指標と国別比較
第8回 Q&A; 全体討論
シラバスを見ても統計のことをやるらしい、というだけで、結局よくわからないのですがw。

国連主要統計データベースとありますが、そういうものの存在すら知りませんでした。

指定のwebサイトにアクセスすると国連加盟国のGDPであるとか、農業の収穫量、技術開発、CO2の排出量、様々な統計が出てきます。講義はこれを使って、自分が所望とする統計量を出すという演習をしました。←Excelでできます。

少し、統計の勉強を始めたのですが、社会科学や心理学統計ばかりやっていて(放送大学にはそういう科目が多い)このような統計には無知でした。

要は、マクロ、ミクロの経済学の知識が不可欠ということがわかりました。

ふぅ~、これから更に経済学も勉強せねばいけないのか。
気が遠くなる思いでしたが、以前、伊藤元重さんの本を読んでいたのを思い出しました。

取りあえずこれを読んでみようと思います。

『はじめての経済学〈上〉』
著者:伊藤 元重 (日経文庫) 2004/4

413s3y3986l__sx288_bo1204203200_

がんばって統計学をマスターするぞ!

因みに講師の山田哲夫先生は、この業界では有名みたいです。

成城学園卒業生100人のメッセージより

高校卒業(1965年3月)後、東京と米国と英国の三つの大学で学んだあと、国際開発協力の分野で仕事をすることにしたのも、成城学園の上記教育精神に決定的に影響された選択でした。日本の政府間国際開発協力(ODA)活動に計三年間係わった後、1976年より定年退官した2007年末まで発展途上国の工業開発を側面技術援助する国連工業開発機関(UNIDO)の本部(ウイーン)に勤務しました。ここでは、国際産業統計、各途上国の産業政策に資する工業経済研究、途上国の産業統計インフラの開発協力、産業統計その他の統計の国際統計基準の改新などに関する仕事をしました。

これらの仕事のどれをとってみても、目指すところは我々が属する地球共同体内(特に発展途上地域)に存在する貧困とそれに起因する地球規模の数々の重大問題(飢餓、子供たちの基本的人権の不確立、テロ、国際組織犯罪、内戦、差別、伝染病、風土病等々)の撲滅・解決、言ってみれば国内、各国間に存在する不公平、不平等、不公正の是正とそれによる国際平和と繁栄です(これらは国連活動の究極の目的)。成城学園の教育精神が無意識に身についていたからかどうかはわかりませんが、国連で与えられた個々の仕事において自分なりの上記のような目的意識がいつもはっきりしていたのは事実です。したがって、僕はいつも楽しく仕事をすることができ、これは誇張無しで成城学園のおかげだと思っています。

数理情報学研究者の道は長く遠い(-_-;)。人気blogランキング・自然科学にぷちっとな。【押す】≪コメントは応接室にお願いします。≫

June 01, 2017

量子アニーリング特許

先にお知らせした量子アニーリングのレクチャー、行けませんでした。
(/_;)ぐすん。

背中がばきばきでマッサージをしてもらってる最中でした。

でも関連するレポートが出てるみたいですね。

ついに出た!量子コンピュータD-Waveを使った非負二値行列因子分解

非負二値行列...なんじゃらほい、ですが、記事を読めばなんとなく(飽くまでもなんとなく)わかります。

私たちリクルートコミュニケーションズは以前より早稲田大学と量子アニーリングに関する共同研究を進めていましたが、昨年よりD-Wave Systemsと共同研究を開始し、D-Waveを用いた機械学習アルゴリズムの開発やその広告配信への応用に取り組んでいます。また、今年の6月には量子アニーリングに関する世界トップクラスの国際学会Adiabatic Quantum Computing Conference2017が日本で行われ、私たちもD-Waveを用いた機械学習アルゴリズムやレコメンデーション手法について発表する予定です。

いろんな企業が連携してるみたいですね。

ためしに量子アニーリングで特許検索してみると、33件、Googleも Yahoo!も出願しています。

なんとYahoo!に至っては日本で特許を取っていますな。

特許5899272号
【発明の名称】算出装置、算出方法及び算出プログラム
【出願日】平成26年6月19日(2014.6.19)
【出願人】ヤフー株式会社
【発明者】磯 健一
【要約】
【課題】多段ニューラルネットワーク(DNN)を容易に取得する。
【解決手段】算出装置100は、追加部131と、受付部132と、算出部133と、を有する。追加部は、入力データに対する演算結果を出力する複数のノードを接続したネットワークであって所定のクラスに含まれる第1のサブクラスに属するデータの特徴を学習済みのネットワークに対して新規ノードを追加する。受付部は、所定のクラスに含まれる第2のサブクラスに属する学習用のデータを入力データとして受け付ける。算出部は、受付部によって受け付けられた学習用のデータをネットワークに入力した場合の出力結果に基づいて、第2のサブクラスに属する学習用のデータの特徴を学習するように、追加部によって追加された新規ノードと他のノードとの間の結合係数を算出する。
【特許請求の範囲】
【請求項1】
入力データに対する演算結果を出力する複数のノードを接続したネットワークであって所定のクラスに含まれる第1のサブクラスに属するデータの特徴を学習済みのネットワークに対して新規ノードを追加する追加部と、
前記所定のクラスに含まれる第2のサブクラスに属する学習用のデータを入力データとして受け付ける受付部と、
前記受付部によって受け付けられた学習用のデータを前記ネットワークに入力した場合の出力結果に基づいて、前記第2のサブクラスに属する学習用のデータの特徴を学習するように、前記追加部によって追加された新規ノードと他のノードとの間の結合係数を算出する算出部と
を備えたことを特徴とする算出装置。
【請求項2】
前記算出部は、
前記結合係数として、前記学習用のデータを前記ネットワークに入力した場合の出力結果と前記学習用のデータに対応する正しい出力結果との間の誤差を最小とする結合係数を算出する
ことを特徴とする請求項1に記載の算出装置。
【請求項3】
前記算出部は、
前記追加部によって追加された新規ノードと他のノードとの間の結合係数として、前記他のノード間の結合係数を不変にして前記誤差を最小とする結合係数を算出する
ことを特徴とする請求項2に記載の算出装置。
(以下略)
Yahoo_pat


おもしろいので、拒絶理由通知の理由も一個載せておきましょう。

理由1(進歩性)について

・請求項   1-3、8-9
・引用文献等 1-2
・備考

 引用文献1には、第1の入力データ(劣化前の入力パラメータ)に基づいて、出力データと学習データとの誤差が最小となるように、ニューラルネットワークの結合荷重を学習し、第2の入力データ(劣化後の入力パラメータ)を学習する際に、ニューロンを追加し、既存のニューロンに対する結合荷重を固定したまま、追加したニューロンに対する結合荷重を学習することが記載されている(特に段落[0038]、[0042]-[0052]を参照されたい。)。
 引用文献2には、異なるカテゴリの図形の学習を開始する毎に、既存のニューロンに対する結合重みを固定したまま、新たにニューロンを追加し、当該ニューロンに対する結合重みをバックプロパゲーション則に従って調整することにより、異なるカテゴリの図形の認識を行うためのニューラルネットワークの学習を行うことが記載されている(特に[要約]、段落[0019]-[0036]を参照されたい。)。
 引用文献1及び引用文献2に記載された発明は、いずれも学習過程でニューロンを追加することにより学習内容を増やすことを目的とする技術である点で一致しているから、引用文献1に記載された発明において、ニューラルネットワークの学習対象を入力データのカテゴリとすることにより、上記各請求項に係る発明を想到することは、当業者にとって容易である。

1.特開2012-014617号公報
2.特開平09-062644号公報
3.特開平05-246633号公報 (周知技術を示す文献)
4.特表平07-502357号公報

「量子アニーリング」という用語は1つしか見いだせませんが、量子コンピュータのアルゴリズムを明かしたのは確かでしょう。

特許もぼちぼち出ているので、公報を読んで勉強できますね。

修論で公報を読み始めた時は、量子アニーリングなんて用語知らなかったなあ。人気blogランキング・自然科学にぷちっとな。【押す】≪コメントは応接室にお願いします。≫

« May 2017 | Main | July 2017 »

サイト内検索
ココログ最強検索 by 暴想

更新情報

August 2017
Sun Mon Tue Wed Thu Fri Sat
    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31