無料ブログはココログ

June 24, 2017

「真の量子コンピュータ」実現への道

量子コンピュータが流行っているようで、喜ばしい限りです。

「真の量子コンピュータ」実現への道--IBMの開発状況を読み解く

 この5月17日に、IBMが17量子ビットの量子コンピュータを披露した。小さな数字に聞こえるかもしれない。しかし非常に重要な一歩を人類が歩んだことを示す数字である。  われわれが利用しているコンピュータは、プログラムにより指令を送ることで所望の動作をする。いわば自由自在にお願いを聞いてくれる大規模な装置である。  そのコンピュータの動作原理は、(物理学の観点では)電気が流れるか流れないか、という2つの状態をそれぞれ異なるものとして扱う。  この2つの状態の間のスイッチングを巧みに利用して複雑な動作を実現させている。  量子コンピュータでは、「電気が流れるか流れないか」という2つの状態を分離して扱うだけではなく、足し合わせて利用し、複雑に絡み合わせて利用することもできる。そのため、われわれが想像をしている動作の範疇(はんちゅう)を大きく超える。  この新しい計算能力を利用すると、これまでのコンピュータでは非常に時間がかかってしまうような難問の一部についても比較的高速に解くことが可能になる。  既存の問題を高速に解くという素朴な期待を超えて、量子コンピュータを人類が手にした時には、人間の思考のスタイルそのものすら変革を迎えることはあまり強調されない。  ゲート方式による量子コンピュータで期待されているのが、量子シミュレーションと呼ばれる技術の開拓だ。自然法則に従う複雑な現象を細部に渡り、シミュレーションを行うのだ。

東京大学・藤井啓祐氏にインタビューしているので、信頼できそうです。

それにしても17量子ビットって半端な気がするのですが、そうではないようです。
「憶測ですが、IBMが開発した17量子ビットのコンピュータの『17』という数字が示す意味は、計算に必要な数値を入力する部分を示す『9』と量子に特有の誤りの2種類を検査するために必要な4ビットが2つで、9+4+4=17ということだと思います」

他の記事にもしきりと「誤り訂正」ができると書いてあります。

量子コンピュータがかなり進んでいるのは確かなようですね。

現在の量子情報通信の特許を調べるとまた新しい見解が出てくるかもしれません。人気blogランキング・自然科学にぷちっとな。【押す】≪コメントは応接室にお願いします。≫

June 13, 2017

書談:豊田裕貴『現場で使える統計学』

統計学の本をもう一冊読了いたしました。
勉強中には複数の本を参照していますが、「読書」として読んだのは2冊目です。

『現場で使える統計学』
発行:2006/9/28
著者:豊田 裕貴
出版:阪急コミュニケーションズ
Amazon

71fg5ryvdll

阪急コミュニケーションズという出版社はどこかに吸収されて今はないようです。
(CCCメディアハウスというところでした)
豊田先生のお名前はテキストマイニングの本でお見かけしたので、信頼できる著者だと思いましたし、アマゾンのサイトで中を読むことができました。
これはなかなか使える本だと思いました。

第1章 統計学を使うススメ、使わないススメ
第2章 要約のために統計学を使う
第3章 基本指標を組み合わせて統計学を使う
第4章 断言できないときに統計学を使う
第5章 仮説立てに統計学を使う
第6章 仮説の検証に統計学を使う

ほとんど数式を使わず統計学を説明しています。
少しは使ってくれると、学習者にはむしろ助かるのですが。

分散と標準偏差の考え方がよくわかりました。
仮説統計に関しても丁寧に説明しています。
豊田先生の近著に『Excel分析ツール 完全詳解』と『Rによるデータ駆動マーケティング』という本がありますが、根本思想は本著に凝縮されています。
つまり、ビジネスで使う統計は本書で十分であり、それをExcelやRで計算できれば、ばっちし、ということです。

これを読了すれば、統計教科書の類もスムーズに読めるのではないかと思います。

お勧めの一書です。

大学で習う統計学は概ねわかる、という水準までもっていきたいです。人気blogランキング・自然科学にぷちっとな。【押す】≪コメントは応接室にお願いします。≫

June 07, 2017

書談:サイエンスパレット『統計学』

サイエンスパレットの一冊『統計学』を読みました。

『統計学』サイエンス・パレット SP-012
著者:David J. Hand
翻訳:上田修功     
発行元:丸善出版

Vsi_

これはオックスフォード大学出版から出している、
「A Very Short Introduction」シリーズのうちの一冊です。
このシリーズは日本でいう新書版の内容です。
なぜか、理系のものは丸善で、文系のものは岩波書店から翻訳を出しています。

英語の勉強のために原書も買いましたが、まだ読んでいません。

1 統計学に囲まれて 現代統計学/定義/嘘,大嘘,そして統計/データ/広義の統計学/いくつかの例/結論

2 統計学の基礎
はじめに/再び,データ/単純な要約統計量/平均/ばらつき/歪度/分位数

3 よいデータの収集
不完全データ/不正確なデータ/誤差伝搬/前処理/観測と実験データ/実験計画/サンプリング調査

4 確率
偶然の本質/確率とは/偶然の法則/確率変数とその分布

5 推定,推論
点推定/どの推定が最良か/区間推定/検定/決定理論/われわれは今どこ?

6 統計モデルと手法
統計モデル:これまでの議論の融合/統計手法:実用統計学/統計的図表/結論

7 統計計算
統計学はそのあり方を変える

それこそ、統計学の基礎知識を得るために読んだのですが、読後感はちょっと微妙です。
目次は通常の統計教科書と同じなのですが、1章から5章まで、「統計学って大事だよね」ということが書かれていて、6章と7章で統計手法がばばっばと羅列してある感じです。

もっと丁寧な説明が欲しかったかな。

「A Very Short Introduction」は他にも読んだのですが(翻訳でw)、ちょっとこれはこざっぱりしすぎてやしないかな。

まあ、統計英語の勉強のつもり読めばそれで役に立つかな。

まだまだ勉強せねば。

いつの日か、一流のデータサイエンティストになるのだ!人気blogランキング・自然科学にぷちっとな。【押す】≪コメントは応接室にお願いします。≫

June 01, 2017

量子アニーリング特許

先にお知らせした量子アニーリングのレクチャー、行けませんでした。
(/_;)ぐすん。

背中がばきばきでマッサージをしてもらってる最中でした。

でも関連するレポートが出てるみたいですね。

ついに出た!量子コンピュータD-Waveを使った非負二値行列因子分解

非負二値行列...なんじゃらほい、ですが、記事を読めばなんとなく(飽くまでもなんとなく)わかります。

私たちリクルートコミュニケーションズは以前より早稲田大学と量子アニーリングに関する共同研究を進めていましたが、昨年よりD-Wave Systemsと共同研究を開始し、D-Waveを用いた機械学習アルゴリズムの開発やその広告配信への応用に取り組んでいます。また、今年の6月には量子アニーリングに関する世界トップクラスの国際学会Adiabatic Quantum Computing Conference2017が日本で行われ、私たちもD-Waveを用いた機械学習アルゴリズムやレコメンデーション手法について発表する予定です。

いろんな企業が連携してるみたいですね。

ためしに量子アニーリングで特許検索してみると、33件、Googleも Yahoo!も出願しています。

なんとYahoo!に至っては日本で特許を取っていますな。

特許5899272号
【発明の名称】算出装置、算出方法及び算出プログラム
【出願日】平成26年6月19日(2014.6.19)
【出願人】ヤフー株式会社
【発明者】磯 健一
【要約】
【課題】多段ニューラルネットワーク(DNN)を容易に取得する。
【解決手段】算出装置100は、追加部131と、受付部132と、算出部133と、を有する。追加部は、入力データに対する演算結果を出力する複数のノードを接続したネットワークであって所定のクラスに含まれる第1のサブクラスに属するデータの特徴を学習済みのネットワークに対して新規ノードを追加する。受付部は、所定のクラスに含まれる第2のサブクラスに属する学習用のデータを入力データとして受け付ける。算出部は、受付部によって受け付けられた学習用のデータをネットワークに入力した場合の出力結果に基づいて、第2のサブクラスに属する学習用のデータの特徴を学習するように、追加部によって追加された新規ノードと他のノードとの間の結合係数を算出する。
【特許請求の範囲】
【請求項1】
入力データに対する演算結果を出力する複数のノードを接続したネットワークであって所定のクラスに含まれる第1のサブクラスに属するデータの特徴を学習済みのネットワークに対して新規ノードを追加する追加部と、
前記所定のクラスに含まれる第2のサブクラスに属する学習用のデータを入力データとして受け付ける受付部と、
前記受付部によって受け付けられた学習用のデータを前記ネットワークに入力した場合の出力結果に基づいて、前記第2のサブクラスに属する学習用のデータの特徴を学習するように、前記追加部によって追加された新規ノードと他のノードとの間の結合係数を算出する算出部と
を備えたことを特徴とする算出装置。
【請求項2】
前記算出部は、
前記結合係数として、前記学習用のデータを前記ネットワークに入力した場合の出力結果と前記学習用のデータに対応する正しい出力結果との間の誤差を最小とする結合係数を算出する
ことを特徴とする請求項1に記載の算出装置。
【請求項3】
前記算出部は、
前記追加部によって追加された新規ノードと他のノードとの間の結合係数として、前記他のノード間の結合係数を不変にして前記誤差を最小とする結合係数を算出する
ことを特徴とする請求項2に記載の算出装置。
(以下略)
Yahoo_pat


おもしろいので、拒絶理由通知の理由も一個載せておきましょう。

理由1(進歩性)について

・請求項   1-3、8-9
・引用文献等 1-2
・備考

 引用文献1には、第1の入力データ(劣化前の入力パラメータ)に基づいて、出力データと学習データとの誤差が最小となるように、ニューラルネットワークの結合荷重を学習し、第2の入力データ(劣化後の入力パラメータ)を学習する際に、ニューロンを追加し、既存のニューロンに対する結合荷重を固定したまま、追加したニューロンに対する結合荷重を学習することが記載されている(特に段落[0038]、[0042]-[0052]を参照されたい。)。
 引用文献2には、異なるカテゴリの図形の学習を開始する毎に、既存のニューロンに対する結合重みを固定したまま、新たにニューロンを追加し、当該ニューロンに対する結合重みをバックプロパゲーション則に従って調整することにより、異なるカテゴリの図形の認識を行うためのニューラルネットワークの学習を行うことが記載されている(特に[要約]、段落[0019]-[0036]を参照されたい。)。
 引用文献1及び引用文献2に記載された発明は、いずれも学習過程でニューロンを追加することにより学習内容を増やすことを目的とする技術である点で一致しているから、引用文献1に記載された発明において、ニューラルネットワークの学習対象を入力データのカテゴリとすることにより、上記各請求項に係る発明を想到することは、当業者にとって容易である。

1.特開2012-014617号公報
2.特開平09-062644号公報
3.特開平05-246633号公報 (周知技術を示す文献)
4.特表平07-502357号公報

「量子アニーリング」という用語は1つしか見いだせませんが、量子コンピュータのアルゴリズムを明かしたのは確かでしょう。

特許もぼちぼち出ているので、公報を読んで勉強できますね。

修論で公報を読み始めた時は、量子アニーリングなんて用語知らなかったなあ。人気blogランキング・自然科学にぷちっとな。【押す】≪コメントは応接室にお願いします。≫

May 18, 2017

量子アニーリング

量子アニーリングに興味を持っているアマサイです。

早稲田のレクチャーに一回行ってみようと思います。

NP完全問題の量子アニーリングにおける相転移現象
高橋惇さん(東京大学大学院総合文化研究科広域科学専攻)

Quantum Computation and Machine Learning Seminar Series vol. 4

2017年6月1日 16時30分~

NP完全問題の量子アニーリングにおける相転移現象
Jun Takahashi (University of Tokyo)
東京大学大学院総合文化研究科広域科学専攻 高橋惇 氏

場所: 早稲田大学早稲田キャンパス7号館212号室

概要:
最適化問題を解くアルゴリズムは情報科学の分野における主要な研究対象だが、物理的なアプローチやプロトコルを用いて最適化問題の解を求める手法が境界領域として近年活発になっている。
特に、Kadowaki-Nishimori (1998) や Farhi et al. (2000) に端を発する量子アニーリングは、(2017年5月現在)大規模な実装化に成功している唯一の量子計算機であり、さらに物理的な量であるエネルギーギャップとアルゴリズムの計算時間を結びつけるものとして基礎的にも興味深く、盛んに研究されている。
一方で、量子アニーリングや量子計算機一般を用いても全ての問題が効率良く解けるわけではなく、特に「NP完全問題」と呼ばれる問題群は効率良く解くことが不可能であると計算理論の分野で信じられている。
そこで、NP完全問題のような「解けるはずのない問題」に量子アニーリングを適用した際に、計算を阻害する物理現象の解明を試みた。
その結果、従来考えられていたスピングラス転移と異なる転移が存在し、その未知の相内で一次転移が誘発され、量子アニーリングの障害になっていることが数値的に示唆された[1]。

本講演では、量子アニーリングの原理や、NP完全問題がなぜ一般に「解けるはずがない」のかを概観し、後半では研究結果を紹介しつつ量子アニーリングの物理的障害について議論します。

[1] Jun Takahashi and Koji Hukushima arXiv: 1612.08554

主催:科学研究費助成事業基盤研究(B)「量子アニーリングが拓く機械学習と計算技術の新時代」
共催:早稲田大学高等研究所

アマサイが量子アニーリングを知ったのは修論作成のため、量子情報通信の論文を読んでいたときです。

量子通信がトレンドだと狙ってテーマを掲げたのですが、機械学習と関連があるとは思いもよりませんでした。

二重の意味でよいテーマを選んだと思います。
量子アニーリングは以下のサイトが詳しいです。

量子アニーリング by 西森 秀稔
http://www.stat.phys.titech.ac.jp/~nishimori/QA/q-annealing.html

量子アニーリング法とD-Waveマシン - 東京工業大学
http://www.stat.phys.titech.ac.jp/~nishimori/papers/QA-DWave_CE.pdf

今度は量子アニーリングと機会学習との関連で論文を書いてみたいです。

私も早稲田で講演するかも、なんちゃって(^_^;)。人気blogランキング・自然科学にぷちっとな。【押す】≪コメントは応接室にお願いします。≫

May 17, 2017

謎ワード「テロメア」

久々にクローズアップ現代を真面目に見ました。


生命の不思議“テロメア” 健康寿命はのばせる!

老化を防ぎ、若さを保ちたい。そんな願いをかなえると注目されている研究がある。ノーベル賞生物学者・ブラックバーン博士らによる「テロメア」研究だ。染色体の端にあり細胞分裂のたびに短くなるため、年とともに縮むと考えられていたテロメア。ところがテロメアを伸ばして細胞から若返る方法があり、がんを防げる可能性もあるというのだ。それは日常で実践できる生活習慣。最新の研究から健康寿命を延ばす秘策と命の神秘に迫る。

出演者
石川冬木さん (京都大学大学院教授)
石川善樹さん (予防医学研究者・医学博士)
武田真一・田中泉 (キャスター)

途中で頭痛がイタクなりました。

こんなことが真面目に研究されているのか。

老化するとテロメアが減るであって、テロメアを増やしても老化は止まらないと違うんかい!

瞑想、運動、バランスのいい食事は老化が緩やかになるんであって、テロメアは関係ないんと違うんかい!

こんなことがNHKで放映されていいのか!

医学研究はトンデモさんもあるからなあ(-_-;)


ブラックボーン博士の略歴はウィキペディアより

オーストラリアのタスマニア・ホバート生まれで、現在はアメリカの市民権を得ている。オーストラリアのメルボルン大学を1970年に卒業し、修士と博士課程はイギリスのケンブリッジ大学に進学、同大学で1975年に博士号を得た。

博士研究員としてイェール大学で2年間、ジョー・ガルの研究室で分子生物学・細胞生物学の研究を行った。具体的にはテトラヒメナにおけるミニ染色体の研究を行った。当時はテロメア構造の存在は示唆されており、この構造が染色体の維持に必要であることがわかっていたものの、その DNA 配列が不明であったため、これを明らかにすることを試みる研究だった。1978年にテトラヒメナ非翻訳性RNAの中に連続した反復配列があり、DNA複製と関係することを報告した。この結果を手がかりに、出芽酵母など他の生物でもテロメア配列が明らかにされていく。

1978年にカリフォルニア大学バークレー校の分子生物学科の准教授となる。1984年にブラックバーンの研究室に博士課程の学生として参加したキャロル・W・グライダーが放射性同位体を用いて、細胞核の抽出液からテロメア合成酵素の活性を測る方法を考案し、生化学的手法からテロメラーゼを単離した。この結果は1985年に発表され、「末端複製問題」を解決する研究として受け入れられた。

1990年にカリフォルニア大学サンフランシスコ校の微生物学・免疫学部門へ移り、1993年から1999年まで学部長を務めた。現在は生化学・生物物理学部門の教授である。またソーク研究所の非常勤研究員でもある。2004年現在もテロメアに関連する研究を続けている。1992年王立協会フェロー選出。

略歴は間違いないがな。

因みに日経サイエンスにも記事になっとるようじゃ。

ブラックバーンが語るテロメアと健康状態

 人間を含め多くの生物の染色体には,その末端部に「テロメア」と呼ばれる特徴的な構造が見られる。テロメアは個々の細胞が持っている“時計”で,細胞が年を取るにつれてテロメアが短縮する。このテロメア研究のパイオニア的業績で2009年のノーベル生理学・医学賞を受賞したエリザベス・ブラックバーン博士は心臓病やがんなど加齢に伴う健康リスクの評価にテロメアを役立てようとしている。
因果関係は逆にしたら成立するとはかぎらんじゃろう。

まあ、今後の注目ワードとして「テロメア」は覚えておこう。

サイエンスねたにだんだんもどってきました。人気blogランキング・自然科学にぷちっとな。【押す】≪コメントは応接室にお願いします。≫

May 14, 2017

猿橋賞2017

2017年猿橋賞が発表されていました。
千葉大の石原安野さんおめでとうございます。

・女性科学者に明るい未来をの会

・千葉大学ハドロン宇宙国際研究センターHP

・共同通信の報道

第37回 猿橋賞受賞者 石原 安野 氏の研究業績要旨
「アイスキューブ実験による超高エネルギー宇宙線起源の研究」

 石原安野氏は、国際共同ニュートリノ観測装置アイスキューブ(IceCube)を用いて、世界で初めて超高エネルギー宇宙ニュートリノ事象を検出するなど、ニュートリノ天文学において顕著な業績を上げた。  石原氏のアイスキューブによるニュートリノの初検出によって、ニュートリノ天文学のフロンティアは、より高いエネルギー領域、カミオカンデ実験の検出したニュートリノのエネルギーの一億倍以上にまで広がった。このような高エネルギーニュートリノは、宇宙から地球に降り注ぐ超高エネルギー宇宙線の起源に迫ることを可能とする。また、アイスキューブは初検出からの数年間で高エネルギー宇宙ニュートリノのおおよその存在量の測定に成功した。アイスキューブ実験は世界12カ国の約300人の研究者から構成される。石原氏はその柱の一人であり、最初の信号を発見しただけではなく、アイスキューブ実験チーム内で、2010年から超高エネルギーニュートリノ物理ワーキンググループのリーダーを、2012年からは拡散宇宙ニュートリノ物理ワーキンググループのリーダーを務め、宇宙ニュートリノ存在量測定における一連の進展を主導してきた。  石原氏は、その後も、より高いエネルギーを持つ宇宙ニュートリノ探索を精力的に推進し、2016年には、超高エネルギー宇宙線起源として長年有力視されてきた仮説、すなわち、ガンマー線バースト、あるいは活動的銀河核といった遠方宇宙の放射輝度の高い天体が起源である、という説を覆す結果を得るなど、高エネルギー宇宙像にニュートリノの特性を活かした新たな知見を加えている。

おお!ニュートリノならアマサイもほんの少しわかるぞよ!
また物理学で女性が大きな一歩を記した。物理帝國主義者としてはばんばんざいであーる。

アイスキューブのことはよく知らん、これから勉強します。

女性科学者には明るい未来しかないですな。

私もいつの日か、猿橋賞を!(^_^;)。人気blogランキング・自然科学にぷちっとな。【押す】≪コメントは応接室にお願いします。≫

February 26, 2017

書談:小林雄一郎『Rによるやさしいテキストマイニング』

待望の小林先生の「やさテキ」購入しました。

『Rによるやさしいテキストマイニング』
著者:小林 雄一郎
発行:2017/2/17
出版:オーム社
amazon
51xslsqffl__sx350_bo1204203200_


今まで、テキストマイニングを学ぶときは、
・テキストマイニングのツールの使い方
・統計学・データマイニングの知識
を別個に学ぶ必要がありましたが、本書とパソコンがあればだれでもテキストマイニングを始められるようになっています。
-------------
はじめに

Part I 基礎編
第1章 テキストマイニング入門
1.1 テキストマイニングとは
1.2 社会で活用されるテキストマイニング
1.3 テキストマイニングの歴史

第2章 テキストマイニングの理論的枠組み
2.1 テキストデータの構築
2.2 テキストデータの分析

Part II 準備編
第3章 分析データの準備
3.1 データセットの構築
3.2 テキストファイルの作成.
3.3  CSVファイル
3.4 テキスト整形.

第4章 データ分析の基本
4.1 R のインストールと基本操作
4.2 ベクトルと行列
4.3 データの要約..
4.4 文字列処理.
4.5 ファイルの読み込み

第5章 データの視覚化
5.1 ヒストグラム
5.2 箱ひげ図
5.3 モザイクプロット
5.4 散布図

Part III 実践編
第6章 基本的なテキスト分析
6.1 形態素解析
6.2 単語の頻度分析
6.3 n-gramの頻度分析
6.4 共起語の頻度分析

第7章 発展的なテキスト分析
7.1 複数データの頻度解析.
7.2 頻度の標準化と重み付け

第8章 基本的な統計処理
8.1 検定と効果量.
8.2 相関と回帰

第9章 発展的な統計処理
9.1 テキストのグループ化
9.2 テキストの分類.

第10章 英語テキストの分析
10.1 用例検索.
10.2 単語とn-gramの頻度分析
10.3 共起語の頻度分析
10.4 語彙多様性とリーダビリティの分析
-------------
コマンドも丁寧に書いてあります。

Photo

文系の人にはちょっと辛いかもしれませんが、慣れですね。
多くの人がテキストマイニングに挑戦し、新たな知見を得られるとビッグデータ時代も楽しいですね。

みんなでテキストマイニングをしよう。//人気ブログランキングに投票してください。【押す】ご意見ご要望は新掲示板にお書き込みください。家主が確認の上、公開いたします。

February 12, 2017

第10回テキストマイニングシンポジウム

第10回テキストマイニングシンポジウムの2日目に行ってきました。
初大阪上陸です。

2日目:2月10日(金)

◆09:00~10:30 文書の品質と可読性  [座長: 小早川 健(NICT)]

(13)[IFAT] 09:00 - 09:25 確率的言語モデルに基づく効率的閲読のモデル化
二階堂 学(東京工業大学)・藤井 敦(東京工業大学)

(14)[NLC] 09:25 - 09:50 業績推定とのマルチタスク学習による決算短信からの重要文抽出
磯沼 大・○藤野 暢・浮田純平・村上 遥・浅谷公威・森 純一郎・坂田 一郎(東大)

(15)[IFAT] 09:50 - 10:15 Plagiarism Detection Based on Citation Contexts
Soleman Sidik (Tokyo Institute of Technology)・Fujii Atsushi (Tokyo Institute of Technology)

(16) 10:15 - 10:30ディスカッションタイム

◆10:40~11:40 招待講演(2)  [司会: 藤井 敦(東京工業大学)]
100歳を迎えたリーダビリティー研究:その誕生から最新動向まで野本 忠司 (国文学研究資料館 准教授)

◆13:20~13:45 国際会議報告
(18)[IFAT] 13:20 - 13:45 SIGIR2016参加報告
野本 昌子(ヤフー株式会社)・マク ヒンチュン(ヤフー株式会社)

◆13:55~15:55 一般ユーザからの知識獲得  [座長: 嶋田 和孝(九工大)]

(19)[NLC] 13:55 - 14:20 震災被災者のソーシャルメディア分析を通じたメンタルケアの可能性
○青木竜哉(東工大)・那須川哲哉・吉川克正(日本IBM)・高村大也・奥村学(東工大)

(20)[NLC] 14:20 - 14:45 感情分析を用いた口コミサイトのレビュー分類システムの開発
○安藤 瞭・原 紳・渡邊信一(宇都宮大)

(21)[NLC] 14:45 - 15:10 音楽プレーヤアプリの利用者がコンテンツの再生中に投稿するツイートの調査
○安田研二・渡辺靖彦(龍谷大)

(22)[NLC] 15:10 - 15:35 Dating Serviceのデータを用いたWord2Vecによる趣味・嗜好の類似度算出
○明畠利樹・中西健太郎・岩本拓也(ミクシィ)

(23) 15:35-15:50ディスカッションタイム

このシンポは夏は東京渋谷、冬は大阪、それぞれで行われています。
夏は去年も一昨年も行ってきました。
第7回テキストマイニングシンポジウム

昨夏のは参加したもののレポートする時間が取れず、昨冬の大阪は体力的に行ける感じではなかったですね。終了後事務局に問い合わせたところ、予稿集は売り切れで紙媒体はないとのこと。これは冬も行かないと情報が入手できない、とばかりに高速バスを予約して申し込んだのでありました。

期待通りバラエティに富んだ楽しい発表会でした。
特に午後の「一般ユーザからの知識獲得」はアマサイの研究にも関係があり、興味津々でした。という割に眠気が襲い、最初の2つは夢うつつだったのですがw

(21)「音楽プレーヤアプリの利用者がコンテンツの再生中に投稿するツイートの調査」というのは、Twitterの#Nowplayingというタグを拾って、人はどういうときどういう曲を聴いているかということを機械学習して分類するというものです。この結果は業界の人が知れば、協調フィルタリングを使ってこの人はどのような音楽を聴いていてどのような曲を推薦すれば買ってくれるかという市場調査に役立つと評判がよかったです。

アマサイが興味を持ったのは、(22)「Dating Serviceのデータを用いたWord2Vecによる趣味・嗜好の類似度算出」というものです。
ネット婚活で相手を探すのはめんどくさいw、だから自分のプロフィルから適合する相手を自動的に選んでくれるシステムを構築したというものです。なんだかふざけている研究のようですが、Word2Vecを使って嗜好行列ベクトルを作り機械学習にかけるという至極真っ当なシステムでした。

この日の発表を聴いて、アマサイはどうも難しいことばかりに目が行ってしまい、テキストマイニングの可能性を狭めていると感じました。

もっと機械学習を勉強して、ツールを自由自在に使えるようになり、論文をばしばし書きたいと思います。


テキストマイニングは楽しいよ。//人気ブログランキングに投票してください。【押す】

February 05, 2017

機械学習のススメ

修論がらみで機械学習のライトトーキングを頼まれました。
何か書籍を買わなければ、と思ったら、先月買ったばかりの本が見つかりました。

『事例+演習で学ぶ機械学習-ビジネスを支えるデータ活用のしくみ-』
著者:速水悟
出版:森北出版
発行:2016年4月28日

第1章 ネット時代のデータ活用
第2章 データマイニングと機械学習
第3章 識別:線形識別とその発展形
第4章 予測:線形回帰とニューラルネットワーク
第5章 決定木
第6章 テキストマイニングと評判分析
第7章 推薦システム
第8章 ソーシャルネットワークの分析
第9章 検索連動広告
付録 R言語による演習

Kikaigakushu

機械学習はRとかWakeなどフリーソフトがあるので、結構簡単に試せます。
問題は何のデータを機械学習にかけるか、です。

ビジネスで何らかのデータを持っている人はそれをこのようなテキストに沿ってマイニングすればよいと思います。

特にそのようなデータを持ち合わせていない人はテキストマイニングに挑戦することをお勧めします。

ブログやTwitter、Amazonの商品評価など、フリーのテキストがたくさん落ちています。
そのテキストの傾向性などを解析することができます。

KHcorderなどフリーのテキストマイニングソフトもあります。
フリーの場合、辞書を整備する必要があります。

人工知能ブームのおかげで関連情報もたくさん出ています。

機械学習をやっていると「人工知能の研究しています」と言ってもウソではないので。
(^_^;)

みんなで機械学習やろう。//人気ブログランキングに投票してください。【押す】

より以前の記事一覧

サイト内検索
ココログ最強検索 by 暴想

更新情報

June 2017
Sun Mon Tue Wed Thu Fri Sat
        1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30