無料ブログはココログ

February 26, 2017

書談:小林雄一郎『Rによるやさしいテキストマイニング』

待望の小林先生の「やさテキ」購入しました。

『Rによるやさしいテキストマイニング』
著者:小林 雄一郎
発行:2017/2/17
出版:オーム社
amazon
51xslsqffl__sx350_bo1204203200_


今まで、テキストマイニングを学ぶときは、
・テキストマイニングのツールの使い方
・統計学・データマイニングの知識
を別個に学ぶ必要がありましたが、本書とパソコンがあればだれでもテキストマイニングを始められるようになっています。
-------------
はじめに

Part I 基礎編
第1章 テキストマイニング入門
1.1 テキストマイニングとは
1.2 社会で活用されるテキストマイニング
1.3 テキストマイニングの歴史

第2章 テキストマイニングの理論的枠組み
2.1 テキストデータの構築
2.2 テキストデータの分析

Part II 準備編
第3章 分析データの準備
3.1 データセットの構築
3.2 テキストファイルの作成.
3.3  CSVファイル
3.4 テキスト整形.

第4章 データ分析の基本
4.1 R のインストールと基本操作
4.2 ベクトルと行列
4.3 データの要約..
4.4 文字列処理.
4.5 ファイルの読み込み

第5章 データの視覚化
5.1 ヒストグラム
5.2 箱ひげ図
5.3 モザイクプロット
5.4 散布図

Part III 実践編
第6章 基本的なテキスト分析
6.1 形態素解析
6.2 単語の頻度分析
6.3 n-gramの頻度分析
6.4 共起語の頻度分析

第7章 発展的なテキスト分析
7.1 複数データの頻度解析.
7.2 頻度の標準化と重み付け

第8章 基本的な統計処理
8.1 検定と効果量.
8.2 相関と回帰

第9章 発展的な統計処理
9.1 テキストのグループ化
9.2 テキストの分類.

第10章 英語テキストの分析
10.1 用例検索.
10.2 単語とn-gramの頻度分析
10.3 共起語の頻度分析
10.4 語彙多様性とリーダビリティの分析
-------------
コマンドも丁寧に書いてあります。

Photo

文系の人にはちょっと辛いかもしれませんが、慣れですね。
多くの人がテキストマイニングに挑戦し、新たな知見を得られるとビッグデータ時代も楽しいですね。

みんなでテキストマイニングをしよう。//人気ブログランキングに投票してください。【押す】ご意見ご要望は新掲示板にお書き込みください。家主が確認の上、公開いたします。

February 12, 2017

第10回テキストマイニングシンポジウム

第10回テキストマイニングシンポジウムの2日目に行ってきました。
初大阪上陸です。

2日目:2月10日(金)

◆09:00~10:30 文書の品質と可読性  [座長: 小早川 健(NICT)]

(13)[IFAT] 09:00 - 09:25 確率的言語モデルに基づく効率的閲読のモデル化
二階堂 学(東京工業大学)・藤井 敦(東京工業大学)

(14)[NLC] 09:25 - 09:50 業績推定とのマルチタスク学習による決算短信からの重要文抽出
磯沼 大・○藤野 暢・浮田純平・村上 遥・浅谷公威・森 純一郎・坂田 一郎(東大)

(15)[IFAT] 09:50 - 10:15 Plagiarism Detection Based on Citation Contexts
Soleman Sidik (Tokyo Institute of Technology)・Fujii Atsushi (Tokyo Institute of Technology)

(16) 10:15 - 10:30ディスカッションタイム

◆10:40~11:40 招待講演(2)  [司会: 藤井 敦(東京工業大学)]
100歳を迎えたリーダビリティー研究:その誕生から最新動向まで野本 忠司 (国文学研究資料館 准教授)

◆13:20~13:45 国際会議報告
(18)[IFAT] 13:20 - 13:45 SIGIR2016参加報告
野本 昌子(ヤフー株式会社)・マク ヒンチュン(ヤフー株式会社)

◆13:55~15:55 一般ユーザからの知識獲得  [座長: 嶋田 和孝(九工大)]

(19)[NLC] 13:55 - 14:20 震災被災者のソーシャルメディア分析を通じたメンタルケアの可能性
○青木竜哉(東工大)・那須川哲哉・吉川克正(日本IBM)・高村大也・奥村学(東工大)

(20)[NLC] 14:20 - 14:45 感情分析を用いた口コミサイトのレビュー分類システムの開発
○安藤 瞭・原 紳・渡邊信一(宇都宮大)

(21)[NLC] 14:45 - 15:10 音楽プレーヤアプリの利用者がコンテンツの再生中に投稿するツイートの調査
○安田研二・渡辺靖彦(龍谷大)

(22)[NLC] 15:10 - 15:35 Dating Serviceのデータを用いたWord2Vecによる趣味・嗜好の類似度算出
○明畠利樹・中西健太郎・岩本拓也(ミクシィ)

(23) 15:35-15:50ディスカッションタイム

このシンポは夏は東京渋谷、冬は大阪、それぞれで行われています。
夏は去年も一昨年も行ってきました。
第7回テキストマイニングシンポジウム

昨夏のは参加したもののレポートする時間が取れず、昨冬の大阪は体力的に行ける感じではなかったですね。終了後事務局に問い合わせたところ、予稿集は売り切れで紙媒体はないとのこと。これは冬も行かないと情報が入手できない、とばかりに高速バスを予約して申し込んだのでありました。

期待通りバラエティに富んだ楽しい発表会でした。
特に午後の「一般ユーザからの知識獲得」はアマサイの研究にも関係があり、興味津々でした。という割に眠気が襲い、最初の2つは夢うつつだったのですがw

(21)「音楽プレーヤアプリの利用者がコンテンツの再生中に投稿するツイートの調査」というのは、Twitterの#Nowplayingというタグを拾って、人はどういうときどういう曲を聴いているかということを機械学習して分類するというものです。この結果は業界の人が知れば、協調フィルタリングを使ってこの人はどのような音楽を聴いていてどのような曲を推薦すれば買ってくれるかという市場調査に役立つと評判がよかったです。

アマサイが興味を持ったのは、(22)「Dating Serviceのデータを用いたWord2Vecによる趣味・嗜好の類似度算出」というものです。
ネット婚活で相手を探すのはめんどくさいw、だから自分のプロフィルから適合する相手を自動的に選んでくれるシステムを構築したというものです。なんだかふざけている研究のようですが、Word2Vecを使って嗜好行列ベクトルを作り機械学習にかけるという至極真っ当なシステムでした。

この日の発表を聴いて、アマサイはどうも難しいことばかりに目が行ってしまい、テキストマイニングの可能性を狭めていると感じました。

もっと機械学習を勉強して、ツールを自由自在に使えるようになり、論文をばしばし書きたいと思います。


テキストマイニングは楽しいよ。//人気ブログランキングに投票してください。【押す】

February 05, 2017

機械学習のススメ

修論がらみで機械学習のライトトーキングを頼まれました。
何か書籍を買わなければ、と思ったら、先月買ったばかりの本が見つかりました。

『事例+演習で学ぶ機械学習-ビジネスを支えるデータ活用のしくみ-』
著者:速水悟
出版:森北出版
発行:2016年4月28日

第1章 ネット時代のデータ活用
第2章 データマイニングと機械学習
第3章 識別:線形識別とその発展形
第4章 予測:線形回帰とニューラルネットワーク
第5章 決定木
第6章 テキストマイニングと評判分析
第7章 推薦システム
第8章 ソーシャルネットワークの分析
第9章 検索連動広告
付録 R言語による演習

Kikaigakushu

機械学習はRとかWakeなどフリーソフトがあるので、結構簡単に試せます。
問題は何のデータを機械学習にかけるか、です。

ビジネスで何らかのデータを持っている人はそれをこのようなテキストに沿ってマイニングすればよいと思います。

特にそのようなデータを持ち合わせていない人はテキストマイニングに挑戦することをお勧めします。

ブログやTwitter、Amazonの商品評価など、フリーのテキストがたくさん落ちています。
そのテキストの傾向性などを解析することができます。

KHcorderなどフリーのテキストマイニングソフトもあります。
フリーの場合、辞書を整備する必要があります。

人工知能ブームのおかげで関連情報もたくさん出ています。

機械学習をやっていると「人工知能の研究しています」と言ってもウソではないので。
(^_^;)

みんなで機械学習やろう。//人気ブログランキングに投票してください。【押す】

January 30, 2017

機械学習ライブラリ「TensorFlow」とはなんぞや

おもしろそうだと思ってアクセスしてみたけどたいしたことなかった。

Googleの開発者が作った3時間でディープラーニング(深層学習)をスライドとムービーで学べる集中レッスン

ニューラルネットワークを用いた機械学習の「ディープラーニング(深層学習)」は人工知能(AI)開発に欠かせない技術であり、AI以外にもGoogleフォトの画像の自動タグ付け機能やAmazonのレコメンド機能など、すでに実用化されている技術に活用されています。そんなディープラーニングを開発者が学習するためのとっておきの方法をGoogleのクラウド開発者がブログで紹介しています。

Learn TensorFlow and deep learning, without a Ph.D. | Google Cloud Big Data and Machine Learning Blog | Google Cloud Platform

Googleでクラウドプラットフォームの開発を行うマーチン・ゴーナー氏は、「技術者がディープラーニングを学ぶには、ネット上にあふれている情報が難しすぎて学習できないはずだ」と感じたとのこと。ディープラーニングを解説する開発者向けの情報では、解説を理解する前提として「交差エントロピー」「勾配消失」などの難解な概念が当然のように用いられているため、門外漢の開発者にはとうてい理解できない内容だというわけです。

あまりにも難解な内容があふれている状況に「ゴーナー君。積分は幼稚園で学習しただろう?」という大学教授の叱責を思い出してしまったゴーナー氏は、博士号を取得することなく開発者がディープラーニングのテクニックを学べる方法を開発することにしました。ゴーナー氏が開発したのは、Googleの機械学習ライブラリ「TensorFlow」とディープラーニングの仕組みを合計3時間で学ぶという集中レッスン。この集中レッスンでは、「畳み込みニューラルネットワーク」「再帰型ニューラルネットワーク」などの基礎的なネットワーク構造に焦点を絞っているそうです。

ディープラニングだけ追っていてもだめですよ、強化学習を取り込まないとね。

ところで、CQ出版社の「Interface」でGoogleの機械学習ライブラリ「TensorFlow」を扱ってる!って驚いていた人がいたんだけど、ソフトウエアの人ってCQ出版社の本とか読まないのかね、まあ、ハードウエア系の本なんですけどね。

機械学習まわりはずっと特集組んでるだけどな。

この記事で気づいたので、私も買っておこう。
Mif201703l

Interface2017年3月号

第1章

ビギナから使える世界トップのAIライブラリON!

ラズパイからOK!Google人工知能で広がる世界

Appendix 1
Googleの人工知能ライブラリTensorFlowを勧める理由

Appendix 2
Google人工知能ライブラリTensorFlowの正体

第2章
試せるぼくらの小規模スマート農業!?
ラズパイ×Google人工知能...キュウリ自動選別コンピュータ

第3章
Googleを使った学習&判定プログラムをラズパイにONする手順
人工知能キュウリ・コンピュータを動かしてみる

第4章
ターゲット「キュウリ」選別に適したデータ&アルゴリズムの検討
ステップ1...設計方針を決める

第5章
話題の人工知能アルゴリズム「ディープ・ラーニング」初体験
ステップ2...キュウリ・データの学習

第6章
最初はPCで試すと便利
ステップ3...人工知能キュウリ判定

第7章
ほこりや土が舞う環境でも組み込んでしまえば安心
ステップ4...キュウリ用人工知能をラズパイで動かす


強化学習が大事というのは指導教授の受け売りです。//人気ブログランキングに投票してください。【押す】。ご意見ご要望は新掲示板が不調ですただ今調査中。

January 29, 2017

統計学は最高のガクモンかもしれない

アマサイは統計学に夢中であります。
修論でテキストマイニングと手法を使ったのですが、
そこでは統計学が必修科目です。
まあ、統計計算はソフトがやってくれるわけですが。

研究中行き詰ったとき読んだ本がこれでした。

●「統計学が最強の学問である[実践編]ーデータ分析のための思想と方法」
著者:西内 啓
発行:2014/10/24
出版:ダイヤモンド社
https://www.amazon.co.jp/dp/4478028230/
Nishiuti_toukei2


テキストマイニングの親戚、データ分析について、ほとんど数式を使わず説明しています。
この本で行き詰まりを解決したわけではないですが、
知識を得たことで気持ちが楽になりました。

統計学が最強の学問である、かどうかはわかりませんが、西内先生の著作は大きな知恵を与えてくれます。

【目次へ】

序章 ビジネスと統計学を繋ぐために

01 ビジネスと統計学のギャップなはぜ存在するのか

02 「把握」と「予測」、そして「洞察」の統計学

第1章 統計学の実践は基本の見直しから始まる

    ──「平均」と「割合」の本質

03 「洞察」の統計学に必要な3つの知識

04 じつは深い「平均値」

05 なぜ、平均値は真実を捉えることができるのか?

06 標準偏差が示す「たいていのデータの範囲」

第2章 統計学が「最強」であるもう1つの理由

    ──標準誤差と仮説検定

07 あわて者とぼんやり者の間にある「最強」という考え方

08 「誤差の範囲」とデータの数の関係

09 不毛な議論に終止符を打つ仮説検定の考え方

10 z検定であわて者を諌めろ

11 少ないデータのためのt検定とフィッシャーの正確検定

12 検定の多重性とその処方箋

第3章 洞察の王道となる手法群

    ──重回帰分析とロジスティック回帰

13 統計学の王道「回帰分析」

14 回帰直線はどのように求められるのか?

15 複数の説明変数を一気に分析する重回帰分析

16 ロジスティック回帰とその計算を可能にする対数オッズ

17 回帰モデルのまとめと補足

18 実用的な回帰モデルの使い方 ──インプット編

19 実用的な回帰モデルの使い方 ──アウトプット編

第4章 データの背後にある「何か」

    ──因子分析とクラスター分析

20 心理学者が開発した因子分析の有用性

21 因子分析とは具体的に何をするのか?

22 クラスター分析という基本思想

23 k-means法によるクラスター分析

終章 統計手法のまとめと使用の手順

24 本書のまとめ

25 ビジネスで用いる場合の分析の手順

26 本書では得られない3つの知識
-----------------------------------
アマサイにはクラスター分析あたりが必要だったのでためになりました。

ロジスティック回帰は使いませんでしたが、先輩の研究で導入されていたので、それがよくわかりました。

また、統計を勉強しなおしています。

アマサイが修論で苦しんでいる間にさらに続編が出ていたようですね。

●「統計学が最強の学問である[ビジネス編]ーデータを利益に変える知恵とデザイン」
著者:西内 啓
発行:2016/9/16
出版:ダイヤモンド社
https://www.amazon.co.jp/dp/4478100764/
Nisiuti_toukei

これも読んでみます。

放送大学で放映している「心理統計法」はとっても役に立つよ。みんなも見てみてね。//人気ブログランキングに投票してください。【押す】。ご意見ご要望は新掲示板がなぜか反応しません。ただ今調査中です。

January 23, 2017

かなりすごい物理学者:田中宗

ひさびさにかなりすごい人シリーズです。

田中さんのお仕事はTwitterで知りました。
https://twitter.com/tnksh

量子アニーリング法(クラスタ分析への適用)

情報科学の中心的な課題の1つに、与えられた問題の最適解を求めるという最適化問題と呼ばれるものがある。最適化問題は一般に難しく、それぞれの問題の特性に応じたアルゴリズムや、汎用性があり、かつ実装が容易な数値計算アルゴリズムが数多く考案されてきている。 多くの場合には、物理学の言葉に焼き直すと、与えられたハミルトニアンの基底状態を求める問題と等価となる。 そのため最適化問題を効率良く解く手法の開発は、情報科学の問題としてだけではなく、物性科学や統計力学においても極めて重要な問題である。 物理学の知見を活かした汎用的アルゴリズムの一例として、交換法[A]やシミュレーテッドアニーリング法[B]と呼ばれる方法があり、幅広い分野で適用されている有用な手法である。 シミュレーテッドアニーリング法では、温度パラメータを変化させることにより、熱揺らぎを巧みに制御することで、安定状態を探索するアルゴリズムである。 一方、シミュレーテッドアニーリング法の類似アルゴリズムとして、量子アニーリング法と呼ばれる手法が開発された[C,1]。 量子アニーリング法では熱揺らぎの代わりに量子揺らぎを巧みに制御することで、安定状態を探索する。 取り扱いが容易で、性質が明確に理解される統計力学的モデルに対する量子アニーリング法の有用性はよく研究されてきている。 そこで我々は、情報工学における重要な課題の1つである、クラスタ分析に対する量子アニーリング法の有用性を検討した。 クラスタ分析は解の空間が非常に大きく、また幾つもの準安定状態があるタイプの問題であるから、工夫された方法を用いない限り、良い解を見つけることができない問題である。 我々は熱揺らぎと量子揺らぎを同時に巧みに制御する「熱・量子同時制御型アニーリング法」を用い、実データを用いたクラスタ分析の問題を解析した。 その結果、通常のシミュレーテッドアニーリング法よりも良い解をほぼ同程度の計算実行時間で得ることに成功した[2,3]。 実用的な問題に対する量子アニーリング法の適用はまだ殆ど無く、量子統計力学・計算物理学・情報科学・情報工学の境界領域としての研究としても意義深いと考えられる。

機械学習と量子情報を併せるですと!
アマサイの好物と好物をまぜまぜした大好物であるではないですか!
本日も田中さんのご講演があったのですが、勤務中でしたので、いけませんでした。
残念です。
これからも田中宗さんのお仕事に注目していきたいです。

ああ、論文やHPのスライドを見ればいいのですよね、なるほど、なるほど。

今学齢期でないことが悔やまれる。いやいや、中年だからこそ学べることはあるはず。//人気ブログランキングに投票してください。【押す】。ご意見ご要望は新掲示板にお書き込みください。家主が確認の上、公開いたします。

January 19, 2017

英文特許自動翻訳

特許ニュースにはひさしくアクセスしていなかったアマサイです。


高精度でセキュアな英文特許自動翻訳の提供開始


国立研究開発法人情報通信研究機構
株式会社みらい翻訳
日本特許翻訳株式会社
一般社団法人化学情報協会

高精度でセキュアな英文特許自動翻訳の提供開始 2017年1月18日

【ポイント】
■ 大規模な対訳データを活用した自動翻訳エンジンにより、従来よりも大幅に翻訳精度が向上
■ 特許翻訳固有の問題解決で化合物表記・図・表を含む特許公報の表記通りの正確な翻訳が可能に
■ 企業の情報機密管理上重要な特許情報をセキュアなクラウド上で、大規模に翻訳するサービスを展開

 国立研究開発法人情報通信研究機構(NICT、本部: 東京都小金井市、理事長代行: 黒瀬 泰平)、株式会社みらい翻訳(みらい翻訳、本社: 東京都渋谷区、代表取締役社長: 栄藤 稔)、日本特許翻訳株式会社(NPAT、本社: 東京都中央区、代表取締役社長: 本間 奬)、一般社団法人化学情報協会(JAICI、東京都文京区、理事長: 小沼 和彦)は、高精度でセキュアな英文特許自動翻訳サービスを開発しました。
 本特許自動翻訳サービスは、NICTが開発した高精度な英日特許自動翻訳エンジンに対して、NPATとJAICIが読みやすさと正確性を向上させるための技術を適用し、みらい翻訳がセキュアなクラウド環境で提供するものです。本サービスは、2017年4月から提供を開始する予定です。

Nict1

セキュアなクラウド環境、というのがポイントだと思いますが。

自然言語処理研究者が懸命に機械翻訳研究してんのにこんなシステム、簡単にできちゃうんでしょうかね(簡単ではないのでしょうが)。

お試しに250文字とか言ってますが、特許請求の範囲(クレーム)は訳してくれるんでしょうか。

英日はできても日英はまだ難しいのかな。

どちらにせよ、特許翻訳者にはどう影響するのか。

しばらく様子をみましょう。

いずれの団体も機械翻訳を研究していたのは事実です。//人気ブログランキング(自然科学)に投票してください。【押す】。ご意見ご要望は新掲示板にお書き込みください。家主が確認の上、公開いたします。

January 07, 2017

量子テレポーテーション

NHKで報道したのは大きいですね。

量子コンピューター実現に不可欠な技術開発 東大

現代のスーパーコンピューターでは何千年もかかると言われる極めて複雑な計算を、わずか数時間で解くという、夢の超高速コンピューター「量子コンピューター」の実現に向けて、東京大学のグループが世界的に注目されている「量子テレポーテーション」と呼ばれる現象をめぐり、重要な成果を得たことがわかりました。超高速コンピューターの実現に欠かせない、情報の瞬間移動を無制限に繰り返せるようにする新たな技術の開発の成功で、グループではことしから大規模な計算を精度高く行うための研究を本格化させることにしています。

量子コンピューターの実現に向けて重要な技術の開発に成功したのは、東京大学の古澤明教授のグループです。

量子とは、物質のもとになる原子や光子などのことで、古澤教授はカリフォルニア工科大学の客員研究員だった1998年に、離れている二つの量子の間で情報を瞬時に伝える量子テレポーテーションと呼ばれる現象を起こすことに世界で初めて成功し、注目を集めました。

この量子テレポーテーションについて、古澤教授のグループが実験装置の一部に特殊な工夫を加えることで、情報を瞬時に伝え合う関係にある量子を、無制限に作り出す技術の開発に新たに成功したことがわかりました。

私も古澤先生のブルーバックスを読んで、量子テレポーテーションというのを知りました。
それ以前にも量子コンピュータの本は出ていましたが。

Ryousihon

実は修論関係でずっと量子通信をおっかけていました。

こういうふうに報道されるとまるで自分の成果のようです。

今日、修士の口頭試問でした。終わってほっとしています。//人気ブログランキングに投票してください。【押す】。ご意見ご要望は新掲示板にお書き込みください。家主が確認の上、公開いたします。

December 25, 2016

ディープラーニング

ディープラーニングが話題になっています。

ぐぐったらwikipediaさえも以下の2冊に依拠してますね。
・小林雅一 『AIの衝撃 人工知能は人類の敵か』 講談社〈講談社現代新書〉
・松尾豊 『人工知能は人間を超えるか ディープラーニングの先にあるもの』 KADOKAWA〈角川EPUB選書〉、

はい、2冊とも読みました。自分でブログにまとめるのはたいへんなので、そのまま引用します。

ディープラーニングは、ニューラルネットワークの多層化、特に3層以上のものに対し、1990年代に進められた脳、特に視覚野の研究や、「たった一つの学習理論(英語: One Learning Theory)」、ブルーノ・オルスホーゼンによるスパース・コーディング理論を基にしたアルゴリズムが実装されたものを指す。

これに画像などのデータを入力すると、情報が第1層からより深くへ伝達されるうちに、各層で学習が繰り返される[1]。この過程で、これまでは画像や音声などそれぞれのデータの研究者、技術者が手動で設定していた特徴量が自動で計算される。

特徴量とは、問題の解決に必要な本質的な変数であったり、特定の概念を特徴づける変数である。この特徴量を発見できれば、あらゆる問題の解決につながったり、パターン認識精度の向上や、フレーム問題の解決につながったりすると期待されている。この階層的な特徴量の学習が、ディープラーニングが従来の機械学習と決定的に異なる点である。

この技術は、画像認識や音声認識等の分野に活用される。2012年には、Googleの開発したグーグル・ブレインが、猫の概念を学習することに成功した。

元々はジェフリー・ヒントンらの開発したディープラーニングは層が直列されたシンプルな構造をしていたが、現在のアルゴリズムは複数に分岐していたりループ構造を持ったりするなどグラフ構造が複雑化している。そのため、基本技術をまとめて複雑なグラフ構造を簡単に実現できるようにしたフレームワークも公開されている。

というのも、以下のリンクが流れてきたからです。

2016年のディープラーニング論文100選

@sakaiakira  さんは以下のように述べています。

 2016年において、ディープラーニング業界は2015年を大きく上回る成果をあげました。  Alphagoが囲碁のプロ棋士に勝ち越した出来事は各界に衝撃を与えましたが、これは2016年におけるディープラーニング革命のほんの始まりに過ぎませんでした。2015年に人の認識率を超えた画像認識技術は画像認識にとどまらず、様々な分野に応用され始めています。  例えば、写真にキャプションを付けたり、キャプションから写真を生成したり(!)、ラフ画から詳細な絵を自動生成したり(!!)、近未来を予想したり(!!!)。一年前は遠い先のように思えた言語処理の分野も実用化が視野に入りつつあります。言語翻訳の分野では一部の欧米言語間において、文レベルの翻訳に関しては人間レベルをほぼ達成しました。会話レベルの音声認識技術も今や人の水準を超えつつあります。ディープラーニングの基幹技術においても革新的な進歩がありました。1つないし、少数のデータからの学習を可能にするone-shot学習関連技術やネットワーク規模を約50分の1に大幅に圧縮する技術が登場しました。かつてはブラックボックスと言われたディープラーニングの数学的背景についても理解が進み始めました。強化学習技術の進歩も著しく、人間にかなり近いレベルの自律学習能力が機械に備わるのはそう遠い将来では無いでしょう。

冬休みにはここで紹介された論文を1つでも理解できようにしたいです。

また、webのリンク張っておしまいか?ですと。アマサイブログはいつもそんな感じなんで(^_^;)//人気ブログランキングに投票してください。【押す】。ご意見ご要望は新掲示板にお書き込みください。家主が確認の上、公開いたします。

December 22, 2016

自然言語処理

このブログ、備忘録のためでもあるのですが、その機能はすっかりTwitterに移ってしまいました。
が、しかし、検索するのはBlogの方がよく、、、

アマサイがけんきゅーしているのは自然言語処理と呼ばれている分野です。

なぜ、自然言語処理には可能性があるのか?


はじめに――自然言語処理の可能性

「自然言語処理」(以下、文脈から明らかな場合は「言語処理」と省略する場合も)は、人工知能の一分野に分類されることが多く、言語処理に機械学習を用いる場合もよくあります。

ただ、人工知能関連で一般にも知られるくらい今流行しているのは、ディープラーニングでしょう。それに比べると、自然言語処理は地味なジャンルだという印象があります。しかしそれでも、私は重要だと考えています。少なくとも、可能性はあると思います。

ではなぜ、重要なのか? 理由は以下で述べていきますが、あまり言語処理だと思われていないが、じつは言語処理の要素があるものを具体例として取り上げましょう。みなさんもよくご存じの検索エンジンです。

このサイトはざっくりわかっていいかなと思います。

参考書は以下がお勧めです。

小町守 監修『自然言語処理の基本と技術 (仕組みが見えるゼロからわかる) 』

_komati_2

出版:翔泳社 黒橋 禎夫 著『自然言語処理』出版:放送大学教育振興会

Sizengengo_korohasi_2

人工知能のキーは自然言語処理だとアマサイは思っています。

修論はまだ口頭試問が残っています。//人気ブログランキングに投票してください。【押す】。ご意見ご要望は新掲示板にお書き込みください。家主が確認の上、公開いたします。

より以前の記事一覧

サイト内検索
ココログ最強検索 by 暴想

更新情報

February 2017
Sun Mon Tue Wed Thu Fri Sat
      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28