DX技術

ここではデジタルトランスフォーメーション(DX)に関して以下のマップに示される領域の情報について述べている。

以下それぞれの詳細について述べる。

DX(digital transformation)技術について

近年注目を浴びているDX(Digital Transformation)。企業の中にある情報のうち8割以上が電子的に扱うことが困難な、非構造情報あるいは非電子情報であると言われている。それらを十分に活用することができれば大きな効果が得られることが期待されるが、非構造情報あるいは非電子情報の電子化は非常に困難であり、戦略性を持ったアプローチが必要とされる。

DXの対象となる情報としては、自然言語処理技術にて処理されるテキスト情報、深層学習等で処理される画像情報、HMM等の確率生成モデル等で処理される音声情報、センサー等のIOTで生成される情報、そしてSemantic Webやオントロジー技術で処理される知識情報がある。

これらの処理については、以下にそれらについて述べているが、さまざまなノウハウがあり、また電子化された情報(特徴量等)は、関係性を持ち知識情報を核として組み合わされて多様な価値を生む。

このDXを検討する際の一つのアプローチとして以下のようなステップがある。

  1. 目的の明確化(課題の分析): 現在の業務フローの分析と課題の分析を行う。初期の段階では課題が明確に抽出できないケースも多くあるが、その場合は既存分析手法(KPI、OKR等)を用いて仮説を立てて、対象業務を選択しその業務の流れをアクター(登場人物)、オブジェクト(ドキュメントやその他の情報)、システムの3つの軸をベースに見える化する。
  2. 対象情報の整理/分析: 1で選んだ領域に関連するデータの収集/分析の量と所在場所、属性(どのようなタイプの情報なのか、電子化されているのか等)をリストアップする。電子化が必要なものに対しては電子化の手段を調査/決定する。この時解決したい課題に基づいた情報の粒度(例:文書そのものか、パラグラフか、あるいは単文か等)についても検討する。この時点で1の目的と照らし合わせて課題解決に必要な情報が揃っているのかどうかをチェックする。
  3. 一次検証: 情報を対象とする課題の場合は、まず「情報を見つける」ことが最初の課題となる。そこでオープンソースの検索エンジンを用いて(後述のFESSやElasticSearch等)を用いて、2でリストアップした情報を元に検索システムを構築し、1の目的に対して必要な情報が基本的な検索で得られるのかどうかを検証する。これらの検証は予め目標値(インプットとアウトプットのペア)を想定して評価し、それらがどの程度得られるのか、また答えが得られないのは何が不足しているかを分析して、必要なデータ(2)、及び目的/目標値(1)を修正する。
  4. 二次検証: 3で得られない情報は、素の検索素材だけでは得られないということであり、それらを生成する為に機械学習/人工知能技術の中から適切な技術を選択して情報の加工/生成を行う。この時、目標値は3で得られた課題(素の検索素材だけでは得られない情報等)を定量化して評価を行う。ここで再度1の目的とのすり合わせも実施し、最終的な費用対効果を見積もる。
  5. 本番システム構築:4のステップまでで、効果が明確に得られる事が確認できたら、本番システムの構築(ロバスト性、スケール検討、メンテナンス性等を含む)を行う。

上記のステップに必要な参考情報を以下に示す。

課題設定と定量化

機械学習を行うためには、その課題の本質を見極め、PDCA、KPI、KGI等の各種問題解決フレームワークを用いて目標値として定量化する必要がある。また、問題が明らかにされていない場合に、演繹法や、帰納法、投射法、類比法、アブダクション法等の非演繹法を使って様々な仮説を立てたり、立てた仮説を「確証バイパス」に陥らずに検証したり、更にフェルミ推定のような手法を用いてそれらを定量化したりする工夫も必要となる。

本ブログでは 以下のページにて、それら問題解決手法と思考法及び実験計画についての詳細を述べている。

DX活用に向けた人工知能技術の具体的な適用事例

人工知能技術とは、人間の知能や思考プロセスを模倣することで、コンピューターやロボットなどにこれまで人間が行なっていた知的な作業を行わせる技術を指す。人工知能技術には、機械学習、深層学習、自然言語処理、画像認識などの様々な技術が含まれている。

人工知能技術は、近年急速に発展し、様々な分野で利用される。その応用範囲は広く、自動運転車や医療分野、金融、マーケティングなど、多岐にわたっている。本ブログでは 以下のページにてこのDXへの人工知能技術の適用例を挙げる。

ICTフレームワークの適用

Web技術について

Web技術は、機械学習、人工知能、デジタルトランスフォーメーション等の技術を載せるプラットフォームとなる。

本ブログでは 以下のページにて、このWeb技術に関して、概要(インターネット技術概要、HTTPプロトコル、ウェブサーバー、ウェブブラウザ、ウェブアプリケーションとJavascriptやReact等のプロジラミング技術)と実装技術(Javascript、React、Clojure,Pyhton等による具体例)、具体的な活用(MAMP、各種CMS(Contents Management System)であるMediaWiki、WordPress、検索プラットフォームであるFessやElasticSearchの具体的な立ち上げ)と様々な応用(学会やweb上で発表された様々な応用例)について述べる。

データベース技術について

データベースとは、wikiでの説明だと「データベースdatabase, DB)とは、検索や蓄積が容易にできるよう整理された情報の集まり。 通常はコンピュータによって実現されたものを指す。コンピュータを使用したデータベース・システムでは、データベース管理用のソフトウェアであるデータベース管理システムを使用する場合も多い。プログラムで扱うデータ構造やデータそのものを独自実装の場合に比べて少ない工数で操作できるようにしている。膨大なデータを扱う現代の情報システムでは最重要と言える

データベースを利用する利点としては、プログラムで独自のデータ構造を実装するよりも汎用的なデータ構造をシンプルに活用できること、後ほど述べるデータの統一性を担保できるしくみ(データのバックアップ等)を利用できることがある。

本ブログでは 以下のページにて、このデータベースに関して様々な技術について述べている。

検索技術について

コンピューター技術のベースとなる”情報”。情報はただ集めるだけでは意味がなく、集めた情報から創造的な活動を行うには、「集める」「探す」「見つける」「眺める」「気づく」というサイクルを回す必要がある。これらにはそれぞれ対応する技術や思想が存在する。今回は「探す」技術(検索技術)について述べる。

本ブログでは 以下のページにて検索技術に関する様々な技術に対して述べている。

チャットボットと質疑応答技術について

チャットボット技術は、さまざまなビジネスドメインでの汎用的なユーザーインターフェースとして利用することができ、そのビジネスチャンスの多様性から現在では多くの企業が参入している領域となる。

さらにそれらのベースにある質疑応答技術から見ると、単なるユーザーインターフェース技術ででは収まらず、自然言語処理技術や推論技術等の人工知能技術や、深層学習、強化学習、オンライン学習等の機械学習技術を組み合わされた高度な技術の集大成となるが、現時点でのチャットボットは、それらを駆使したものでは無く、ルールベースの非常にシンプルなものだけとなる。

本ブログでは 以下のページにて、このチャットボットと質疑応答技術に関して、その成り立ちからビジネス的側面、最新のアプローチを含めた技術的な概要とすぐ利用できる具体的な実装までのさまざまなトピックについて述べている。

Visualization & UX

コンピューターを使ってデータを処理するということは、データの中にある構造をビジュアライゼーションすることで価値を生み出しいくいくことと等価となる。さらに、データ自体には複数の視点で複数の解釈が可能であり、それらをビジュアライゼーションしていくためには、巧妙に設計されたユーザーインターフェースも必要となる。

本ブログの 以下のページにて、主にISWC等の学会に発表された論文を中心に、このユーザーインターフェースの様々な事例について述べる。

ワークフロー&サービス

ISWC等に掲載されたサービスプラットフォーム、ワークフロー分析、実ビジネスへの応用へ応用に対する論文を中心とした情報をまとめる。

本ブログでは 以下のページで、医療、法律、製造業、科学等のビジネスドメインに対するセマンティックウェブを使ったサービスプラットフォームについて述べている。

ストリームデータ技術

この世の中は静的なデータではなく動的なデータに溢れている。たとえば、工場やプラント、交通や、経済、ソーシャルネットワーク等で膨大な動的データが形成されている。工場やプラントのケースでは一般的な石油生産プラットフォームのセンサーでは、毎分10,000回の観測が行われ、ピーク時には100,000 o/mに達したり、モバイルデータのケースではミラノのモバイルユーザーは、1分間に20,000回の通話/SMS/データ接続を行い、毎分20,000回、ピーク時には80,000回に達したり、ソーシャルネットワークの場合は、例えばFacebookでは、2013年5月現在、1分間に300万件の「いいね!」を観測している。

これらのデータが現れるユースケースでは「最後の10分でタービンのバーリングが振動し始めたときに予想される故障のタイミングは何か?最後の10分間に検出されたように、タービンのバーリングが振動し始めたときの予想故障時間は?」とか「人々がいるところに公共交通機関はあるのか?」とか「話題のトップ10について、誰が議論をしているのか?」等の粒度の細かな様々な課題が生じ、それらに対する解が求められている。

本ブログでは 以下のページにて、このようなストリームデータを扱うためのリアルタイム分散処理フレームワーク、時系列データの機械学習処理、およびそれらを活用したスマートシティやインダストリー4.0などの応用例について述べる。

非構造情報のデータ(電子)化

自然言語処理技術

ことばは、人と人のコミュニケーションに用いられる道具となる。人間がことばを身につけることは容易で、特別な才能や長く地道な訓練などは必要ない。ところが、人間以外が言葉を操るのは不可能に近いほど難しい。言葉はとても不思議な存在となる。

自然言語処理は、そんなことばをコンピューターで取り扱おうとする研究となる。当初の自然言語処理は「ことばとは、このようなものだ」という規則を書き連ねることで実現していた。しかし、ことばは極めて多様で、常に変化し、人や文脈によって解釈が異なりうる。そのすべてを規則として記すのは現実的ではなく、その後規則による自然言語処理に代わって1990年代後半よりデータ、すなわち実際の自然言語の分に基づく統計的な推論が主流となっていく。統計的な自然言語処理とは、乱暴にいえば「言葉が実際にどのように使われているのか」というモデルをたてて問題を解くものとなる。

本ブログでは 以下のページにて、このようなコンピューターを使った自然言語処理に対して、まず「自然言語とはどんなものか」という観点から(2)哲学、言語学、数学からみた自然言語について述べ、更に(3)自然言語処理技術全般、更にそれらの中でも特に重要な(4)言葉の類似性(similarity)について詳細に述べている。そしてそれらをコンピューターの中で利用するための(5)各種ツールと、具体的なプログラミング(6)実装について述べ、現実のタスクに活用できるような情報について述べている。

画像情報処理技術

現代のインターネット技術やスマーフォンの発展により、web上には膨大な画像が溢れている。この膨大な画像から新たな価値を生み出す技術として、計算機による画像認識技術がある。この画像認識技術は、画像固有の制約条件やパターン認織・機械学習の知見のみならず、応用先の専権的な知識も必要とするため、取り扱う領域が必然的に広くなる。また深層学習の成功を発端とする近年の人工知能ブームの影響もあり、画像認識に関する膨大な研究論文が発表され、それらをフォローするのは困難な状況となっている。このように画像認識の内容は広大でかつ膨大であるために、明確な指針もなく全体を俯瞰し、知識を習得することは困難となる。

本ブログの 以下のページではそれら画像情報処理技術に対する理論的とアルゴリズム、そしてpython/Kerasを用いた深層学習による具体的な活用やスパースモデルや確率生成モデルによるアプローチなどについて述べた。

音声認識技術

機械学習技術の適用先として、信号処理の領域がある。これらは主に時間軸上で変化する一次元のデータで、各種センサーデータや音声信号処理等がある。この音声信号認識には深層学習をはじめとする様々な機械学習技術がで起用される。

本ブログでは 以下のページで、この音声認識技術に関して、自然言語と音声のメカニズムから、AD変換やフーリエ変換、そして動的計画法(DP法)、隠れマルコフモデル(HMM)、深層学習等の手法を使った話者適応や話者認識、耐雑音音声認識などの応用について述べる。

地理空間情報処理

地理空間情報とは、位置の情報もしくは、位置と結びついた情報を指す。例えば、LOD等に利用される行政で扱う情報の80%は何らかの位置情報と結びついていると言われ、極論すると、情報が発生した場所を情報と一緒に記録すると、すべての情報が「地理空間情報」ということもできる。

この位置と結びついて情報を扱うことで、単純に地図の上に位置情報をプロットするだけでも、情報の分布状況を把握する事ができ、GPS等を用いて緯度軽度に結び付けた道路や目的地のデータがあると、GPS付きの端末を持った人を目的の場所へ誘導したり、どういった動きをしたかという軌跡を取ることにより、緯度軽度と結びついて過去・現在。未来の出来事の情報で、位置を元にサービスを提供することもできる。

このような位置情報の特徴をうまく活用することで、新たな科学的な発見や、ビジネスでのサービスの展開、またさまざまな社会問題の解決が可能となる。

本ブログでは 以下のページにて、この地理空間情報の活用として地理情報のプラットフォームであるQGISの具体的な利用方法、またそれらとRや各種機械学習ツールとの組み合わせ、またベイズモデルとの組み合わせ等について述べる。

センサーデータ&IOT

センサー情報の活用はIOT技術の中心的な要素となる。センサーのデータとしては様々なものがあるがここでは1次元の時間的に変化する情報を対象として述べる。

IOTのアプローチとしては、特定の測定対象に対して個別にセンサーを設定し、その測定対象の特性を詳細に解析するタイプののものと、「異常検知へのスパースモデルの適用」にも述べられているように複数のセンサーを複数の対象に向けて設置し、得られたデータの中から特定のデータを選択して、特定の対象に対して異常検知を行う等の判定を実施するものに分けられる。

本ブログでは 以下のページに、各種IOTの規格(WoT等)や時系列データとして統計的処理、隠れマルコフモデル等の確率的精製モデル、劣モジュラ最適化によるセンサ配置最適化、BLE等のハードウェアの制御、スマートシティ等幅広い領域の知見について述べる。

異常検知と変化検知

あらゆるビジネスの現場で、変化あるいは異常の兆候を捉えることは非常に重要な課題となる。例えば売り上げの変化を捉えることでいち早く次の一手を打ったり、稼働中の化学プラントの異常の兆候を見つけることで、重大な事故を未然に防いだり、現場の職人芸に頼らず、客観的にこれらの行うことはデジタルトランスフォーメーション人工知能のタスクを考える上で非常に意義があるものとなる。

これらに対するアプローチとしては、ルールを抽出するもの以外に、統計的機械学習の技術を使うことで、実用に耐えうる異常検知・変化検知の仕組みが構築できるようになってきた。これは観測値をxとすると、その取りうる値についての確率分布p(x)を使って数式で異常や変化の条件を記述するもので、汎用的な手法となる。

本ブログでは 以下のページに、この異常検知・変化検知のの具体的な技術としてホテリングのT2法から始まり、ベイズ法、近傍法、混合分布モデル、サポートベクトルマシン、ガウス過程回帰、疎構造学習など多様なアプローチについ述べている。

    電子化されたデータの知識情報との連携

    Semantic Web技術

    Semantic Web技術とは「Webページの意味を扱うことを可能とする標準やツール群の開発によってワールド・ワイド・ウェブの利便性を向上させるプロジェクト」であり、現在のWWWの「ドキュメントの網」から「データの網」にweb技術を進化させるものとなる。

    そこで扱われるデータはDIKW(Data Information Knowledge Wisdom)ピラミッドでのDataではなく、InformationやKnowledgeの情報となり、オントロジーやRDFなどの知識を表現するフレームワークで表現されており、様々なDXやAIのタスクに活用されている。

    本ブログでは 以下のページで、このセマンティックウェブ技術やオントロジー技術、またセマンティックウェブ技術の世界的な学会であるISWC(International Semantic Web Conference)の情報等の学会論文について述べている。

    知識データとその活用

    知識を情報としてどのようにして扱うかうのかという問題は、人工知能技術のの中心議題であり、コンピューターが発明されて以来様々な検討が行われてきた。

    ここで言う知識は、自然言語で表され、さらにコンピューターで扱えるような情報に変換されて計算されることになり、知識をどのような形で表現するのか?や表現された知識をどのように扱うのか?あるいはさまざまなデータ/情報の中から知識をどのようにして抽出するのか?等の課題に対して様々な検討が行われている。

    本ブログでは 以下のページで、これらの知識情報のハンドリングに対して、知識の定義、セマンティックウェブ技術/オントロジーによるアプローチ、数理論理学をベースとした述語論理、Prolog等を用いた論理プログミング、さらにそれらの応用としての解集合プログラミング等について述べている。

    オントロジー技術

    オントロジー(ontology)という言葉は、そもそも哲学の一部門として使われてきたもので、wikiによると「様々に存在するもの(存在者)の個別の性質を問うものではなく、存在者を存在させる存在なるものの意味や根本規定について取り組むもので、形而上学ないしその一分野とされ、認織論と並ぶ哲学の主要分野である」と記載されている。

    形而上学はものの抽象的な概念を扱うものであり、哲学におけるオントロジーは抽象的な概念や物事の裏側にある法則について扱うものであると言うことができる。

    これに対して、情報工学でのオントロジーは、同じくwikiによると「知識をある議論領域(ドメイン)内の「概念」及びに「概念間の関係」のなす順序組みとみなしたときの形式的表現であり、そのドメイン内のエンティティ(実態)を理由付けしたり、ドメインを記述するのに使われる。」と定義されている。また「オントロジーは「共有されている概念化の形式的・明示的仕様」とも定義され、あるドメインをモデル化するために使われている語彙(オブジェクトや概念の型、プロパティ、関係)を提供する」とも述べられている。

    本ブログでは 以下のページにて、情報工学の観点からこのオントロジーの活用について述べる。

    タイトルとURLをコピーしました