NHKの字幕放送制作について
過日、NHKの関連会社の人の講演をきく機会があって聞いてきた。画面に映し出される字幕を制作している会社の人であった。忙しくてこれからぐんぐん伸びる業界であると自信を持って言っていたので、何か起業を考えてる20代、30代の人がいたら研究してみてはどうだろうか。
私が聞いたのは、NHKのG-Mediaの社員。検索すると業務内容が出てくるはず。パンフのサブコピーが『ライブイベントのコトバを超速でテキスト配信』。一緒に(株)アドバンスト・メディアの『広がる音声認識技術の実際と業務への活用について』という短い説明会もあり、現在日本テレビのスポーツ番組で文字放送化の仕事をしていると言っていた。
音声認識エンジンの開発が進んで、スマホで『○○市○○町○○会社』と持ち主がしゃべれば地図が出てくるが、会議の内容も、音声を認識された一人の人がマイクに向かって『再度、声を出して喋れば数秒で文字で表示される』(リスピークと言う)。実際、講演者がマイクで喋った言葉(講演者の声紋をすでに認識させている)が直ちにスクリーンに文字化して出てくる。この技術を使えば、株主総会やインタビューも、国際会議もそれほどの時差もなくスムースな会議の進行ができるというものだ。
ただ、音声認識の不得手なケースがあって、(1)雑音多い場所やICレコーダーに複数者が同時発言、(2)話し手が支離滅裂・聞き取りにくい(3)話す内容があちこちに飛んで多岐に渡りすぎる、(4)話し手が一気に喋りだす。人工知能とはいえ何でもできるわけではなくて、利用シーンは増えても、人の力・判断力は要として残り、過度の期待はできないという話も出ていた。ここでもアナログあってのデジタル技術の展開である。
実際、会議内容をほぼ時間差なく、ユーチューブなどに流すこともしている。将来はたとえば、サミットも語学変換を通して、直ちに国民の知るところになり、官僚の好きな秘密が軽減されたり、「言った、言わない。記録にあるとか破棄した」などの議論もなくなる。しかし、古い価値観の私は、何でもかんでも、音が記録に残される時代ってどうなんだろうかと不安にも思う。スマホの録音ソフトをONにすれば、夫婦や子どもとの会話も記録に残り、「あのときあなたはああ言った、こう言った」と残されると、かえってお互いの信頼関係が損なわれると思うのだ。
セクハラやパワハラで被害を受けてる人は裁判で使える資料にはなるけれど、日常、ゆるやかな日々を送りたい人にはストレスになると思うのだ。テレビをつけると、必ず画面に文字が打ち込まれている。裏方さんが手作業で入れ込んで、それを画面のどこに貼り付け位置移動をしている職人もいる。何気なく見ているテレビ画面、その後ろに地味な作業を毎日している人がいるという話であった。関心ある方は下記のHPを見るといい。
(株)NHKグローバルメディアサービス
http://info.livetext.jp
(株)アドバンスト・メディア
http://www.advanced-media.co.jp
記録と記憶
昨日も参議院予算委員会の閉会中審議で加計学園獣医学部新設計画を安倍首相が知った時期についての質疑がヒートアップしていた。一方,南スーダン国連平和維持活動(PKO)部隊の日報隠ぺい問題に関して稲田朋美防衛相に対する疑惑と罷免要求も。すべてが記憶があいまいとか,知らなかったとかの答弁の繰り返しで進展はほとんど無かった。文書に残す事は大切だが,会話と文書のニュアンスの違いや表現の違いはぬぐえない。会話はそのままの録音で残すことは重要なことだと思うが,不味い会話は残されないことを思えばそれも信用はできない。となれば,一つ一つの問題を先送りしないで,その場その場で短期間で解決していくことが最も大切だと思う。人間の記憶の曖昧さが全ての問題を複雑化している。
技術進歩の影に。
自動翻訳の技術は進歩しているものの,曖昧な発音や声の大小によっては解析不可能な場合も起こりますね。こんな場合にはアナログ的な補足修正が必要なんでしょうね。普段の会話で自動翻訳をリアルタイムにできれば英会話も中国語も即理解可能になってトラブルも少なくなるでしょう。スマホがこれだけの技術進歩を果たしているのであれば,まもなく音声認識自動翻訳も可能になるのではないでしょうか。しかし,それによって影響を受けるビジネスも沢山あるのではないでしょうか。PCの普及で,今では,かつて花形の職業「タイピスト」が居なくなったように。技術の進歩は時として罪作りですね。
oldbadboy
会話の自動テキスト化は、事前に出場者の声を登録するなどの綿密な事前準備が必要です。また、人工知能は巨大なシステムなのでPCでは無理です。多分我々が利用できるのは、ネットワーク上のサービスとしてということになるでしょう。公開された音源なら、文章間違いを世界中の視聴者が訂正することで、正確になる一方、人工知能が語彙を増やしていくというプロセスが可能です。でも、雑踏の中から恋人の呼ぶ声やウグイスの鳴き声に気がつくといった粋なことは、難しいでしょうね。