ユピテルが提案する、ライフスタイルを豊かにする情報コラム

AIボイスレコーダーの精度はここまで来たのか!? 音声翻訳や文字起こしも可能に

2022.12.19

近年、AIの技術は目覚ましい発展を遂げています。会議などに欠かせないボイスレコーダーの進化もそのひとつ。音声認識技術の発達により、ボイスレコーダーはどのように進化してきたのでしょうか。AIを搭載した最新のボイスレコーダー事情とその活用について考えます。

文字起こしにイノベーション!日進月歩で向上するAIボイスレコーダーの精度

音声翻訳

会議の議事録作成やインタビューの場に欠かせないボイスレコーダー。小型化・大容量化が進み、かつてスパイ映画の主人公が持っていたようなペン型のボイスコーダーも、今や珍しいとは思わなくなりました。最近では、AIを搭載するボイスレコーダーまでもが登場し、ますます高機能化が進んでいます。録音した音声を自動的にテキスト化するボイスレコーダーさえ現れました。

それにしても、音楽の「音」を音階という決まった基準で譜面化するのとは異なり、人の話す「声」を機械的に文字へと変換するというのは、改めて考えるとすごい技術ですよね。この「音声認識」と言われる技術は、1970年代から研究が進められてきました。録音した音声をコンピュータが認識できる信号に変換し、それを膨大なデータと照合して最も近いアルファベットを抽出し、そのアルファベットを単語に変換させるといったプロセスを経て、人の話す「声」が「言葉」を表したテキストとなって表示されます。

こうした技術はAIの登場以前から存在していましたが、AI、しかもディープラーニングの登場で、音声認識技術のレベルは急激に上昇しました。音声認識のために段階的に行われていたプロセスを、まるで人の脳のようにシームレスかつ違和感なく進められるようになり、テキストへの変換精度も飛躍的に向上。音声認識そのものの精度を100%に近づけることも可能になりました。これに伴い、ボイスレコーダーもグレードアップ。驚くような機能を搭載したAIボイスレコーダーが市販されています。

AIボイスレコーダーは機能の垣根を越える!音声翻訳で広がる世界

文字起こしが可能になったことで、ボイスレコーダーの可能性はぐっと広がりました。数時間の音声でも、わずか数分でテキスト化され、そのデータを利用してキーワードによるデータ検索や頭出し、ブックマークなども可能に。中にはリアルタイム、つまり、録音した端から文字起こしできる機種も。テキスト化したデータをメールで送付したり、自動的に専用サイトやクラウドにアップしたりできるようになって、編集や保存の利便性がますます向上しました。

AIが搭載された最新のボイスレコーダーが持つ能力は、音声のテキスト化だけにとどまりません。なんと文脈や内容を読み取り、解析・判断することさえできるようになりました。そのため、テキストに句読点を入れて読みやすくしたり、間違っている言葉を自動修正したり、重要なキーワードやタスクを抽出することも可能。驚くべきことに、複数人が会話している音声を録音した場合、それぞれを識別して話し手ごとのテキストを表示することまでやってのけます。また、人の声だけを判別してノイズをカットし、よりクリアな音声を残せるのもAIの持つ優れた機能のひとつです。

☆あわせて読みたい
対話型人工知能とは?音声アシスタントとは違う、対話型AIの可能性を読み解く

さらには、録音した音声をリアルタイムで自動翻訳するボイスレコーダーも登場しました。中には対応言語数が100言語以上というものも。ボイスレコーダーはAIを搭載することによって、単に「音声を録音し、再生する機械」という枠から大きく飛び出しました。

会議だけでなく文字起こしから同時通訳まで。幅広く活躍するAIボイスレコーダー

音声翻訳

高性能なAIボイスレコーダーのおかげで、当然のことながら録音データの編集は非常に楽な作業となりました。通常、文字起こしにかかる時間は録音時間の4倍と言われています。つまり1時間の音声を手作業でテキスト化する場合、約4時間かかるということです。これがテキスト化機能を搭載したボイスレコーダーなら数分で完了。担当者の負担は大幅に軽減されることでしょう。

また、医師であれば診察時の会話をテキスト化してカルテに記載するなど、その活用範囲も多数の業種に広がります。翻訳機能の登場により、外国語での商談や会議はもちろん、海外旅行、海外のセミナーなど、ボイスレコーダーの活用シーンはビジネスの場以外にも一気に広がりました。高性能化が進んだボイスレコーダーの機能をよく把握し、自分に合った機種を上手に選べば、ワークライフバランスの改善・実現にも役立つでしょう。

もちろんAIが搭載されるようになったからといって、ボイスレコーダーの認識ミスがゼロになるわけではありません。特に日本語は同音異義語が多く、音声認識技術にとってハードルの高い言語。精度が上がっているとはいえ、人間の目によるチェックは絶対に必要です。また自動保存に頼り切らず、こまめにバックアップを確認することなども重要です。

言葉の壁を越えるツールで豊かな人生に寄与

最近は国をまたいだ経済活動、コミュニケーション、イベントなど、インターネットを介した様々な国際的な体験が可能になりました。その傾向は、年を追うごとにどんどん強くなっています。AIを搭載した小さなデバイスを活用して気軽に世界を体験することは、人生をより豊かなものにしてくれるでしょう。私たちが、日本にいながら言葉の壁を越える日も、そう遠くないのかもしれません。

☆あわせて読みたい
リアルタイムボイスチェンジャーの用途は配信だけにあらず!置き配、防犯対策に
文化的な影響を受けて独自の進化を遂げる、テクノロジーとカルチャーの関係性
萌えキャラ、きもかわ、ゆるかわ!人気キャラクターたちのグッズがデジタル化?
VTuber(ブイチューバー)の海外シーンの現状とは。日本とはどう違う?
いまさらだけど「投げ銭」って何?推しを育てる推し活の広がりとは


ユピスタの更新情報をはじめ、ユピテルの最新情報をフォローしよう!
    Yupiteru_ch Yupiteru Yupiteru


【執筆】ユピスタ編集部
ユピスタ (Yupiteru Style) は、ユピテルが運営するテクノロジーやライフスタイルを扱う情報コラムサイトです。日々の暮らしをもっと面白く、もっと安心・安全に過ごすためのさまざまな情報を発信しています。