序文#
この記事では、bark について簡単に紹介します。
bark はテキストから音声を生成するモデルです。高品質の音声合成サービスを提供し、ユーザーはテキストを提供し、必要な声や効果音を選択することで、要件に合った音声ファイルを生成することができます。
本文#
1. bark とは#
2. bark の機能#
Bark は、高度にリアルな多言語音声やその他のオーディオを生成することができます。音楽、背景ノイズ、およびシンプルな効果音など、非言語コミュニケーション(笑い声、ため息、泣き声など)も含まれます。
3. bark の使用方法#
公式のmodel_zooからモデルのパラメータを手動でダウンロードします。スクリプトによる自動ダウンロードは遅い場合があります。拡張子が_2
のものは大規模なモデルであり、拡張子のないものは小規模なモデルです。
プロジェクトファイルをインストールしたら、プロジェクトの環境は Torch2.0 + を推奨しますが、1.12 でも正常に動作します。ローカルに 2.0 + 以外の Torch のバージョンがすでにインストールされている場合、プロジェクトのインストール時に最新の Torchaudio が自動的にインストールされ、実行できなくなる可能性があるため、対応するバージョンを手動でインストールする必要があります。
インストールが完了したら、以下のコードを使用してテストを実行できます:
from bark import SAMPLE_RATE, generate_audio, preload_models
from scipy.io.wavfile import write as write_wav
#from IPython.display import Audio
# download and load all models
preload_models()
# generate audio from text
# text_prompt = """
# Hello, my name is Suno. And, uh — and I like pizza. [laughs]
# But I also have other interests such as playing tic tac toe.
# """
text_prompt = """
[MAN]皆さん、こんにちは。私は人工知能の250です。よろしくお願いします! [clears throat]
[WOMAN]嘘ですよ、実は私は2日半の練習をしたtom CATです。
"""
audio_array = generate_audio(text_prompt)
# save audio to disk
write_wav("bark_generation.wav", SAMPLE_RATE, audio_array)
# play text in notebook
#Audio(audio_array, rate=SAMPLE_RATE)
生成されたオーディオファイルは次のようになります:
このように:
そして、このように:
4. 結論#
正直なところ、効果は良いです。bark は従来の TTS とは異なり、入力に忠実で完全なテキストから音声への変換ではなく、音声を生成します。そのため、想像力や自己修正の余地がある場合があります。厳密な場面では使用しない方が良いでしょう。
bark はテキストに基づいて言語を自動検出し、生成することができます。また、音効や音楽などの生成もサポートしています。英語の場合、最も効果がありますが、中国語の場合は外国人が中国語を話しているような音になることがあります😂。より多くの中国語のデータを使用して微調整する必要があります。
最後に#
参考記事:
免責事項#
この記事は個人の学習記録として作成されています。
この記事はhblogと同期しています。