未知語の形態素IDを指定したら,辞書に登録される。
未知語の形態素IDを指定したら,辞書に登録される。
Claude Codeの助けを借りてここまでできた。もう言うことない。
1. 発話を音素表記したものから,辞書を参照して,自動形態素解析。
レコード(1発話単位)ごとに
2. 未知語や分析が曖昧なトークンがあれば指定
3. 発話全体の分析が正しいか確認。必要なら修正。
4. 確定して出力。
小西いずみ
奈良田ことばの機械可読辞書から形態素解析をするpythonスクリプト、相談相手のchatGPTがどうにも動かなくなったので、Claude Codeに移行した。
数行の説明を与えただけで自力でスクリプトと辞書を見て、それぞれの構造と両者の関係、何がやりたいかを理解してくれた。今は辞書にあるはずなのに分析できずに未知語になる問題を相談中。
業績管理はresearchmapで一元化すればいいと思っていたが,国際的にはORCIDにも入れなくてはいけないのか。doiがあるやつ以外は面倒くさいなあ。
現スペイン政府のまともさがようやく日本で認識されつつあるな。サンチェス政権はずっとああいう姿勢だ。イスラエルのガザ攻撃もずっと非難している。しかし,国内で盤石かというとそうでもなくて,今回のアメリカとイスラエルへのいち早い批判声明も賛否両論らしい。
完成度はともかくとしても何事も締め切りよりかなり前に一通り完成させる院生某氏。私には絶対にできないのでいつも感心する。
中国の日本国費留学生が,中国の機関による最終的な採否発表がなされないままで,混乱している。日本の大学の留学生対応部署の対応も大変である。学生をそんな気持ちにさせ,同僚にいらない仕事を増やした件の発言に改めて怒りがわいてくる。
担当章 Narada
doi.org/10.1163/9789...
日琉諸語・諸方言の単語アクセントに関する論文集が出版されました。
私は、奈良田方言の章を担当しました。オープンアクセスです。概説論文ですが、複合語アクセントなど新しい情報も含みます。
brill.com/display/titl...
長崎方言の解説論文(英語)が出ました。オープンアクセスです。他の論文も含め日本語のプロソディを体系的にまとめたものは初ではないかと/Nagasaki (Word-Prosodic Systems of Japonic Languages)
brill.com/display/book...
私には他人が使えるインターフェースを整える時間は今はない。奈良田ことばの危機度がその免罪符だが、奈良田ことばの資料整備は学生教育と校務に次いで優先していいだろう。
辞書は今2300語ぐらいになった。でもまだまだ未知語が出てくる。辞書更新の手間はかかるが、やればやるほど解析の精度もあがり、既存のフィールド言語学用の語彙項目管理アプリを使うよりも全体として確実に早くできる。しかし、他人が使えるようなインターフェースは備えていない。
そして私は物語の翻訳が、何も見ずに結構できるようになった。アクセントはまだいまいちだけど。
辞書の項目も増えて、融合規則の書き方の間違いを直したら、さらに精度があがった。
「奈良田方言の昔話」 をzenodoで公開しました。
音声と文字化テキストのほか、共通語訳、形態素分析・グロスを付しています。
doi.org/10.5281/zeno...
院生Pさんから、行為要求表現の調査票で統制すべき要因について、示唆を受けた。頼もしい。
日本音響学会 第155回研究発表会の1日目(3月17日)スペシャルセッション「音声コミュニケーション研究における音声資源の活用と展望 2」において、
山梨県奈良田方言音声データベースの構築
と題して発表(招待講演)を行います。どうぞご参加ください。
acoustics.jp/annualmeetin...
発表が終わりました。たくさん質問やコメントをいただけ、とてもよい機会となりました。ご参加くださった皆様、ありがとうございました。
いろいろ確認して,南琉球のアクセント研究では,アクセントの位置を数える単位の意味で「韻律語」という用語を使っており,それは一般的な「韻律語」とは違うのではないかという認識に至った。私が間違ってているのか? ともかく今日,そのことも話すつもり。
「韻律語」という用語が、南琉球のアクセント研究で使われていることは知っているが、本来は形態論の一般的な用語のはずで、そのつもりで自分の発表タイトルに使ったら、南琉球のアクセント研究をしている一部の人には南琉球のようなアクセント単位を指す用語だと誤解されてしまうようだ。「韻律語」ではなく「音韻語」とするかもっと具体的に「名詞+接語」とかにしておけばよかったか。
私の遺産のウェブサイト、某研究会も某講座もどちらもhttps対応してないまま。wiki形式で作ったのがあだになってるかなあ。
広島大学でチューターをしていた学年の卒業生の同窓会のために、2月に6年ぶりに広島に行く予定をたてたら、偶然、山元隆春先生の最終講義も同じ日だとのことで、最終講義の後に同窓会という理想的なスケジュールとなった。
最終講義のお知らせは、「卒業生・修了生のみなさまへ」と始まるメールだった。その枠に入れてもらえるなんて、嫌味ではなく嬉しい。6年ぶりの広島、楽しみだなあ。
サバティカルで半年間だけど奈良田に住んでよかったのは、なんといっても、話者とも他の住民のかたがたとも親密度が格段に増したこと。今は住んでないけど、行事とかの連絡をもらっている。さっきはIさんに電話して、月末の約束をした。お互いに話しかたが前とは明らかに違う。本当にうれしい。
日本音響学会 第155回研究発表会の1日目(3月17日)スペシャルセッション「音声コミュニケーション研究における音声資源の活用と展望 2」において、
山梨県奈良田方言音声データベースの構築
と題して発表(招待講演)を行います。どうぞご参加ください。
acoustics.jp/annualmeetin...
来週は立川某所に2日連続で行くことになった。最近は1年に1回行くかどうかなのにめずらしい。
「奈良田方言の韻律語におけるアクセント実現規則」という題目で、1月20日 (火) 15:10~17:10、NINJALコロキウムで発表します。国語研とオンラインでのハイブリッド開催です。
www.ninjal.ac.jp/events_jp/20...
奈良田の昔話「琴路のこと」の、文字化・注釈を更新しました。
形態素分析・グロス付けを行いました。
#奈良田 #早川町
github.com/KonishiIzumi...
ChatGPT5.2に渡してもらったPythonコードで,ローカル環境で解析できることを確認した。実用に耐えうる。
奈良田ことばの機械可読用の辞書が、1730語ほどになったので、ChatGPT5.2にこんなことをやらせてみている。かなりの精度で形態素解析できる。少なくともELANの補完機能より私にはずっと楽だし、このプロンプトとか辞書を作ること自体が形態論の考察になっているのがよい。ChatGPT5.2はPythonコードを書いて処理しているようなので、それを渡してもらえればローカル環境でも同じことができそうだ。ある程度固めてから、院生のLさんに見てもらうのがよさそう。
Chat GPT 5.2、「先生はアクセント表記(上付き記号等)も扱われると思いますが、」とか、私を「先生」と呼び、尊敬ラレル形を使ってくるのが、気持ち悪い。