山崎誠

教員と研究領域／第2部門（日本語教育学位取得プログラム）

履歴・業績（国立国語研究所研究者プロフィール)

研究室：	国際研究館3階　連携教員室
オフィスアワー：	金曜日15時～17時（前もって以下の連絡先にご連絡下さい）
連絡先：

研究概要とメッセージ

私は日本語の語彙を対象とした実証的・計量的な研究を行っています。ごく単純化して言えば，語の数を数えることから出発して，語彙にとどまらず，文法や，文章・文体などについて，その特徴や構造を明らかにする研究です。

語の数を数えるというと，誰でもできる簡単なことと思われがちですが，そう思う方は「一橋大学大学院言語社会研究科第二部門」が延べ何語でできているか，考えてみて下さい。何通りもの数え方があることに気づくでしょう。

また，語の異なりを数える，異なり語数という数え方もあります。異なり語数は一定の基準を立てて数えないと延べ語数よりもさらにバラツキが出ます。幸い，現在では形態素解析のツールが普及したため，それを使えば一応は同じ結果を得ることができるようになりました。近年のコーパスの普及は形態素解析技術の向上に負うところが大きいのです。

量的な研究と質的な研究は相反するものではなく，補い合う関係にあります。どちらが欠けても研究としては不十分です。質的な構造や言語モデルがあるのと同様に量的な構造や言語モデルも考えることができるでしょう。言語の量的な研究は未解明の点も多く，今後の発展が期待される分野です。

さて，語彙とは語の集まりのことです。語は音韻や文法と違って，扱う数が非常に多いのが特徴です。例えば，日常の話し言葉で良く使う語でも1000語くらいはあるでしょう。『日本語話し言葉コーパス』（CSJ）の摸擬講演では，短単位の頻度順上位1000語で約88％をカバーします（延べ語数の場合）。書き言葉では，『現代日本語書き言葉均衡コーパス』（BCCWJ）の新聞データの場合，上位998語でのカバー率は約72％に過ぎません。CSJの摸擬講演と同じ約88％のカバー率に達するのは上位4600語くらいになります。このような計量的な結果は客観的で有益なデータとして活用することができます。

データから有効な結果を導くためには，統計的な処理が必要になります。人文系の論文でもカイ自乗検定や分散分析，相関係数などを普通に目にするようになっています。記述統計や推測統計の基礎は知っておくべきでしょう。

ゼミではデータに基づく言語研究について実例とともに学びます。また，言語研究に役立つツールの使い方，統計の基礎，プログラミングなども必要に応じて紹介します。数式やプログラミングが出てくると，怖じ気づく人もいるかもしれませんが，要は概念を理解すればよいのであって，細かい部分は知らなくてもかまいません。

みなさんの多くは，大学院に入って初めて本格的に研究活動に向き合うことになると思います。現代の研究活動は，一人では成り立ちません。自分の考えを研究者コミュニティだけでなく，広く多くの人に知ってもらわないといけませんし，研究成果の社会に対する貢献という視点も重要です。研究は，人文系の個人的なものであっても，極めて社会的な活動であると考えるべきでしょう。

研究倫理の問題も避けて通れません。人を相手に行う調査における個人情報の取り扱いや著作権等の権利処理はいわずもがな，二重投稿，データのねつ造・改ざん，盗用など，注意すべき点は沢山あります。詳しくは日本学術振興会のＨＰを参考にして下さい。研究倫理に反すると自分だけでなく周りにも迷惑をかけることになりますので，十分に注意しましょう。

教員紹介

教員と研究領域／第2部門（日本語教育学位取得プログラム）

山崎 誠

研究概要とメッセージ

山崎誠