トーランス・テスト

創造性はどのように測定されるか

創造性の研究は、創造性の優れた尺度の欠如により妨げられてきた。 第5章では、創造性テストのための領域特異性手段に関する研究に関する議論が行われている。 3371>

残念ながら、創造性が最も頻繁にテストされている方法と、多くの創造性テストによって作られた仮定は、創造性がドメイン固有であるかドメイン一般であるかを決定するためにそれらのテストを使用するのに適していない。 たとえ最も広く使われているテストが有効であったとしても(ほとんどの場合そうではありませんが)、単に間違った種類のテストであるため、領域一般性や領域特異性についての疑問を判断するためには、やはり有用ではないでしょう。 この状況は、むしろ、音楽、数学、芸術、運動、言葉の能力が関連しているかどうかを判断するために、スペルテストを使わざるを得ないようなものです。 この5つの能力は関連性があるかもしれませんし、ないかもしれません。そして、関連性があるとすれば、それを探るのに役立つ研究デザインがあります。 しかし、十分に裏付けされた有効なスペルテストであっても、それ自体では、これらの異なる種類の能力間の関連性の可能性に関する質問に答えるにはほとんど役に立たないでしょう。 音楽的、数学的、芸術的、運動的、言語的能力に関する別々のテストのスコアを使用して、これらの能力の間にどんな相互関係があり得るかを探ることができるように、異なる領域における創造性を評価する方法があり、領域の一般性/特異性に関する質問に答えるために使用することができるのである。

発散思考のテストは、長年にわたって創造性の最も一般的な尺度であった。 1984年に発表されたすべての創造性研究のレビューでは、トーランステストは、使用されている唯一の発散思考のテストではありませんが、確かに最も広く使用されており、学生を含むすべての創造性研究の4分の3と、被験者として成人を含むすべての創造性研究の小さいサブセットの40%を占めた(トーランス & プレスベリー、1984)。 トーランス・テストやその他の発散思考テストは、ギルフォード(1956)の知性の構造モデルに基づいており、彼は「発散生産」(自由形式の質問やプロンプトに応答してさまざまなアイデアを考えること)が創造性に大きく貢献すると主張しました。 発散的生産 (これは、ギルフォードも使用した用語である発散的思考と同じ意味です。発散的思考は今日より一般的に使用されている用語です) の定義において、ギルフォードは発散的思考と収束的思考を明確に区別しました:

収束思考試験では、受験者はひとつの正しい答えを導かなければいけません。 一般的に与えられた情報は、正しい答えが1つしかないように十分に構成されています。 口頭での例としては、以下のようなものがあります。 「難しいの反対は何ですか? 発散的思考では、思考者は多くのことを探し回らなければならず、多くの場合、多くの答えがある、あるいは欲しいと思っています。 硬いもの、食べられるもの、白いものなど、思いつくものをすべて挙げるよう出題すれば、出題者はそのようなものをすべて手に入れることができます。 創造的思考や発明において最も重要な能力を見出すことができるのは、発散的思考のカテゴリーなのです。 (Guilford, 1968, p. 8)

Torrance は、その名を冠した Torrance Tests of Creative Thinking が実は発散的思考のテストであり (これらのテストについては後で詳しく説明します)、同様の指摘をしています。

権威による学習には主に認識、記憶、論理推論のような能力が関わっているようですが、ついでに言うとこれらは従来の知能テストや学力指標で最も頻繁に評価されている能力です。 これに対して、創造的な活動や問題解決活動を通じて創造的に学習するには、認識力、記憶力、論理的推理力に加えて、………………………が必要である。 .評価……、発散的生産……、再定義……が必要である。 (Torrance, 1970, p. 2)

発散的思考の4つの側面は、文献で頻繁に言及されています:

流動性は与えられた刺激に対する反応の総数、「任意の一発的思考演習で与えられたアイデアの総数」である。 (Runco, 1999a, p. 577)

オリジナリティとは、与えられた刺激に対する反応の明確さ、”受験者や回答者のアイデアの珍しさ… “のことである。 (Runco, 1999a, p. 577)

柔軟性とは、与えられた刺激に対する反応の異なるカテゴリーや種類の数、より広くは “何かの意味、使用、解釈における変化 “のことである。 (Guilford, 1968, p. 99)

精巧さとは、与えられた刺激に対する自分の反応におけるアイデアの拡張や広がり、”自分の生み出すアイデアの詳細の豊かさ “のことである。 (Baer, 1997a, p. 22)

創造性評価に関する最近の本では、これらを次のシナリオで説明しています:

ある人が特別な日を祝うためにレストランでの社交行事を計画していた場合、候補地のリストを作成したいと思うかもしれない。 彼女は、50 軒のレストランの候補のリスト (高い流暢性)、友人が考えそうにないレストランを含むリスト (高い独創性)、レストランの種類を幅広く含むリスト (高い柔軟性)、インド料理店のみを含み、その地域で考えられるすべてのそうした施設をリストするリスト (高い推敲) を作成することができます。 (Kaufman, Plucker, & Baer, 2008a, p. 18)

初期の創造性テストのほとんどは、基本的に発散思考テストであり、長年、お互いを除いてほとんど競争相手がいなかったのです。 その年功序列が、テストがこれほど広く使われてきた理由の一つでしょうが、それ以外にも利点があったのです。 トーランスを含むIQテストの支持者は、しばしばそのような概念化に反対していたにもかかわらず)、テストは幼児にも簡単に実施でき、その基礎となる発散的思考の考え方は理解しやすく、直感的に強く訴えるものがある(Baer, 1993; Kaufman et al, 2008a; Kim, 2008; Runco, 1999a; Torrance, 1993; Torrance & Presbury, 1984; Wallach & Wing, 1969)。

創造的思考の一要素として概念化された発散思考は、創造性研究者の間では依然として重要な概念で、最も一般的な創造性訓練活動の基礎になっている(ブレインストーミングなどは、ギルフォードの発散生産に関する発見より数年間先を行っているが;ギルフォード、1956;Osborn, 1953)。 発散的思考は領域一般的なものと領域特異的なもののどちらとも考えられるが、領域一般的なスキルという考え方の方がはるかに一般的である。 しかし、創造性が領域固有である限り、発散的思考に関する領域一般の理論は有効ではなく、領域固有バージョンに置き換えなければならない。

領域固有の発散的思考は、自由形式のプロンプトに対して可能な範囲の応答を生成する際に、領域一般の発散的思考とまったく同じ働きをする(そして流動性、柔軟性、独自性、精緻化は領域固有の発散的思考の主要要素であることに変わりない)。 この違いは、ある領域で創造性を発揮する発散的思考力と、他の領域で創造性を発揮する発散的思考力(例, 3371>

発散的思考は、単一の領域全般のスキルではなく、多種多様な領域固有のスキルとして概念化できるため、領域固有性を受け入れたからといって、創造性研究者が発散的思考を創造性に寄与する重要なものとして放棄する必要はないのである。 領域特異性は、発散的思考に関する領域一般的なテストの使用は有効でないと主張するが、創造性研究においてそうであるように、ある特別な目的のために必要であれば、領域特異的なテストを考案し使用することは可能であろう。 領域特異性はまた、人々をより創造的にするために教えなければならない方法を変えますが、第6章の創造性トレーニングで示されるように、そのような創造的思考スキルを直接教える場合でも、領域特異的解釈の下では発散思考は同様に重要である可能性があります。 ある種の発散思考(一般的な領域一般バージョンまたはより最近の領域特有の概念化のいずれか)が創造的思考の一部であることはおそらく事実です。これは経験的な問題で、その答えは領域一般的な発散思考トレーニングとテストの使用によってやや曇らされていますが、過去に時々仮定されてきたように、それが唯一または主要成分であるとはもはや思われません(Amabile、1996; Kaufman, 2009; Kaufman & Baer, 2005a, 2006; Simonton, 2010a; Sternberg, 1999).

残念ながら、最も広く使われている創造性テストのいくつかで基礎となっているのは、発散思考の領域一般バージョンです。 領域特異性は、そのようなテストの使用に疑問を投げかけ、それらのテストに基づいて行われた研究結果の妥当性に挑戦している。 領域の一般性/特殊性に関する研究を行う際に使用する尺度を選択する際、発散思考テストは領域の一般性がテストに組み込まれている前提であるため、特別な問題を提起している。 例えば、トーランス・テストには形象と言語の2種類があるが、どちらも領域一般テストとして日常的に使用されている

2つのトーランス・テストにはそれぞれ様々なサブスコアが報告されている。 これらのサブスコアには長年にわたる様々な変化がありますが、一例として、現在、形象テストでは「5つの精神的特性」と「13の創造的強み」を評価すると謳っています(Scholastic Testing Service, 2013)。 また、総合的な「創造性指数」もありますが、トーランス自身は、自分のテストを単一の数字で解釈することに注意を促しています:

トーランスは、TTCTの複合スコアを使用しないようにしています。 彼は、それぞれの下位尺度スコアが独立した意味を持つため、複合スコアのような単一のスコアを使用することは誤解を招く恐れがあると警告している。 (Kim et al., 2006, p. 461)

トーランスはまた、彼の発散思考の2つの領域別テストが本質的に相関がないことを発見した:

TTCTの言語形式と図形形式への応答は2つの異なる様式で表現されているだけではない …が、それらはまた異なる認知能力を測定しているのです。 実際、Torrance(1990)は、言語テストと図形のテストの成績の間にほとんど相関がない(r = 0.06)ことを発見しています。 (Cramond et al., 2005, pp. 283-284)

しかし、トーランスの警告は聞き入れられないでいます。 発散的思考のさまざまな側面を測定する下位尺度スコアは、特にトーランス・テストの最も活発な利用者である才能/才能プログラムによって、総合的な創造性指数スコアを優先して日常的に無視され(Scholastic Testing Service, 2013)、研究者は現在、総合的な創造性指数が創造能力の最高の予測因子であるとしばしば主張しています(e.g…, Plucker, 1999; Yamada & Tam, 1996)。

トーランスが2種類の領域別発散思考テストを作成し、それらが本質的に直交し、したがって2つの全く異なる能力を測定していることを発見したことは(Cramond et al.2005)、当然、同じ研究において両方のテストを使って、ドメイン一般の創造性を測定するものとして解釈している人たちの問題を引き起こす。 例えば、トーランス・テストの妥当性を検証する目的で行われた最近の研究では、一方のテストは主要な結果指標と相関があったが、もう一方は相関がなかった。 その場合、言語的発散思考の得点は、その研究が創造的成果の証拠とした多くの種類のもの(被験者が創造的成果のチェックリストの中から個人的成果として自己申告したもの)を予測したが、形象的発散思考の得点は予測しなかった。 著者は次のように説明しています:

形態的DTに対する言語的DTの重要性は、成人の創造的業績チェックリストの言語的バイアスに起因している可能性がある。 例えば、創造的成果の大部分が、空間的才能や問題解決の才能とは対照的に、高度な言語的才能を必要とした場合、言語的DTテストは他の形式のDTよりもこれらのタイプの成果に対して有意に高い相関を有すると予想される。 (Plucker, 1999, p.110)

この結果は、まさに領域特異性理論が予測するものである。 異なる領域に根ざした創造性の異なる尺度は、それぞれの領域においてのみ創造的なパフォーマンスを予測することになるのです。 残念ながら、(テストの作成者を含む)この種の発見は、トーランス・テストを販売する人々にその主張を縮小させる要因にはなっていません。 3371>

トーランス・テストのような発散思考テストは、領域一般性を前提としているため、創造性が領域一般的か領域特異的かを検証することを目的とした研究にはほとんど使用できません(たとえテストの結果が、領域一般性の主張にもかかわらず、トーランス自身が提供したように、創造性が領域特異的であるという証拠を提供していても;Cramondら、2005年)。 3371>

幸いなことに、発散思考は、創造性理論やテストにおいてかつて独占していたようなことも、創造性理論家や研究者の間でかつて巻き起こしたような幅広い尊敬も、もはや持っていない。 他の創造性テストも開発され、トーランステスト(および他の発散思考テスト)がかつて持っていたような、ほぼ普遍的な受容を得たものはありませんが、研究ツールとして他の可能性を提供しています。

創造性評価に関する最近の書籍(Kaufman et al: これは、人々が創造したもの(詩、芸術作品、理論、パズル、スフレ、広告、あらゆる種類のパフォーマンスなど、あらゆるものに使用できる)の創造性を専門家が判断するものである。

他者による評価や自己評価では、領域一般性や領域特異性の前提は必要ありませんが、評価の構成方法によって、そのような前提を加えることができます(そして多くの場合そうします)。 建築家としてのXの創造性について尋ねる場合、領域一般性、領域特異性のいずれも仮定されない。 (創造性が実際に領域一般的であるならば、建築におけるXの創造性は、もちろん、Xの創造性一般を語ることになります)。 しかし、建築におけるXの創造性について問うことは、領域一般性を認めるに過ぎず、それを前提とするものではない、また創造性が領域固有であることも同様に認めるのである) しかし、単にXがいかに創造的であるかを問うのであれば、その答えはより一般的にXに適用されることを想定した質問となる。 したがって、一般的な「Xはどれほど創造的か」という質問は領域一般性を仮定しており、創造性がどれほど領域一般的、あるいは領域特有であるかを見極めようとする研究者の助けにはならないのである。 残念ながら、研究者が他人の創造性について質問するほとんどの場合、質問は領域一般的な答えを必要とする方法で組み立てられており、そのため、領域の一般性/特異性に関する論争を解決するのにほとんど役に立ちません。

創造性の自己評価は、(それによって領域一般性を仮定して)一般的に創造性について尋ねることができる点、(一般性/特異性についての仮定をしていない)特定のドメインでの創造性について尋ねることができる点で他人による評価と類似しています。 この種の研究は、(第2章で論じたように)領域の特異性を大いに示す傾向がありますが、この手法には2つの大きな弱点があります。

一般に自己評価、特に創造性の自己評価は、妥当性が制限される傾向があります。 (さらに進んで、妥当性がまったくないと主張する人もいるかもしれませんが、いずれにせよ、非常に限られた妥当性、またはまったく妥当性のない、著しく理想的ではない研究ツールです)

異なる領域で自分の創造性を判断するよう求められると、人は異なる領域で自分を評価する傾向がありますが、このような質問は実際には領域特異性を想定していないものの、その方向へ回答を押しやる傾向があると主張できるのではないでしょうか。 結局のところ、もし創造性が領域全般にわたるものであるなら、なぜさまざまな領域での創造性について尋ねるのでしょうか。 3371>

では、自己評価と他者による評価は、領域の一般性/特異性に関する質問に答える上で特に有用ではありませんでした。 実際、そうする必要がないにもかかわらず、一般的に使用されるすべての乖離思考テスト(トーランスのように、領域に基づいて形象や言語というラベルを付けたものでさえ)はこの仮定をし、領域全般の解釈を促しています。 また、乖離性思考検査は、創造性の尺度としての有効性を示す証拠がせいぜい弱いという問題にも直面している。 すでに述べたように、アメリカ心理学会の第10部門(Psychology of Aesthetics, Creativity and the Arts)が主催した史上初の討論会は、トーランス・テストのような発散思考テストの妥当性についてでした(Baer, 2009; Kim, 2009)ので、未解決問題であることがうかがえます。 (議論のタイトルは、”Are the Torrance Tests of Creative Thinking Still Relevant in the 21st Century?”(創造的思考に関するトーランス・テストは21世紀にも有効か)であった。 ですから、仮に発散思考テストを用いて創造性の領域一般性/特異性を測定する方法が見つかったとしても(例えば、被験者に異なる領域で発散思考テストを行い、その結果を比較する、トーランス自身が行ったことですが、明らかに領域特異性を指摘する結果が出ました;Cramond et al.参照)。 3371>

そうなると、創造性評価のもうひとつの主要な方法であるCAT (Amabile, 1982, 1983, 1996198219831996)が残されることになります。 CATは、現実の世界で創造性が最も頻繁に評価されるのと同じ方法、つまり関連領域の専門家の意見によって、あらゆるレベルの創造性(子供でさえ示すありふれた小さなC創造性であれ、その分野で最もオリジナルで影響力のある思想家のパラダイムを変えるような大きなC創造性であれ)を評価するのです。 ノーベル賞受賞者が、各分野の専門家からなる審査委員会によって、それぞれの分野への貢献の創造性を評価されて選ばれるように、CATは、ある分野の専門家を採用して、その分野の実際の製品の創造性を評価するのである。 芸術、科学、実用のどの分野でも、その基準は不変ではなく、ある時代には創造的と見なされたものが、別の時代には低く評価される(あるいはその逆)かもしれないし、その分野の専門家の資質も変わるかもしれないのだ。 しかし、ある時点における製品の創造性を最もよく見積もることができるのは、その分野の専門家による総合的な評価である。 CAT 評価で創造性の評価を行う専門家は独立して判断を下し、互いの意見に影響を与える機会はありません。 もちろん、審査対象となる作品によって、異なる専門家が必要です。 俳句であれば詩人、詩の評論家、詩の教師が、コラージュであれば芸術家、美術評論家、美術の教師が審査員としてふさわしいでしょう。 各専門家は、調査対象のすべての製品の創造性を、サンプル内の他のすべての製品との関連において、個別に評価するよう求められており、いかなる外部基準との比較においても評価されてはいない。 すべての判定は、判定されるグループ内の他の人工物の創造性との相対的なものである。 審査員は、グループ内の人工物間の比較創造性を区別する目的で、グループ内の最も創造的な人工物を最高得点で、最も創造的でない人工物を最低得点で評価し、全スケールを使用するよう奨励される。 審査員全員(典型的な研究では10~15人)の平均評価を、各作品の創造性スコアとして使用します(Amabile, 1996; Baer, Kaufman, & Gentile, 2004; Kaufman et al., 2008a)。 心理学研究の多くを占める大学生とは異なり、専門家はそれほど自由に利用できるわけではありません。 判定する人工物の種類によって異なる種類の専門家が必要であり、専門家は通常、その仕事に対して報酬を得ている。 いくつかの研究では、ある領域の準専門家(例えば、まだ専門家として認定されていない分野の学生)が、専門家の評価にかなり近い評価を行うことが示されており、これによりコストを多少削減することができる。 しかし、初心者の評価者(大学生など)を使用しても、専門家と同じような評価が得られることはほとんどないため、CATは一般的に、当該分野において少なくとも適度な専門性を有する審査員を必要とし、したがって、創造性評価の他の多くの方法よりも費用がかかる(Kaufman, Baer, & Cole, 2009b; Kaufman, Baer, Cole, & Sexton, 2008b; Kaufman, Baer, Cropley, Reiter-Palmon, & Sinnett, 2013a)。

CATはやや資源集約的ではあるが、その利点は多く、創造性評価の「ゴールドスタンダード」と呼ばれている(Carson, 2006)。 CAT単体での評価の長期安定性は、確立された多項目の発散思考テストのスコアの長期安定性と同等であり(例えば、小学生の被験者では、どちらの場合も1年後のテスト-レテスト相関は0.50台に落ちる)、同じタイプの複数の創造的製品を作成してテスト前とテスト後の両方で判断すると、CAT長期安定性はさらに良い結果を示す(Bauer 1994c; Kogan, 1983)。 また、CATは、発散思考や創造性と関連すると理論化されたサブスキルの他のテストとは異なり、実際の創造的パフォーマンスを評価するため、創造性に関する特定の理論の受け入れや妥当性に依存することはない。 また、CATは、他人や自分自身による創造性の評価を妨げる可能性のあるハロー効果やその他の個人的な偏りを回避することができる。 判定は、ある領域における人工物の創造性について行われるが、CATを使用する際には、創造性の領域特異性または一般性についての仮定は行われない。 第2章では、創造性の領域特異性と一般性に関する研究(その多くがCATを用いた研究)を詳細に検討する。 その結果は、領域の一般性がほとんどないことを示すという点でかなり一貫している。 主な研究手法は、被験者に異なる領域における多くの異なるタスク(例えば、コラージュを作る、詩を書く、物語を書く)を与え、それぞれの領域の専門家のパネルに、CATを使ってそれらの製品の創造性を独立して評価してもらい、異なる領域における評価間の相関を調べるというものであった。 領域一般性と領域特異性という2つの対立する理論は、実際の創造的パフォーマンスに関して異なる予測を立てる。 ある創造性研究者が、これらの予測がどのように異なるかを簡潔にまとめています。

Domain generality は、異なる創造的行動間の高い相互相関によってサポートされるであろう。 (Ivcevic, 2007, p. 272)

まさにこの比較を行った多くの研究で報告された相関は、ゼロ付近を推移する傾向があり (特に知能に起因する分散が除去された場合)、第2章でこの研究を詳細に検討しますが、要約については Baer, 2010, 201320102013 をご覧ください。 例えば、Conti, Coon, and Amabile (1996)は、いくつかの短編小説を書くタスクの創造性評価の相関を0.43から0.87まで、いくつかの異なるアートタスクの間で小さいが、それでも統計的に有意であると報告しています(アートタスクは書くタスクよりも互いに似ていないのでこの結果は予想されたものでした)。 しかし、これらの結果はすべて領域内の相関であり、したがって、領域特異性と領域一般性の両方が予測するように、領域内(短編小説や芸術など)にはある程度の一般性があることを示すに過ぎない。 しかし、統計的に有意な多くの領域内相関とは対照的に、領域特異性にとって重要な13の領域間相関(ライティングとアートの相関)はすべて小さく、正であれ負であれ、統計的に有意なものはひとつもなかった。 3371>

Feist (2004)は、「創造的な人は、自分が選んだどの領域でも創造的になれるというのは、魅力的であり、最終的にはしっかりとしたアメリカの概念である」とコメントしています。 その人がすべきことは、自分の才能と努力をどこに適用するかを決め、たくさん練習したり訓練したりすれば、ほら、創造的な成果が得られるというものです。 この考え方では、才能は領域よりも優先され、どの領域で創造的成果を表現するかは、実に恣意的なのです」。 2

第2章で領域特定性についての証拠と反対意見を検討した後、第3~63456章では、これらの研究結果が創造性理論、創造性研究、創造性テスト、創造性トレーニングに何を意味するかを探り、その後、領域特定性の下でどのような創造性理論が実行可能となるかを見ている。 読者はこれらの各章を順番に読むことをお勧めしますが、多くの読者は1つまたはいくつかの章に特別な興味を持っていることを理解した上で書かれています。 各章を読み飛ばしても、大きな混乱は生じないはずである(ただし、それを可能にするために、重要なアイデアや研究結果を繰り返し説明する必要がある場合もある)。 たとえば、領域特異性を支持する研究証拠にすでに精通している(そして確信を持っている)読者は、第2章のその証拠の包括的なレビューを読み飛ばすことができるだろう。

コメントを残す

メールアドレスが公開されることはありません。