Co-Auftritts-Matrices und deren Anwendungen in der Informationswissenschaft ACA Erweiterung zum Web
Co-Auftritts-Matrices und ihre Anwendungen in der Informationswissenschaft: Ausweitung der ACA auf die Web-Umgebung
Journal of the American Society for Information Science and Technology (JASIST)
Co-Auftritts-Matrizen, wie Kozitation, Co-Wort und Co-Link-Matrizen wurden weit verbreitet in den Informationswissenschaften verwendet. Allerdings haben Verwirrung und Kontroversen um die richtige statistische Auswertung dieser Daten behindert. Das zugrunde liegende Problem, unserer Meinung nach, die Art der verschiedenen Arten von Matrizen zu verstehen. Dieser Beitrag diskutiert, den Unterschied zwischen einem symmetrischen Kozitation Matrix und einer asymmetrischen citation Matrix sowie die entsprechenden statistischen Techniken, die auf jede dieser Matrizen angewendet werden können, respectively. Ähnlichkeitsmaße (wie die Pearson-Korrelationskoeffizient oder Cosinus) sollte nicht auf die symmetrische Kozitation Matrix aufgebracht werden, sondern kann auf die asymmetrische citation Matrix angewendet werden, um die Näherungsmatrix abzuleiten. Das Argument wird mit Beispielen veranschaulicht. Die Studie erstreckt sich dann die Anwendung von Co-Auftritts-Matrix auf die Web-Umgebung, wo die Natur der zur Verfügung stehenden Daten und somit Datenerfassungsmethoden von denen der traditionellen Datenbanken unterschiedlich sind wie der Science Citation Index. Eine Reihe von Daten mit der Google Scholar Suchmaschine gesammelt, analysiert mit sowohl den traditionellen Methoden der multivariaten Analyse und die neue Visualisierungssoftware Pajek, die auf sozialer Netzwerkanalyse und Graphentheorie basiert.
2. Symmetrische Kozitation Matrix vs. Asymmetrische Citation Matrix
2.1 Die symmetrische Kozitation Matrix
Abbildung 1: Kozitation Matrix (symmetrische Matrix)
2.2 Die asymmetrische citation Matrix
Eine alternative Möglichkeit, später citation Daten verwendet, ist eine Matrix, in der Form, in 2 gezeigt konstruieren wir für Autor Kozitation Analyse ein Beispiel der Verwendung dieser Matrix zeigen. In dieser Matrix sind die Reihen unter Berufung auf die Papiere und die Spalten repräsentieren zitierten Arbeiten. So wird Papier A zitiert von Papier 1, 4 und 5, während C von Papier 2 und 3 zitiert wird.
Abbildung 2: Citation Matrix (asymmetrische Matrix)
Abbildung 3: Proximity-Matrix aus den Daten in Figur 2 abgeleiteten
Im Fall der asymmetrischen Matrix (Abbildung 2), werden die genannten Papiere als Attribut der unter Berufung auf Papiere in Betracht gezogen, weil sie in den Referenzlisten der letzteren enthalten sind. Papier A-Aktien zwei von drei seiner Berufung auf Papiere mit Papier D so ihr Koeffizient ist eine Zahl zwischen 0 und 1, das heißt 0,295.
Tabelle 1. Flugmeilen zwischen 10 amerikanischen Städte
Offensichtlich ist dies eine symmetrische Distanzmatrix. Die Daten Maßnahmen Unähnlichkeit. als Je größer die Zahl, die weiter voneinander entfernt sind, die Städte, das heißt, die mehr „unähnlich“ sie in Position sind. Durch diese Matrix in SPSS Eingabe und Auswahl PROXSCAL als Option von MDS, so erhalten wir Abbildung 3, die eine nahezu perfekte Abbildung der relativen Positionen dieser Städte ist (die Positionen sind relativ und die Karte in Bezug auf West und Ost umgekehrt. wegen dieser Relativität der Positionen Allerdings können die Ergebnisse von MDS frei für die Auslegung gedreht werden).
Abbildung 4: MDS-Mapping (PROXSCAL) von zehn amerikanischen Städten der ursprüngliche Distanz Matrix (normalisierte Roh-Stress = 0,0001)
Pearsons r zu den Daten der Tabelle 1 und dann die Landkarte neue Matrix mit MDS Nach der Anwendung, so erhalten wir eine verzerrte Karte der zehn Städte und die normalisierte Roh-Stress dieses Bild sehr hoch ist (0,11341).
Abbildung 5: Abbildung von MDS zehn amerikanischen Städten der Pearson-Korrelationsmatrix der Abstände (normalisieren Roh-Stress = 0,11341) unter Verwendung von
Offenbar hat 5 nicht auf 4 verbessern (die Spannung ist sehr hoch werden). Durch die Verwendung der Pearson-Korrelationen anstelle der Abstände wird die Darstellung verzerrt. Zum Beispiel ist Los Angeles näher an Seattle als San Francisco, während in New York näher Chicago ist als nach Washington, DC Der Pearson-Korrelation normalisiert die Daten mit Bezug auf den Mittelwert, und das Muster der Kookkurrenzen als Variablen, wie durch die Pearson-Korrelation, ist in einigen Fällen verschieden von den Ähnlichkeiten in dem Netzwerk.
3. Ähnlichkeit vs. Unähnlichkeitsmaßen
In früheren Versionen von SPSS, nur die ALSCAL Option verfügbar war (die Unähnlichkeit Maßnahme nur). In diesem Fall wird eine Kozitation Matrix sollte in eine Unähnlichkeit Matrix umgewandelt werden, bevor sie Eingang in SPSS ist. Kruskal - Wish (. 1978, S. 77) klar zum Ausdruck, dass „Wenn die proximities Ähnlichkeiten sind, müssen sie in Unähnlichkeiten‚den Kopf gestellt‘werden, zum Beispiel durch Unähnlichkeit Bildung = (konstant - Ähnlichkeit), wo der Wert der Konstanten ist umsichtig gewählt „Wenn das Ähnlichkeitsmaß zwischen 0 und 1 (beispielsweise das obigen Beispiel der Verwendung von Pearson r die Distanzmatrix von 3 zu erhalten), dann kann die konstante 1 sein, dh Unähnlichkeit =. (1 - Ähnlichkeit). Einer von uns durchgeführten umfangreichen Tests der Formeln gefunden, und dass die Kartierungsergebnisse verwenden Unähnlichkeitsmaßen nach der korrekten Umsetzung von Ähnlichkeit zu Unähnlichkeit, und direkt die Ähnlichkeitsmaße verwenden, sind immer gleich.
4. Ein Beispiel für Autor Co-Zitationsanalyse (ACA)
4.1 Beschreibende Statistik
Von den (469 + 494 =) 963 Dokumente so abgerufen werden, enthalten 902 21813 Referenzen. 279 Datensätze enthalten mindestens eine Kozitation an zwei oder mehr Autoren der Liste von 24 Autoren untersucht.
Es gibt keine Berufung auf Aufzeichnungen, die einen Verweis auf nur einen einzigen Autor in diesem Satz von 279 unter Berufung auf Dokumenten enthalten. Somit kann dies mit gutem Grund als eine Reihe von stark co zitierten Autoren in Betracht gezogen werden. Abbildung 6 zeigt, dass man unter Berufung auf Papier auch co zitierten zehn der Autoren in die Analyse einbezogen.
Abbildung 6: Verteilung von 279 Co-Zitate in Bezug auf die Anzahl der Autoren zusammen zitiert in einem einzigen Dokument unter Berufung auf
Abbildung 7 zeigt die Gesamt Zitate dieser Autoren innerhalb des Satzes von unter Berufung auf Dokumente. Beachten Sie, dass die Szientometrie Autoren haben im Durchschnitt eine Zitationsrate von 44,6 (± 14,8), während die Information Retrieval Forscher einen niedrigeren Durchschnitt von 26,1 haben (± 6,5). Zitationsraten sind feldspezifische, in der Tat.
Abbildung 7. Anzahl der Zeiten jedes der 24 Autoren in den 279 unter Berufung auf Dokumente zitiert
Wenden wir uns nun von diesen deskriptiven Statistiken zu einer Analyse der Daten bewegen.
4.2 Datenanalyse der asymmetrischen Matrix
Tabelle 2 Pearson Korrelationen zwischen den 24 zitierten Autoren auf der Grundlage von 279 unter Berufung auf Dokumenten
Abbildung 8 zeigt die Ergebnisse der asymmetrischen Matrix in PROXSCAL für die MDS eingibt. Die Visualisierung lässt vermuten, dass die Information Retrieval Forscher mehr entlang einer einzigen (fast horizontal) organisiert sind Achse als die scientometricians entlang einer vertikalen. Faktor-Analyse der Matrix bestätigt diese Beobachtung und macht es möglich, das Bild mit einer quantitativen Auswertung zu informieren.
PROXSCAL MDS auf Basis der asymmetrischen Matrix (normalisierte Roh Spannung = 0,044)
Rotierte Komponente Matrix (a)
Extraktionsmethode: Hauptkomponentenanalyse. Rotationsmethode: Varimax mit Kaiser Normalisierungs.
Eine Drehung konvergierten in 7 Iterationen.
Tabelle 3. Faktorenanalyse der asymmetrischen Matrix von 24 Co-Autoren zitiert (N = 279).
Die Faktoranalyse Erlös (per Definition) von der Pearson-Korrelationsmatrix als einen ersten Schritt in der Berechnung dieser Statistiken. Wenn wir die Pearson-Korrelationsmatrix bereitgestellt in Tabelle 2 als eine Ähnlichkeitsmatrix in PROXSCAL eingeben erhalten wir 9.
Abbildung 9:
PROXSCAL MDS auf der Basis der Pearson-Korrelationsmatrix in Tabelle 2 (normiert rohe Spannung = 0,148).
Obwohl dieses Bild uns die gleiche Beobachtung machen können, dass es zwei Gruppen in diese Daten (die Information Retrieval Wissenschaftler auf der linken Seite und die scientometricians auf der rechten Seite), ist das Bild weniger informativ als die vorherige und die Spannung hat sich verschlechtert wesentlich. Die Pearson-Korrelationsmatrix enthält weniger Informationen als die ursprüngliche Attributmatrix wegen der Annahme einer Normalverteilung in der Verteilung ihre Statistik zugrunde liegt. Da unsere Daten nicht normalverteilt ist, so erhält man ein verzerrtes Bild, wenn der Eingang wir die normalisierten Daten in MDS. [3]
Durch Drehen der Matrix ermöglicht die Faktoranalyse uns die darunter liegende Struktur trotz der Annahmen über die Normalität in der Verteilung gemacht abzurufen (Kim - Mueller, 1978).
Darüber hinaus ermöglicht die Faktoranalyse uns zu den Eigenvektoren der Matrix ein Streudiagramm nach der Optimierung der Pearson-Korrelationen mit Bezug zu ziehen. Die entsprechende Darstellung in drei Dimensionen veranschaulicht die große Trennung zwischen den zwei Gruppen und den feinen Strukturen in jedem von ihnen.
Faktor Diagramm der asymmetrischen Matrix in gedrehten Raum unter Verwendung von drei Faktoren (Varimax Rotation; Kaiser Normalisierung).
4.3 Kozitation Matrix
Abbildung 11. PROXSCAL auf Kozitation Daten (als Ordnungsdaten verwendet; Spannung = 0,04).
Wenn wir wenden diese Technik auf die Matrix Pearson-Korrelation auf der Basis der Kozitation als Eingabe-wie in der üblichen Praxis ist ACA-Abbildung erhalten wir 12:
PROXSCAL auf der Matrix Pearson-Korrelation basierend auf Kozitation Daten (Spannung = 0,148).
4.4. Soziale Netzwerkanalyse
Diese unterschiedliche Definition macht keinen Unterschied für die Zuordnung machen, weil die Visualisierungsalgorithmen in Pajek-ein Programm, das mehr oder weniger zum Standard für Netzwerk hat alle Werte zunächst auf binäre Werte (Einsen und Nullen) Visualisierungs reduziert und nur ermöglicht danach den Benutzer die Werte durch die Verwendung variabler Leitungsgrößen zu visualisieren. [6] Figur 13 zeigt eine Darstellung der Kookkurrenzmatrix Pajek und die Feder-basierten Algorithmus von Kamada Verwendung - Kawai (1989). Dieser Algorithmus reduziert die Belastung in der Darstellung im Hinblick auf die Suche nach dem Energiegehalt des Federsystems zu minimieren. Es kann als gleichwertig mit nichtmetrischen multidimensionalen Skalierung berücksichtigt werden.

Abbildung 13: Co-Auftritts-Matrix Pajek für die Visualisierung mit
5. Die Erweiterung des ACA Internet Research

Kookkurrenzmatrix Pajek zur Visualisierung verwendet.
Obwohl sich die beiden Gruppen in dieser Darstellung wieder sehr sichtbar sind, erhält Van Raan die Position einer Nabe, die beiden Teilnetze beziehen. Einige der Information Retrieval Wissenschaftler haben keine Sicht auf das Web, aber einige der anderen sind fester als die scientometricians verbunden. Innerhalb der Szientometrie Gruppe können wir Van Raan sehen in erster Linie auf einer niederländischen Gruppe zeichnen, während die „ungarische“ Gruppe auch ein relativ starken Verwandtschafts aufweist.
Drei-Faktor-Plot von Co-Auftritts-Datei basierend auf Google Scholar Suche
Diese Interpretationen können durch die Faktoranalyse informiert. 15 veranschaulicht die Ergebnisse. Ein erster Faktor (nur 11,25% der Varianz in dieser Matrix erklärt) wird wieder von Croft und Van Rijsbergen angeführt. Dieses Set enthält jedoch auch eine Teilmenge der scientometricians. Der zweite Faktor (8,37%) kann als „Leiden“ -Faktor in Betracht gezogen werden, während der dritte Faktor (6,47%) mit einer (ehemaligen) Budapest-Adresse als die Gruppe von scientometricians unterschieden werden. Dieses Muster unterscheidet sich etwas von dem Muster in 10 gezeigt, die auf der ISI citation Daten beruhen, weil die institutionelle Komponente in Abbildung 15 verstärkt wird.
6. Schlussfolgerungen und Diskussion
Co-Auftritts-Matrizen, wie Kozitation, Co-Wort und Co-Link-Matrizen wurden weit verbreitet in der Informatik Forschung. Allerdings bleibt Verwirrung und die richtige statistische Analyse über angewendet werden. Ein Grundproblem ist im Verständnis der Natur der verschiedenen Arten von Matrizen. Dieses Papier hat, die Unterschiede zwischen den symmetrischen Kozitation Matrix und der asymmetrischen citation Matrix sowie die entsprechenden statistischen Techniken diskutiert, die mit diesen Matrizen angewendet werden können. Es kommt zu dem Schluss, dass der Pearson-Korrelationskoeffizient soll nicht auf eine symmetrische Kozitation Matrix aufgebracht werden, sondern kann auf die asymmetrische citation Matrix, um die Näherungsmatrix abzuleiten angewandt werden, die für die Analyse wie multidimensionale Skalierung erforderlich ist. Das Papier auch eine klare Unterscheidung zwischen Ähnlichkeit und Unähnlichkeit Matrizen und wir haben gezeigt, wie sollten sie definiert werden, wenn statistische Software wie SPSS verwenden. Beispiele wurden verwendet, unsere analytischen Argumente zu unterstützen.
Die Studie erweitert die Anwendung von Co-Auftritts-Matrizen an den Web-Umfeld, in dem die Art der verfügbaren Daten und somit Datenerfassungsmethoden von denen der traditionellen Datenbanken unterschiedlich sind wie diejenigen des ISI. Eine Reihe von Daten mit Hilfe der Google Scholar Suchmaschine gesammelt wurde mit beiden Analysen traditionellen Faktor analysiert und die neue Visualisierungssoftware Pajek, die auf soziale Netzwerkanalyse basiert. Die Einschränkungen bei der Analyse Pajek Kookkurrenz Matrices wurden aufgezeigt. Der einzige Zweck dieses Papiers ist es, Fragen zu klären, die Natur rund um und die Anwendung von Co-Auftritts-Matrizen und damit zur Weiterentwicklung dieses Bereichs der Informationswissenschaft beizutragen.
Burt, R. S. (1982). In Richtung einer Strukturhandlungstheorie. New York, usw. Academic Press.
Davison, M. L. (1983). Multidimensionale Skalierung. New York: John Wiley.
Garfield, E. (1979). Citation Indexing: Seine Theorie und Anwendung in Wissenschaft, Technologie und Geisteswissenschaften. New York: John Wiley.
Jones, W. P. - Furnas, G. W. (1987). Bilder von Relevanz: Eine geometrische Analyse von Ähnlichkeitsmaße. Journal of the American Society for Information Science, 36 (6), 420-442.
Kamada, T. - Kawai, S. (1989). Ein Algorithmus für den allgemeinen ungerichtete Graphen zeichnen. Information Processing Letters, 31 (1), 7-15.
Kim, J.-O. - Müller, C. W. (1978). Faktorenanalyse, statistische Methoden und praktische Probleme. Beverly Hills, usw. Sage.
Kruskal, J. B. - Wish, M. (1978). Multidimensionale Skalierung. Beverly Hills, usw. Sage.
Leydesdorff, L. (1987). Verschiedene Methoden zur Kartierung der Wissenschaft. Scientometrics 11, 291-320.
Leydesdorff, L. (1989). Worte und Co-Worte als Indikatoren für Intellectual Organisation. Forschungspolitik, 18 (4), 209-223.
Schiffman, S. S. Reynolds, M. L. - Young, F. W. (1981). Einführung in die multidimensionale Skalierung: Theorie, Methoden und Anwendungen. New York / London: Academic Press.
Siegel, S. - Castellan, N. J. Jr. 1988 Nichtparametrische Statistik für die Verhaltenswissenschaften. New York: McGraw-Hill.
Klein, H. - Sweeney, E. (1985). Clustering des Science Citation Index Verwendung Co-Citations I. Ein Vergleich der Methoden. Scientometrics 7, 391-409
Weiß, H. D. - Griffith, B. (1981). Autor Kozitation: Eine Literatur mesaure geistigen Strukturen. Journal of the American Society for Information Science. 32 (3), 163-171.