Untitled Document

Frank Dulisch

Sozialwissenschaftliche Aspekte der Personalbeurteilung - veröffentlicht in: Verwaltung und Management, Heft 1/1999

1. Aktueller Stand der Beurteilungsrichtlinien

Aktuell werden in vielen Bereichen des öffentlichen Dienstes neue Beurteilungsrichtlinien eingeführt.Im Bundesbereich ist die Einführung von Richtwerten zumeist der Anlaß für diese Neuerungen. In der Bundeslaufbahnverordnung heißt es nun in § 41a Abs. 3 : "Der Anteil der Beamten einer Besoldungsgruppe oder einer Funktionsebene, die beurteilt werden, soll

bei der höchsten Note 15 v. H.

und bei der zweithöchsten Note 35 v. H. nicht überschreiten.

Ist die Bildung von Richtwerten wegen zu geringer Fallzahlen nicht möglich, sind die Beurteilungen in geeigneter Weise entsprechend zu differenzieren."

Die neue Beurteilungsrichtinie, die das BMI für seinen nachgeordneten Bereich erlassen hat, soll hier exemplarisch betrachtet werden. Diese von dem "Dienstrechts-Ministerium" erarbeitete Richtlinie wird von vielen anderen Dienstherrn als ein besonderer Bezugspunkt bei der Reform der eigenen Richtlinien genutzt.

Bereits heute ähneln sich viele neu erlassene Beurteilungsrichtlinien des öffentlichen Dienstes. Durchgesetzt hat sich beispielsweise die Trennung der Beurteilung in eine Leistungsbeurteilung und eine Befähigungsbeurteilung. Bei der Leistungsbeurteilung werden einzelne Leistungsaspekte, wie Qualität, Quantität, die Kundenorientierung, die Selbständigkeit und die Führungsqualität des Handelns, jeweils gesondert mit Noten bewertet. Die Leistungsbeurteilung entscheidet über die Gesamtnote der Beurteilung.

Die Befähigungsbeurteilung besteht aus einem Profil eher allgemeiner Persönlichkeitsmerkmale, die besonders für künftige Verwendungsentscheidungen von Bedeutung sein können. Bewertet werden hier z. B. die Auffassungsgabe, die Genauigkeit, das Verhandlungsgeschick oder der Ideenreichtum. Einzelne Behörden, wie z. B. die Bundesanstalt für Arbeit, trennen die zukunftsorientierte Potentialeinschätzung zeitlich von der Leistungsbeurteilung ab. Neben dem Urteil der Vorgesetzten werden auch zunehmend Assessment-Center als Informationsquelle für die Potentialeinschätzungen von Mitarbeitern genutzt.

An der Beurteilung sind in der Regel der Vorgesetzte des Mitarbeiters als Erstbeurteiler und der nächsthöhere Vorgesetzte als Zweitbeurteiler beteiligt. Die abschließende Festlegung der Endnote erfolgt durch den Zweitbeurteiler. Dem Zweitbeurteiler kommt dabei insbesondere die Aufgabe zu, die einheitlichen Beurteilungsmaßstäbe bei den Erstbeurteilern sicherzustellen. Die Verpflichtung der Beurteiler zu Abstimmungsgesprächen vor der Beurteilung sowie zu Beurteilerkonferenzen bei der Überschreitung der Richtwerte soll ebenfalls zu einer Angleichung der Beurteilungsmaßstäbe beitragen.

2. Das Problem der Gültigkeit der Beurteilung

Die Leistung des Mitarbeiters an seinem Arbeitsplatz steht im Mittelpunkt der Beurteilung. Die Bestnote gibt beispielsweise heute darüber Auskunft, daß der Mitarbeiter "die Anforderungen im besonderen Maße übertrifft" und damit "weit über Durchschnitt" liegt: In der bis dahin geltenden Richtlinie im Geschäftsbereich des BMI war die Spitzennote reserviert für Beamte, "... die nach Gesamtleistung und Gesamtpersönlichkeit die mit gut bewerteten Beamten überragen." Indem vage Begriffe, wie "Gesamtpersönlichkeit" aus den Beurteilungsrichtlinien zurückgedrängt werden, wird deutlicher, wofür die Beurteilungsnoten ihre Gültigkeit beanspruchen: die gezeigten Leistungen am Arbeitsplatz in einem bestimmten Zeitraum.

Unter Leistung kann der Beitrag des einzelnen zum Erreichen der Organisationsziele verstanden werden. In Organisationen ist damit die Leistung des einzelnen immer nur im jeweiligen Organisationszusammenhang erfaßbar. Im Idealfall ist ein konzipiertes Zielsystem mit Ober- und daraus abgeleiteten Unterzielen verfügbar, an dem die Leistungsbeiträge des einzelnen zu messen sind. Dieses bedeutet zugleich: Da in vielen Behörden bis dahin die Ziele nur sehr allgemein und wenig meßbar formuliert sind sowie Zielformulierungen und -vereinbarungen bis hinunter auf die Ebene des Einzelnen fehlen, wird die Bewertung der individuellen Leistungen erschwert.

Die Leistungsbeurteilung beginnt mit einer Aufzählung der zentralen Tätigkeiten des Mitarbeiters. Die gewünschte Konzentration auf 5 Tätigkeiten, wie sie die BMI-Beurteilungsrichtlinie fordert, konkretisiert den Gültigkeitsbereich der Leistungsbeurteilung. Anhand eines jeden Leistungsmerkmals ist für die in der Tätigkeitsbeschreibung aufgeführten Tätigkeiten zu prüfen, inwieweit der Beamte den Anforderungen des Arbeitsplatzes gerecht wird. Für die Bildung der Gesamtnote können dann die einzelnen Leistungsmerkmale je nach ihrer Bedeutung für den Arbeitsplatz gewichtet werden. Diese Möglichkeit der Gewichtung trägt mit dazu bei, die Anforderungen am konkreten Arbeitsplatz in den Mittelpunkt der Leistungsbeurteilung zu stellen. Indem die Mitarbeiter sich mit dem Vorgesetzten über die Gewichtung einzelner Leistungsmerkmale austauschen, erhält die Beurteilung zugleich eine Führungsfunktion: Dem Mitarbeiter wird deutlich, worauf es bei seinem Arbeitsplatz in besonderer Weise "ankommt" - z. B. auf die Kundenorientierung oder die Rechtmäßigkeit, auf die Qualität oder die Quantität.

3. Der Vergleichsmaßstab

Die Beurteilung des Mitarbeiters erfordert eine Notenzuordnung. Es ist hilfreich, sich die dabei möglichen Bezugspunkte vor Augen zu führen:

Sozialer Bezugspunkt mit einem Vergleich zwischen einzelnen Mitarbeitern:

Das Rangordnungsverfahren bringt die Mitarbeiter in eine Rangreihe. Leitende Frage bei der Beurteilung ist, ob die Leistung einer Person besser oder schlechter ist als die der anderen Beurteilungskandidaten. Ergebnis ist eine interne "Bundesligatabelle" in bezug auf die Leistung. Es werden nur Rangplätze ausgewiesen; eine Zuordnung zu Noten findet nicht statt. Bei der Quotierung von Noten handelt es sich um ein modifiziertes Rangordnungsverfahren. Während bei dem Rangordnungsverfahren jeder Platz nur einmal vergeben werden kann, ist es hier möglich, gleich gute Personen mit der gleichen Note zu bewerten.

Absoluter Maßstab mit vorab festgelegten Notenzuordnungen für meßbare Leistungen: Dabei bestimmen vorab festgelegte Anforderungen die Notenzuordnung. Beispiel: Wer 900 Beratungen im Jahr schafft, erhält bei dem Kriterium Arbeitsmenge die beste Note, wer 800 schafft die zweitbeste. Viele Leistungen und insbesondere ihre Qualitäten sind im Verwaltungsbereich nicht meßbar. Andererseits: Im Rahmen der Verwaltungsreform werden zunehmend meßbare Qualitätsindikatoren für "Verwaltungsprodukte" aufgestellt (z. B. Messung der Wirtschaftlichkeit des Handelns durch quantifizierte Einsparungen).

Freies Einstufungsverfahren als Mischform: Jeder Mitarbeiter wird daran gemessen, wie er den konkreten Anforderungen seines Arbeitsplatzes gewachsen ist. Dabei fließen bei dem Beurteiler auch Einschätzungen und Erfahrungen darüber ein, wie andere Personen mit diesen Anforderungen zurecht kommen und welche Leistung man von einem "durchschnittlichen" Mitarbeiter verlangen kann. Diese Eindrücke werden vordefinierten Noten zugewiesen, wobei die Noten

zum einen von der Sache definiert sind ("entspricht den Anforderungen in jeder Hinsicht")

und zum anderen soziale Vergleichsaussagen beinhalten ("hervorragende" oder "durchschnittliche" Leistungen).

Im Rahmen der neuen Beurteilungsrichtlinien wendet der Erstbeurteiler vorrangig das auf seinen persönlichen Erfahrungen basierende freie Einstufungsverfahren an; der Zweitbeurteiler ist durch die Richtwertvorgaben und die größere Anzahl der zu beurteilenden Mitarbeiter stärker gezwungen, relative Maßstäbe zugrundezulegen, Rangreihen zu bilden und diese in die Quote umzusetzen.

4. Richtwertvorgaben

4.1 Begründungen und Umsetzungen

Als Begründung für diese Richtwertvorgaben wird in der juristischen Literatur, aber auch in Urteilsbegründungen häufig der Bezug zu der Gaußschen Normalverteilung hergestellt. Quantitative Verteilungen natürlicher Ereignisse stellen sich demnach in Form einer typischen Glockenkurve dar. Diese Verteilungskurve bezieht sich auf "natürliche" Ereignisse - wie z. B. die Schuhgröße von Menschen. Es läßt sich bezweifeln, ob es sich bei der personellen Zusammensetzung einer Behörde um ein "natürliches Ereignis" handelt. Die Zulässigkeit, diese "mathematischen Gesetzmäßigkeit" auf Beurteilungen zu übertragen, kann so grundsätzlich in Frage gestellt werden. Trotz aller theoretischer Einwände findet der "Erfahrungssatz", daß mittlere Leistungswerte relativ häufig besetzt sind, in Seminaren eine breite Akzeptanz. Je mehr man sich den extremen Randwerten nähert, um so seltener treten sie auf - ausreichend große Personenanzahlen vorausgesetzt.

Dem steht die Beobachtung entgegen, daß in manchen Behörden bis dahin geradezu eine "unnatürliche" Bestnoten-Inflation bei den Beurteilungen herrschte. Indem die Mehrzahl der Mitarbeiter als "herausragend" oder als "sich hervorhebend" beurteilt wurden, werden sogar die Gesetze der sprachlichen Logik außer Kraft gesetzt. In anderen Behörden erweckte eine alles dominierende Massennote den Eindruck, daß Leistungsunterschiede zwischen Mitarbeitern kaum vorhanden sind.

Die Orientierung an sozialen Vergleichsmaßstäben bringt es mit sich, daß Personen nun auch unterdurchschnittliche Leistungen attestiert werden müßten. Hiervon schreckt man zurück: So werden häufig, wie auch in der BLV geschehen, nur die überdurchschnittlichen Noten durch Richtwerte quotiert; unterdurchschnittliche Leistungen werden nach der gängigen Beurteilerpraxis nur in sehr seltenen Ausnahmefällen attestiert. Leistungen, "die nicht den durchschnittlichen Anforderungen entsprechen", haben nach § 27 III Bundesbesoldungsgesetz ein Verbleiben in der Alters- bzw. neuerdings "Leistungsstufe" zur Folge. Diese Sanktionierung verstärkt eher noch das Ausblenden unterdurchschnittlicher Leistungen.

Auch bei den Notendefinitionen findet man diese Tendenz zu einer verbalen Schönfarberei. Die neue Notenskala im Geschäftsbereich des BMI verdeutlicht diesen Spagat zwischen dem verbalen Schulterklopfen und der rechnerischen Logik deutlich. Wenn man die Richtwerte einhält und 15 % sowie 35 % für die beiden oberen Noten vergibt, verbleiben lediglich 50 % für die Note 6 und schlechter. Dieses heißt zugleich: Diese Notenstufe 6 ist damit - nicht wie beschrieben - eine durchschnittliche Beurteilung, sondern in der Regel bereits eine unterdurchschnittliche Beurteilung.

9 weit über Durchschnitt
(Richtwert 15%)
übertrifft die Anforderungen in besonderem Maße

8
7
über Durchschnitt
(Richtwert 35%)
übertrifft die Anforderungen

6
5
4
Durchschnitt entspricht den Anforderungen in jeder Hinsicht

3
2
unter Durchschnitt entspricht im allgemeinen den Anforderungen

1 weit unter Durchschnitt entspricht nicht den Anforderungen

Abb. 1: 5 Noten - 9 Notenstufen: der neue Maßstab für die Leistungsbeurteilung gemäß der Richtlinie des Bundesministeriums des Innern (graphische Umsetzung F. D.).

Die im Bundesbereich neuen Richtwertvorgaben werden in der Mitarbeiterschaft stets heftig diskutiert. Eine Übersicht über das Für- und Wider von Richtwerten vermag diese Diskussion versachlichen.

4.2 Argumente für die Richtwertvorgaben:

Richtwerte tragen zu einem einheitlichem Maßstab sowohl innerhalb einer Behörde als auch zwischen unterschiedlichen Behörden bei. Die Notenverteilungen und die Durchschnittsnoten, die beispielsweise in unterschiedlichen Abteilungen bzw. Behörden vergeben werden, gleichen sich an. Jeder Leser von Personalakten weiß zukünftig, daß jemand der mit der besten Note beurteilt worden ist, zu den 15 % von Mitarbeitern mit der besten Beurteilung innerhalb seiner Vergleichsgruppe zählt.

Sie sichern die Leistungsauswahl, indem sie die Beurteiler zwingen, leistungsmäßig über mehrere Noten zu differenzieren. Durch die neuen Leistungszulagen des "Reformgesetzes" gewinnt die Aufgabe einer behördeninternen Leistungsdifferenzierung an Bedeutung.

Richtwerte wirken der Tendenz zur Milde entgegen: Die Tendenz zur Milde in Personalbeurteilungen entsteht beispielsweise dadurch, daß der Vorgesetzte sein Verhältnis zu den Mitarbeitern nicht durch Beurteilungsstreitigkeiten belasten will.

Je länger ein Beurteilungsverfahren installiert ist - so die Erfahrungen -, um so besser werden die Beurteilungen insgesamt. Dieses hängt damit zusammen, daß einmal bewertete Mitarbeiter häufig in der Folgebeurteilung besser und nur sehr selten schlechter beurteilt werden. Dieser Tendenz zur Notenanhebung wird durch die Richtwerte dauerhaft begegnet.

4.3 Argumente gegen die Richtwertvorgaben:

Lediglich bei großen Zahlen wird sich bei natürlichen Ereignissen eine Art Glockenverteilung einstellen. Es ist daher allgemeiner Konsens, daß die Quotierungen nur bei einer ausreichend großen Zahl von Mitarbeitern sinnvoll eingesetzt werden kann. Die geforderte Größe der Vergleichsgruppen variiert zwischen 10 Personen und 30 Personen in den Beurteilungsrichtlinien.

Eine Beeinträchtigung des Vorgesetzten-Mitarbeiter-Verhältnisses wird insbesondere dann auftreten, wenn die Anwendung von Richtwerten zu einer Verschlechterung der Durchschnittsnoten führt.

Richtwerte können die Beurteiler dazu verleiten, zuerst die Gesamtnote festzulegen. Dieses widerspricht der in den Richtlinien verankerten analytischen Vorgehensweise, bei der ausgehend von der Bewertung einzelner Leistungsaspekte ein Gesamturteil entsteht. Zuweilen berichten Behördenvertreter mit Quotierungserfahrungen, daß diejenigen, die die besten Gesamtnoten erhalten, quasi vorab in gemeinsamen Besprechungen aller Erstbeurteiler mit dem Zweitbeurteiler festgelegt und die Einzelnoten dann nur noch stimmig gemacht werden.

Angenommen, eine Behördenleitung entschließt sich, alle ihre Führungskräfte intensiv zu schulen, um die Qualität ihrer Arbeit auf ein neues Niveau zu heben. In der nächsten Regelbeurteilung wird sich diese übergreifende Personalentwicklungsmaßnahme aber - wenn die Richtwerte zuvor voll ausgenutzt worden sind - nicht in einer besseren Gesamtbewertung niederschlagen. Unabhängig von dem tatsächlich erreichten Leistungsniveau ist der Notenspiegel quasi durch die Richtwerte bereits vorgegeben.

Die Durchsetzung von Richtlinien ist mit einem vermehrten Abstimmungs- und Verwaltungsaufwand verbunden. Dieses widerspricht dem Bemühen, die interne Verwaltungstätigkeiten zu verschlanken.

5. Das Spannungsverhältnis zwischen Selbstbeurteilung und Fremdbeurteilung

Jeder Mensch besitzt ein Selbstbild über seine persönlichen Leistungen. Günstigenfalls im Beurteilungsvorgespräch, aber spätestens bei der Eröffnung treffen Selbst- und Fremdeinschätzung aufeinander. Es stellt sich die Frage, wie der Mensch seine Person und seine Leistungen auf der durch die Richtwerte betonten sozialen Differenzierungsskala "überdurchschnittlich - durchschnittlich - unterdurchschnittlich" einzuordnen vermag.

Die Selbstwahrnehmung der eigenen Person geschieht nach besonderen psychologischen Gesetzmäßigkeiten. Zur Verdeutlichung dieses Sachverhalts bitte ich die Seminarteilnehmer, ihre eigene Person anhand von bestimmten Leistungsmerkmalen zu bewerten. Ca. 70 % der Personen schätzen sich bei sozial erwünschten Merkmalen wie Auffassungsgabe, Kooperationsfähigkeit, Lernfähigkeit oder Kreativität als überdurchschnittlich ein. Besonders deutlich wird dieses bei dem Merkmal Humor. 90 % der Seminarteilnehmer/-innen schätzen sich als überdurchschnittlich humorvoll ein. Das Selbstbild des Menschen wird demnach auch durch das Wunschbild ("Wie möchte ich gerne sein?") geprägt. Diese rosarote Brille, durch die man die eigene Person betrachtet, hat durchaus etwas Positives. Menschen mit einem ausgeprägten "illusorischen Wohlgefühl" sind insgesamt mit ihrem Leben zu-friedener und psychisch stabiler.

Interessanterweise scheint das Ausmaß auch davon abhängig zu sein, mit welchem Begriff die Mitte auf der Beurteilungsskala bezeichnet wird. In einer Selbsteinschätzung wurde ein Teil einer Seminargruppe aufgefordert, ihre Persönlichkeitsmerkmale auf der Skala

sehr ausgeprägt - durchschnittlich - weniger ausgeprägt;

eine andere Seminargruppe auf der Skala

sehr ausgeprägt - normal - weniger ausgeprägt einzuschätzen.

Demnach meiden die Menschen die Eigencharakterisierung "durchschnittlich", der Trend zur überdurchschnittlichen Bewertung war hier deutlich größer ausgeprägt. Bei der Konstruktion von Beurteilungsmaßstäben sollte demnach der Begriff "durchschnittlich" durch Begriffe wie "normale" bzw. "mittlere" Ausprägung ersetzt werden.

Einer Gruppe von 20 Personen wurde das Prinzip der 360° Beurteilung erläutert, bei der die Kollegen, die Abnehmer der Leistungen und die Vorgesetzten in die Beurteilung eines Mitarbeiters mit einbezogen werden. Anschließend wurden sie aufgefordert, Personen namentlich aufzuschreiben, die in der Lage sind, ihre beruflichen Leistungen realistisch zu beurteilen. Hierfür hatten die Personen eine Minute Zeit. Nach einem Tag wurden dieselben Personen aufgefordert, die Personen aufzuschreiben, deren berufliche Leistungen sie glauben, realistisch beurteilen zu können. Für die Beantwortung dieser Frage hatten die Befragten wiederum eine Minute Zeit. Bei der eigenen Beurteilungsfähigkeit wurden im Durchschnitt 3 Personen genannt; aber nur 2 Personen wurde zugebilligt, daß sie die eigenen beruflichen Leistungen beurteilen können.

Fassen wir zusammen: Der Mensch bewertet seine eigenen Leistungen eher durch eine "rosarote Brille", er vertraut auf seine eigene Urteilsfähigkeit und mißtraut tendenziell der Urteilsfähigkeit anderer. Zu diesen anderen ist auch der jeweilige Vorgesetzte zu rechnen.

Unterschiede in der Art, wie wir uns selbst und wie wir andere beurteilen, scheinen demnach "natürlich" zu sein. Es wird der Sache nicht gerecht, wenn Diskrepanzen zwischen Selbst- und Fremdeinschätzungen als individuelles Versagen charakterisiert werden. Beurteiler und der Beurteilte sollten sich stets der Subjektivität ihrer Urteile bewußt sein, insbesondere solange diese sich nicht auf "harten" Zahlen begründen lassen. Charakterisierung von Urteilen als "falsch" und "richtig" oder die Abwertung des Fremdurteils mit den Worten "Da überschätzen Sie sich aber erheblich" sind der Sache nicht angemessen.

Die Abgleichung von Fremd- und Selbsturteilen ist ein interessanter Aspekt der Personalführung, insbesondere um die Übereinstimmung der Zielsysteme und damit der Erfolgskriterien für die eigene Arbeit abzugleichen. Für die "Wahrheitsfindung" im Beurteilungsverfahren ist sie aber nur bedingt brauchbar.

6. Die Beurteilungsfehler

Die Thematik, wie Menschen andere Menschen wahrnehmen und welche Fehlertendenzen hierbei entstehen können, fehlt in keiner Beurteilungsschulung. In diesem Aufsatz wird eine Differenzierung zur Diskussion gestellt, in der unterschieden wird zwischen

Beurteilungstäuschungen, bei denen einem quasi das Auge bzw. unser Gedächtnissystem "betrügt",

Beurteilungsverzerrungen, bei denen der Beurteiler mit einem gewissen Grad an Bewußtheit bei dem einen Mitarbeiter einen wohlwollenderen Maßstab anlegt und bei dem anderen Mitarbeiter einen kritischeren Maßstab,

und dem strategischen Beurteilen, bei denen zwar eine Differenzierung in der Beurteilung vorgenommen wird, wobei diese aber nach leistungsfremden Gesichtspunkten erfolgt.

6.1 Beurteilungstäuschungen

Ausgangspunkt der Beurteilungstäuschungen sind in der Regel experimentell gewonnene Forschungsergebnisse aus der Sozialpsychologie, die sich mit dem Phänomen interpersoneller Wahrnehmung beschäftigen.

Erster Eindruck: Der Mensch trifft in der Regel innerhalb weniger Sekunden eine Einschätzung über Sympathie oder Antipathie des Gegenübers. Dieser Eindruck wirkt sich auf die Interaktion aus und kann "zu sich selbst erfüllenden Prophezeiungen" führen. Personen mit ähnlichen Merkmalen (z. B. gleiche Universität, gleiche Geburtsstadt etc.) werden positiver eingeschätzt.

Milde-Effekt: Der Vorgesetzte will seinen Mitarbeitern nicht "weh tun"; er befürchtet Motivationseinbußen durch realistische Beurteilung. Leitsprüche moderner Führungsseminare wie " "Wenn wir die Menschen nehmen, wie sie sind, so machen wir sie schlechter; wenn wir sie behandeln, als wären sie, was sie sein sollten, so bringen wir sie dahin, wohin sie zu bringen sind" (Goethe: Lehrjahre VIII 4) legitimeren das Tragen der "rosaroten Brille" als Merkmal einer "positiv denkenden" Führungskraft.

Selbstbezug: In jede Beurteilung gehen auch eigene Maßstäbe ein oder wie Sprenger schreibt: "Jede Beurteilung ist Selbstbiographie." Ein Vorgesetzter, der sehr viel Wert auf ein genaues Arbeiten ohne Flüchtigkeitsfehler legt und der diesen Anspruch auch an sich selbst stellt, neigt dazu, auch an die Kollegen hier einen engeren Maßstab anzulegen. Anderes Beispiel: "Ich lege Wert auf Fleiß", kann schnell zu der Einstellung führen "Fleißiger als ich kann keiner sein":

Tendenz zur Mitte: Dort, wo Personen in der schriftlichen Beurteilung unsicher sind, neigen sie zur Mitte, dorthin, "wo man am wenigsten falsch machen kann."

Kontrast-Effekt: Die Umgebung prägt die Wahrnehmung, wobei unser Auge dazu neigt, Unterschiede überzubetonen. Die Richtwertvorgaben "legitimieren" in gewisser Weise sogar diesen Wahrnehmungsfehler.

Abb 2: Welcher Innenkreis erscheint größer?

Halo-Effekt: Ein besonderes Merkmal (oder eine besondere Fähigkeit) überstrahlt alle anderen. Die Kleidung, das Auftreten oder die sprachliche Gewandtheit etc. "blenden" den Beobachter.

Nikolaus-Effekt: Die letzten Eindrücke sind besser im Gedächtnis verfügbar und bestimmen das Beurteilungsergebnis. Auch der Nikolaus erinnert die Kinder meist nur an die Sünden aus der kürzeren Vergangenheit, auch wenn das dicke goldene Buch eine kontinuierliche "Leistungserfassung" vortäuscht. Aus dem schulischen Bereich sind wir gewohnt, uns bei Beurteilungen auf das aktuell erreichte Leistungsniveau zu konzentrieren. Der Forderung, daß es sich bei der Regelbeurteilung um eine Zeitraumbeurteilung handelt, kann durch kontinuierliche Erfassungen über die Leistungen des einzelnen entgegengewirkt werden.

Leistungsmanko Teilzeit: Teilzeitbeschäftigung kann bei dem Beurteiler den Eindruck erwecken, daß der Beruf nicht mit "voller Hingabe" ausgeführt wird. Die Aussage "Ich kann den Arbeitsauftrag heute nicht fertigstellen, weil ich heute nachmittag frei habe" enttäuscht in diesem Moment die Erwartungen des Vorgesetzten. Auch wenn der Vorgesetzte diese Begründungen akzeptieren wird, bleiben derartige "Enttäuschungen" im Gedächtnis haften und können zu negativen Einschätzungen der Leistungen und des Engagements beitragen.

6.2 Beurteilungsverzerrungen

Während bei den Beurteilungsfehlern einen quasi das Auge betrügt, zieht der Beurteiler bei den Verzerrungen - in gewissem Rahmen durchaus bewußt - bei der Bewertung der Leistung des einen Mitarbeiters eine helle Brille an, bei dem anderen eine etwas dunklere Brille an. Folgende Beurteilungsverzerrungen lassen sich herausheben.

Hierarchie-Effekt: Je höher der Rang des Mitarbeiters ist, um so besser die Beurteilung. " Die eins ist die Direktorennote - die kommt für Sie per se nicht in Betracht", mit dieser Aussage werden die Spitzennoten bei den Mitarbeitern ausgeblendet. Zudem ist feststellbar, daß Personen mit Führungsaufgaben besser beurteilt werden als die ohne Führungsaufgaben. Die (unrichtige) Auffassung: "Ein Mitarbeiter kann nicht besser beurteilt werden als sein Vorgesetzter" unterstützt den Hierarchie-Effekt.

hervorragend/ sehr tüchtig übertrifft erheblich andere Noten

A 13 95,5 % 4,5 %

A 12 55,4 % 39,9 % 4,7 %

A 11 17,1 % 51,2 % 31,7 %

A 10 0,3 % 26,5 % 73,2 %

A 09 1,7 % 98,3 %

Dem Hierarchie-Effekt kann begegnet werden,

in dem man das statusrechtliche Amt als Bezugsmaßstab festschreibt,

in dem man Richtwerte einführt und die Richtwerte, wie in der veränderten BLV geschehen, vorrangig auf die einzelnen Besoldungsstufen bezieht,

indem man die Beurteilungsergebnisse nach Abschluß eines Regelbeurteilungsdurchgangs nach Statusämtern gesondert veröffentlicht und diese Ergebnisse beispielsweise in Beurteilerschulungen erörtert.

Nähe-Effekt: Je näher der Kontakt des Beurteilten zum Beurteiler ist, um so besser fällt die Beurteilung aus. Der Nähe-Effekt findet in dem Inneren Gedanken "Ich kann mir doch meine besten Mitarbeiter nicht verprellen" seinen Ausdruck. Personen, die eng miteinander zusammenarbeiten, haben zudem mehr Gelegenheiten, ihre Leistungserwartungen aufeinander abzustimmen und ihre Zusammenarbeit zu optimieren.

Benjamin-Effekt: Je kürzer die Personen auf dem Dienstposten, um so kritischer die Beurteilung. Typische Begründungen hierfür im Beurteilungsgespräch: "Bei der ersten Beurteilung können sie noch gar nicht so gut sein. Ihnen muß einfach noch die Erfahrung fehlen. Daher habe ich bei der Erstbeurteilung auch noch nie eine hervorragende Note vergeben." Der Gedanke: "Sie müssen ja auch noch die Chance haben, sich beurteilungsmäßig zu verbessern" unterstützt diesen Benjamin-Effefkt.

6.3 Das Beurteilungsversagen oder die strategische Personalbeurteilung

Die Richtwerte zwingen zu einer stärkeren Differenzierung zwischen den Mitarbeitern. Dieses heißt nicht unbedingt, daß damit auch eine stärkere Differenzierung der Beurteilungen nach den Leistungen am Arbeitsplatz stattfindet. Man gewinnt zuweilen den Eindruck, daß Beurteiler, aber auch Behörden eine gewisse Energie auf die Frage verwenden, wie man angesichts des formalen Zwanges zu einer stärkeren Differenzierung in der Notengebung andere heimliche Prinzipien der bisherigen Beförderungspraxis, wie das Senioritätsprinzip, aufrecht erhalten kann.

Dem Beurteilungsversagen kann beispielsweise folgendes zugerechnet werden:

Offensichtliche Leistungsunterschiede zwischen Mitarbeitern werden im Beurteilungsverfahren negiert, um bei zukünftigen Beförderungsentscheidungen größere Entscheidungsspielräume zu haben.

Mitarbeiter ohne Beförderungsperspektiven verkünden vorab, daß sie - um die Beförderungschancen ihrer Kollegen nicht zu schmälern - sich mit einer durchschnittlichen Note einverstanden erklären; die Beurteiler gehen auf dieses Angebot ein.

Im Kopf des Beurteilers oder in Beurteilungskonferenzen wird die Frage: "Wer ist leistungsfähiger?" durch die Frage "Wer braucht die gute Note zu Beförderungzwecken besonders dringend?" verdrängt.

Sofern man allen Beteiligten - den Führungskräften, der Mitarbeiterschaft und der Personalvertretung - das gemeinsame Ziel unterstellt, das (Lebens-)Einkommen aller in einer Behörde tätigen Mitarbeiter insgesamt zu optimieren, dann macht dieses Ausweichen vor einer Leistungsdifferenzierung Sinn. Denn dieses Ziel wird am ehesten erreicht, wenn Beförderungen auf ältere Mitarbeiter, die die Beförderungsdienstposten bald wieder räumen, entfallen. Es ermöglicht vielen Beamten ihr "Lebensziel"- die Pensionierung mit einer möglichst hohen Gehaltsstufe - zu erreichen. Die Orientierung der Pensionen ausschließlich an diesem letzten Amt und nicht am Lebenseinkommen macht dieses Ziel besonders attraktiv.

Der Verzicht auf die Leistungsdifferenzierung ist für Beurteiler und die Beurteilten auch deshalb attraktiv,

da die persönliche und die gemeinschaftliche, zuweilen "schmerzhafte" Auseinandersetzung mit der Leistung eines Mitarbeiters nicht stattfindet;

da die Durchsetzung des Senioritätsprinzips die eigenen Beförderungschancen kalkulierbarer macht. Die persönlichen Chancen aller Mitarbeiter, mit einer hohen Besoldungsstufe aus dem Amt zu scheiden, wachsen;

da die Gefahr, von einem jüngeren Mitarbeiter auf der Laufbahn überholt zu werden oder diesen gar als Vorgesetzten akzeptieren zu müssen, schwindet;

da eine schlechte Beurteilungsnote für den einzelnen leichter zu akzeptieren ist, wenn sie mit behördeninternen "Spielregeln" hinterlegt wird (Wie z. B.: "Personen, die im Beurteilungszeitraum befördert werden, werden grundsätzlich bei der nächsten Regelbeurteilung pauschal zwei Noten schlechter bewertet").

Je nach Blickwinkel kann man dieses Ausblenden der individuellen Leistung als Beurteilungsversagen oder als eine strategische Personalbeurteilung charakterisieren: Beurteilungsversagen, weil hier das Gebot, sich um eine gerechte Beurteilung von Leistungen zu bemühen, verletzt wird. Strategische Beurteilung, weil dieser bewußte Verzicht auf eine Leistungsdifferenzierung dazu dient, andere - aus Sicht der einzelnen Führungskraft durchaus positive - Ziele zu erreichen, wie z. B. das Verhältnis zu einzelnen Mitarbeitern nicht mit Beurteilungsärger zu belasten, möglichst viele Mitarbeiter in den Genuß von Beförderungen zu bringen oder gar einen Mitarbeiter "wegzuloben". Beurteilungen vollziehen sich somit in einem Spannungsverhältnis divergierender offener und heimlicher Werte und Ziele oder, wie Breisig schreibt, Beurteiler sind keine "seelenlosen Datenregistrierer", sondern Personen "mit ihren eigenen Interessen, die genau überlegen, was sie mit bestimmten Beurteilungen bewirken (wollen)."

Die Gefahren von derartigen strategischen Personalbeurteilungen seien nicht verschwiegen: Behörden mit einer vorgegebenen allgemeinen "Schleichbahn" in die Besoldungsendstufen ist für junge aufstiegsorientierte Mitarbeiter nicht attraktiv; das Signal "Alter zählt vorrangig, Leistung ist nachrangig" bietet wenig Leistungsanreize; ältere Mitarbeiter steigen in herausgehobene Funktionen auf, ohne den Anforderungen gewachsen zu sein.

Mangels einer empirischen Datenbasis über die Beförderungspraxis im öffentlichen Dienst kann man die Häufigkeit dieses Beurteilungsversagens in Frage stellen. Nicht leugnen wird man jedoch, daß die Stärkung der Leistungsdifferenzierung von vielen als eine Bedrohung "heimlicher" Beförderungsprinzipien verstanden wird. Die Fragen

"Wie können wir als Personalstelle weiterhin die Aktion 'Abendsonne' (d. h. die Beförderung älterer Beamter) unter dem neuen Gebot der Leistungsdifferenzierung in der Regelbeurteilung realisieren?"

"Wie können wir die Praxis und die Kontinuität der 'Beförderungswartelisten' unter dem neuen Differenzierungsgebot bei der Beurteilung aufrecht erhalten?"

"Welche Möglichkeiten gibt es für den Dienstherrn, die Mindestverweildauer in einem Amte zu verlängern, um die Aufstiegschancen älterer Mitarbeiter gegenüber jüngeren "Durchstartern" zu wahren?" begegnen einem in vielen Behörden.

Die Benachteiligung jüngerer Mitarbeiter und die Tendenz zur Koppelung "Dienstalter - Beurteilungsnote" ist nicht überall nur ein heimliches Prinzip in der Personalbeurteilung, sondern zuweilen sogar ein offenes:

Mit der Leistungsbeurteilung werden die Arbeitsergebnisse bewertet. .... Bei Beurteilungen während der Probezeit und im Eingangsamt der Laufbahn entfallen bei der Bewertung der Leistungsmerkmale sowie bei der Bildung der Gesamtnote die Note "übertrifft die Anforderungen in besonderem Maße"(Ministerialblatt für das Land NRW, Nr. 89 vom 28. November 1995, S. 1671).

Während in der freien Wirtschaft die Auswahl und die besondere Förderung der "high potentials" als eine Herausforderung für die Personalarbeit angesehen wird, schreckt der öffentliche Dienst offensichtlich - um das Senioritätsprinzip nicht zu gefährden - vor einer angemessenen Wertung der Leistungen junger Spitzenkräfte zurück.

7. Fazit

Diese Unzulänglichkeiten in der Beurteilungspraxis im öffentlichen Dienst nur unter dem Aspekt "sozialpsychologischer nachgewiesener Wahrnehmungstäuschungen" zu behandeln, ist dem Problem nicht angemessen.

Die Richtwertvorgaben zwingen zu einer stärkeren Differerenzierung nach Noten; dieses heißt aber nicht zugleich, daß damit schon unbedingt eine stärkere Differenzierung der Noten nach Leistungen verknüpft ist. Es besteht zumindest die Gefahr, daß der strategische oder "voluntative Charakter" des Beurteilungsvorgangs, der bisher insbesondere den Anlaßbeurteilungen nachgesagt worden ist, sich jetzt stärker auf die Regelbeurteilung ausweitet.

Will man die Leistungsdifferenzierung in Behörden stärken, so kann dieses unter anderem durch das Erarbeiten klarer und möglichst meßbarer Leistungsziele geschehen. Der Brückenbau zwischen meßbaren Leistungszielen, Zielvereinbarungsgesprächen und der stark durch die Vorgaben der Rechtsprechung geprägten Beurteilungspraxis im öffentlichen Dienst ist eine vorrangige Aufgabe der Verwaltungsreform.

9	weit über Durchschnitt (Richtwert 15%)	übertrifft die Anforderungen in besonderem Maße
8 7	über Durchschnitt (Richtwert 35%)	übertrifft die Anforderungen
6 5 4	Durchschnitt	entspricht den Anforderungen in jeder Hinsicht
3 2	unter Durchschnitt	entspricht im allgemeinen den Anforderungen
1	weit unter Durchschnitt	entspricht nicht den Anforderungen

	hervorragend/ sehr tüchtig	übertrifft erheblich	andere Noten
A 13	95,5 %	4,5 %
A 12	55,4 %	39,9 %	4,7 %
A 11	17,1 %	51,2 %	31,7 %
A 10	0,3 %	26,5 %	73,2 %
A 09		1,7 %	98,3 %