Large Language Models (LLMs) sind die Enzyklopädien unserer Zeit. In ihnen steckt „das Wissen der Welt“ – und, anders als früher müssen wir heute nicht mehr mühsam Inhalts- und Stichwortverzeichnisse durchforsten, um den passenden Absatz zu finden. Stattdessen stellen wir einfach eine Frage und generative KI liefert uns die gesuchte Antwort.
Erstreckt sich unsere Fragestellung über mehrere Themengebiete, kann die KI diese miteinander verknüpfen und eine kombinierte, kontextbezogene Antworten liefern. Dabei ist jedoch Vorsicht geboten! Die Antworten generativer KI sollten immer kritisch hinterfragt und nicht ungeprüft übernommen werden!
Wer den Komfort des einfachen Fragens aber einmal erlebt hat, kann gut verstehen, warum sich Nutzende ähnliche Unterstützung auch im Umgang mit firmeninternen Daten direkt in ihren Geschäftsanwendungen wünschen. Natürlich sind diese Daten nicht in den großen Sprachmodellen der Hersteller enthalten – und das ist auch gut so.
Sie können und müssen selbst steuern, welche Daten Sie der KI, aber vor allem auch welchem Nutzerkreis sie welche Informationen zur Verfügung stellen möchten. Bereichs-, abteilungs- und vor allem unternehmensweit verfügbare Daten können sehr gut geeignet sein, um Wissen einfach den Mitarbeitenden zur Verfügung zu stellen.

Gerade bei Daten, die nur bereichs- oder abteilungsweit zur Verfügung stehen, ist jedoch die Anwendung eines Berechtigungsmodells erforderlich.
Stellt sich dennoch die Frage: Wie KI Ihre Unternehmensdaten, z.B. Dokumente kennenlernen kann? Genau diese Frage beleuchten wir in diesem Blogbeitrag Schritt für Schritt.
Häppchen vom Dokumentenbuffet
Um Ihre Unternehmensdokumente für die KI verständlich zu machen, werden sie in einer sogenannten Ingestion Phase (oder Indexierungsphase) in für die KI verständliche Häppchen („Chunks“) zerlegt.
Für die Chunks werden sogenannte Embeddings berechnet. Embeddings sind eine mathematische Repräsentation des Chunks, aber nicht (nur) basierend auf dessen Text, sondern dessen Bedeutung. Ein Beispiel: „Urlaub beantragen“ und Abwesenheit sind zwar aus Sicht der Rechtschreibung völlig unterschiedliche Wörter, liegen thematisch, aber nah beieinander. Daher liegen ihren Vektoren in einer multidimensionalen Vektordatenbank nah beieinander. Basierend auf dieser Nähe im Vektorraum kann der KI-Generator einen Zusammenhang ableiten.

Abrufen – Anreichern – Generieren
Während wir oben insbesondere das Abrufen Ihrer Dokumente im Detail beleuchtet haben, nennt sich der gesamte Prozess, um Ihre Dokumente zu verarbeiten, „RAG“ (retrieve, augment, generate).
Retrieve:
Wie dies funktioniert, haben wir bereits im Bereich „Häppchen vom Dokumentenbuffet“ oben gesehen.
Augment:
Ihre Anfrage/der Prompt wird ebenfalls in Vektoren umgerechnet. Nun wird in der Datenbank nach ähnlichen Vektoren gesucht. Die Anfrage wird mit samt den gefunden Vektoren aus der Datenbank an den Generator und damit an die „Generate-Phase“ übergeben.
In der Augment-Phase kann auch weiter Einfluss auf den Prompt genommen werden, um den Kontext genauer zu definieren. Dies könnte ein Role-Prompt sein, also ein vorangestellter Prompt, der den Kontext noch genauer eingrenzt, z.B.: „Du bist ein Human Ressource-Agent, der unseren Mitarbeitenden hilft, die Informationen aus unseren HR-Dokumenten, die auf dem HR-SharePoint gespeichert sind, zu finden. Liefere nur Antworten, wenn diese in den Dokumenten hinterlegt sind und gibt jeweils das Dokument als Quelle deiner Antworten bekannt.“
Generate:
In der Generate-Phase erzeugt das LLM nun aus den Prompts (Role-Prompt und User-Prompt) und den Informations-Chunks, die aus unseren indexierten Dokumenten entstanden sind, eine Antwort in natürlicher Sprache, z.B.: „Urlaubsanträge können bei uns nur in SuccessFactors gestellt werden. Soll ich dir erklären, wie du das in SuccessFactors tun kannst?“
Mit Copilot Studio Wissen in SharePoint-Dokumenten nutzen
Microsoft Copilot bietet Ihnen die Möglichkeit Ihr eigenes RAG-Setup sehr einfach zu erstellen. Viele komplexe Schritte der Ingestion-Phase werden dabei unkompliziert für Sie übernommen. Wenn Sie in Copilot Studio einen neuen Agenten erstellen und in der Sektion „Wissen“ Ihre SharePoint-Site mit den relevanten Dokumenten auswählen, sind Sie eigentlich schon fast fertig. Sie könnten dabei noch auf Dokumentenbibliotheken oder Ordner eingrenzen. Damit geben Sie Copilot bekannt, welche Dokumente per RAG befragbar sein sollen.

Das Feintuning können Sie nun in der Sektion „Anweisungen“, im sogenannten „Role-Prompting“ vornehmen. Hier geben Sie dem Agenten Detailanweisungen wie auf die Fragen reagiert, bzw. wie die Antworten beschaffen sein sollen. Da es sich immer noch um einen Microsoft Copilot mit einem LLM im Hintergrund handelt, fügen wir gerne folgende Anweisung an, um zu verhindern, dass Antworten aus öffentlichen Quellen einfließen. Wir möchten in unserem Fall nur Antworten basierend auf unseren SharePoint-Dokumenten: „Verwende ausschließlich interne Inhalte der referenzierten, internen Wissensquelle. Wenn dort keine Antwort zu finden ist, sage es und nutze keine öffentlichen Quellen.“
Sinnvoll könnten auch sein:
- „Fasse die Antworten kurz und prägnant.“
- „Füge die Quelle, aus der die Antwort stammt, an.“
Wenn Ihr Agent eine recht spezifische Aufgabe hat, z.B. wenn Sie nur Antworten aus Angeboten, die Sie Ihren Kunden geschickt haben, möchten, so könnten Sie dies ebenfalls mitgeben: „Verwende nur Dokumente vom Inhaltstyp „ausgehendes Angebot“ und Dokumente, die eindeutig als ausgehendes Angebot identifizierbar sind. Ignoriere andere Dokumententypen für die Erstellung der Antwort.“
Und schon können Sie die Vorteile nutzen: Sie finden nicht nur Dokumente, sondern erhalten direkt Antworten, ohne das Dokument überhaupt öffnen zu müssen. Natürlich haben Sie dennoch die Möglichkeit die Antworten anhand der Quellenangabe zu verifizieren.

Die verschiedenen Möglichkeiten ein RAG-Setup abzubilden
Der KI-Werkzeugkasten von Microsoft liefert mit seinem breiten KI-Portfolio gleich mehrere Ansätze, damit Sie „Ihre Dokumente befragen können“. Von sofort einsatzbereiten Optionen wie Microsoft 365 Copilot über die flexiblen, anpassbaren No-Code-Lösungen mit Copilot Studio und Agenten bis hin zu detailliert individualisierbaren und integrierbaren Ansätzen mit Azure OpenAI, Azure AI Search und der Microsoft 365 Copilot Retrieval API. Damit stehen zahlreiche Möglichkeiten zur Verfügung, um spezifische Geschäftsbedürfnisse zu adressieren.
Richtig viel Nutzen schaffen Sie für sich und Ihre Mitarbeitenden im Unternehmen, wenn die KI nicht nur Antworten liefern kann, sondern Aktionen für Sie durchführt – sich also direkt in Ihrem Prozesse integriert. Konkret könnte ein Agent in unserem oben genannten Beispiel, in dem ein Mitarbeiter versucht herauszufinden, wie man einen Urlaubsantrag stellt, auch so antworten: „Lieber Peter, du hast für 2025 noch 14 Urlaubstage. Ich kann den Urlaub gerne für dich beantragen. Der Antrag wird zuerst an deine Vorgesetzte Sara zur Genehmigung geschickt. Danach werden die Projektleiter deiner aktiven Projekte informiert. In welchem Zeitraum möchtest du Urlaub beantragen?“
Fazit: So nutzen Sie SharePoint als Wissensquelle mit Copilot
Unsere bisherigen RAG-Projekte zeigen, dass die richtige Methoden-Wahl entscheidend für den Erfolg Ihres KI-Projektes ist. Während das Zusammenbringen von Unternehmensdaten und KI ein erster Schritt ist, möchten wir in unseren Kundenprojekten weiter Mehrwerte schaffen:
- Nahtlose Integration in Geschäftsanwendungen wie Dynamics CRM oder SAP: Sie können direkt dort Fragen stellen, wo Sie ohnehin arbeiten, ohne Programmwechsel. Noch besser: Die KI führt direkt Aktionen für Sie aus!
- Der KI Kontext geben: Die KI kennt den Kontext, in dem der Prompt geschrieben wird. Dadurch können Sie sich kürzer fassen und erhalten dabei relevantere Antworten.
Gerne besprechen wir mit Ihnen Ihre Ideen und Ansätze, KI in Ihrem Unternehmen zu nutzen und teilen unsere Erfahrung, damit Sie Ihre Dokumente auch einfach befragen können.
Sie möchten mehr dazu erfahren, wie Sie Ihre Daten fit für Copilot machen können? Dann schauen Sie sich gerne unsere Webinar-Aufzeichnung „Können Ihre Daten Copilot?“ an!




