Jedes RTP-Paket ist mit einem Header versehen, der verschiedene Informationen zum Inhalt des Pakets und dessen Übertragung enthält. So beinhaltet der Header unter anderem Versions- und Sequenznummern, die eindeutige Sender-ID, Zeitstempel und Informationen zum Datenformat. Der Rest des Pakets ist mit Nutzdaten gefüllt.
Für die Übertragung der Medienströme sind in der Real-Time-Transport-Protocol-Architektur einzelne Komponenten definiert. Die wichtigsten dieser Komponenten sind die Synchronization Source, der Translator und der Mixer. Während die Synchronization Source die eigentliche Datenquelle darstellt und mit einem 32-Bit-Identifikator gekennzeichnet wird, ist der Translator in der Lage, RTP-Pakete weiterzuleiten und bei Bedarf die Kodierung der zu übertragenden Daten zu verändern. Der Mixer schließlich kann die Datenströme mehrerer Quellen zusammen führen und in einem neuen Datenstrom weiterleiten.