Single cycle implementation:한 사이클에 한 명령어를 완전히 실행한다.모든 명령어가 동일한 시간을 소요한다.구현이 간단하지만 성능이 제한적이다.각 하드웨어 단계를 한 명령어에만 사용한다.Pipeline implementation:명령어 실행을 여러 단계로 나누어 처리한다.여러 명령어를 동시에 다른 단계에서 처리한다.전체적인 처리량이 증가한다.하드웨어를 더 효율적으로 사용한다.구현이 복잡하며 파이프라인 해저드 관리가 필요하다. Instruction fetchInstruction fetch 단계는 다음과 같이 작동한다:Instruction memory에 32비트 명령어가 주소에 맞게 저장되어 있다.PC(Program Counter)가 instruction memory에 명령어 주소를 ..
Branch Prediction은 Fetch 단계에서 세 가지를 예측하는 기술이다. 이는 명령어의 branch 여부, branch의 taken/not taken 여부, 그리고 branch의 target address이다.Branch Target Buffer(BTB)는 이전에 taken된 branch의 target address를 저장하는 저장소다. BTB는 현재 명령어가 branch인지 판단하는 데도 사용된다. Branch Prediction은 정적 예측과 동적 예측으로 나뉜다. 정적 예측에는 always not taken, always taken, BTFN, profile based, program analysis based 방식이 있다. 동적 예측에는 Last time prediction, Two-b..
Thread란?Thread는 메모리와 레지스터 상태에 대한 명령어 흐름을 나타내며, CPU가 실행하는 기본 단위이다. Thread가 실행 중일 때, 그 상태는 register states로 표현되며 이를 Thread Context라고 부른다. Thread는 프로그램의 병렬 실행을 가능하게 하며, 현대 프로세서 설계에서 중요한 요소이다. Multithreading이란?Multithreading은 하나의 프로세서가 여러 Thread Context를 가지는 구조를 말한다. 이를 통해 하나의 프로세서가 여러 작업을 병렬적으로 처리할 수 있다. 이러한 방식은 CPU의 유휴 시간을 줄이고 자원의 활용도를 극대화하여 성능을 향상시킬 수 있다. Multithreading의 장점Multithreading은 다양한..
컴파일 과정에서부터 data dependeces을 감지하고 nop을 넣어 depenceces를 제거하는 것 data를 write하기 이전에 미리 그 값을 다음 명령어로 전달해주는 방식 다음 명령어로 data를 전달해줄 수 있는 line 만들어 data dependences를 줄인다. 하지만 모든 경우에 적용될 수 있는 것은 아니고 어쩔 수 없이 stall 해줘야 하는 상황이 있을 수 있다. ex) lw 다음에 and 명령어가 올 때 등 그 이전에 하드웨어를 추가로 둬서 branch가 taken인지 not taken인지, taken이라면 어디로 가야하는지를 ALU 이전에 계산하는 방식 장점 - branch를 잘못 예측했을 때의 패널티를 줄일 수 있다 -> CPI가 줄어듬 단점 - clock cycle ti..
메모리에 instruction data가 올라오고 cpu는 매 클럭마다 instruction을 수행 컴파일러: high lever language를 다른 언어로 변환(컴파일)하고 그 결과를 목적 파일에 써 놓는 프로그램 인터프리터: 기계어로의 컴파일 과정을 거치지 않고 소스코드를 바로 실행하는 일종의 가상머신 어셈블러: 어셈블리 언어 프로그램을 기계어 프로그램으로 변환함 레지스터 - 레지스터는 메모리에서 가져온 데이터를 저장하는 CPU 내부 스토리지이다. - 한 사이클에 읽거나 쓸 수 있다. - 산술논리 연산자가 동작한다 - MIPS ISA에는 32개의 32bit 레지스터가 존재한다. 각 레지스터는 32개의 플립플롭을 가지고 있다. - 레지스터가 32개인 이유는 레지스터 수가 매우 많으면 단순히 더 멀리..
컴퓨터의 세가지 중요 요소 - computation, communication, storage/memory 성능이 높아질수록 필요한 파워가 늘어나 효율이 좋지 않음 -> 하나의 코어의 성능을 높이기보다는 여러 개의 코어를 사용하는 것으로 바뀜 Performance = 1/execution time Cpu execution time = Cpu clock cycles(required for executing a program) X Clock cycle time Clock cycle time = 1/clock speed Execution time = clock cycle time X instructions X avg CPI(avg clock cycle per instruction) SPEC: System Pe..