사진이나 스타일을 무시하고 글자만 기준으로 판단하려면 strip_tags 함수로 모든 태그와 HTML 속성을 삭제한 후, 정규식으로 모든 공백, 줄바꿈 등을 삭제하면 됩니다. 문제는 완벽하게 똑같은 글이 아니라 단순히 비슷한 글을 판단하는 거죠. PHP에서 제공하는 levenshtein, similar_text 등의 함수를 사용해서 얼마나 바뀌었는지 파악할 수는 있지만, 길이 제한이 있기도 하고, 엄청나게 느릴 때도 있고, 영문 위주의 알고리즘을 쓰기 때문에 한글을 비교하면 이상한 결과가 나오기도 합니다.
사실상 중복 글이 완벽히 같은 경우가 거의 없다는 게 문제입니다. 예를 들어 사진만 가져오고 본문은 다를수 있고, 본문이 같더라도 스타일이 다르다던가 해서(ex. 올라간 글을 그냥 복붙해서 스타일이 같이 입력됨) 다른 글이 될수도 있고요.
다만 스택오버플로우 같은 곳은 워낙 중복 질문이 많다 보니 제목을 입력하면 비슷한 질문들을 보여주는 것으로 알고 있습니다. 그중 비슷한게 있으면 가서 참고하고 비슷한 질문은 새로 쓰지는 말라는 의미죠.