<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
  <meta content="text/html;charset=ISO-8859-1" http-equiv="Content-Type">
</head>
<body bgcolor="#ffffff" text="#000000">
I think most implementations just use regexs to extract the discovery
information, since parsing html is hard, especially when it's not valid.<br>
<br>
Allen<br>
<br>
<br>
Breno de Medeiros wrote:
<blockquote
 cite="mid:29fb00360908101019x7af91183oae23166406bdf44d@mail.gmail.com"
 type="cite">
  <pre wrap="">This is not only a latency issue: Parsing HTML correctly is quite
hard, because HTML code is often non-standard compliant. HTML
discovery potentially hurts interoperability, since HTML clients are
generally not interchangeable.

On Mon, Aug 10, 2009 at 10:12 AM, Allen Tom<a class="moz-txt-link-rfc2396E" href="mailto:atom@yahoo-inc.com">&lt;atom@yahoo-inc.com&gt;</a> wrote:
  </pre>
  <blockquote type="cite">
    <pre wrap="">Another problem is that the entire page needs to be downloaded in order to
parse it, which is problematic since many pages are very heavyweight.
    </pre>
  </blockquote>
  <pre wrap=""><!---->


  </pre>
</blockquote>
<br>
</body>
</html>